admin 管理员组

文章数量: 1184232


2024年4月15日发(作者:weight物理定义)

大数据平台招标参数

1大数据基础平台

1.1大数据实时同步转换平台

大数据实时同步转换平台主要功能是实时地将业务库中的数据同步到区域

大数据中心库中,同时可以对数据进行转换处理,将转换后的数据写入到专用的

数据集市中,以供其他业务系统使用。该系统需要提供可配置的、可调度的和快

速部署的管理工具,对数据在同步和转换中的异常要有捕捉和补偿机制,从而确

保数据的最终一致性。

 数据实时同步

采用基于数据库日志解析的大数据同步技术:先将源端数据一次性地全量同

步至大数据平台,然后通过解析源数据库在线日志或归档日志获取变更的增量数

据,再将这些增量数据实时同步到目标大数据平台。变更类型包括insert、

update、delete三种操作,并将其解析为DML或DDL消息。

支持异构的多元化的源数据库:必须能完好地支持当前主流的数据库产品,

如Oracle、DB2、SQL Server、MySQL和Sybase等。

实时性:要能快速地将源数据系统中变更的数据同步到目标数据系统中去,

每笔变更实时同步转换时间小于15秒。

非侵入式:要与源系统相对分离,不改变源端数据库,不需要对源端数据库

进行表结构等改造。

对源数据库性能影响小:不能对源系统的性能造成大的压力,对源端数据库

性能影响小于5%。

异常处理:要能够将业务系统中变更的数据完整地反映到目标数据系统中去,

即使同步进程意外中断,还可以对数据进行重新同步,确保数据的最终一致性。

 数据同步、转换、装载任务设计、部署和运行

异构、兼容性:实时同步转换平台采用分布式B/S架构,任务、转换设计Web

可视化,兼容kettle定义的转换和任务,任务具备目录管理和基本信息管理。

高可用性、高吞吐量:任务分布式集群执行支持集群方式,根据转换处理速

度的需求可以灵活增加转换节点,同步转换吞吐每秒9000条记录以上。集群支

持MASTER/SLAVE模式,允许转换以及转换中的步骤在集群多台服务器节点上并

发执行。

分布式消息总线控制:支持将DML、DDL消息用分布式消息系统分类保存,

消息及时存盘,定时自动销毁,类目删除;提供消费接口供后端转换任务消费。

任务元数据管理:可定义每次转换前后的数据结构和转换规则

数据抽取定义:源对象数据格式、输出对象数据格式、字段抽取规则、抽取

条件设置、输出排序规则、抽取调度管理。

数据转换任务部署:支持一次设计多次部署,以提高数据交换的实施效率;

任务部署时应支持灵活的部署参数定义,以提高数据同步任务设计的重用性。支

持工作流,可将若干数据同步任务按一定次序串接起来。

数据同步、转换、装载任务监控管理:支持远程监控和管理远程执行的转换

和作业,另外,提供一键恢复的功能,保证了在主机意外宕机或者平台执行任务

遇到问题时,平台能够从错误中快速恢复。平台还需要额外提供一个错误列表,

供系统运维人员查看,可以及时提醒系统运维人员对平台的任务进行维护。

数据同步、转换、装载任务定时调度:可以定时调度转换及作业。

数据质量统计:显示数据传输统计指标,包括:各业务转换上传条数、实际

上传条数、错误数和上传正确率等信息。提供条件筛选功能,可以指定某机构,

以及开始日期和结束时间来进行所需数据质量结果筛选。

 大数据存储支持

存储主要采用基于HDFS的分布式文件系统和基于HBase的分布式关系数据

库,在中心数据库端,获取消息队列中的数据库变化的日志文件,按照完全同步

的要求插入或更新到Hadoop平台的分布式关系大数据库中。

1.2大数据实时存储计算平台

大数据实时存储计算平台是一套系统化的分布式平台,包括数据分布式存储、

分布式消息队列和分布式计算等功能组件。在分布式存储方面,可以实现对存储


本文标签: 数据 转换 任务 平台 分布式