admin 管理员组

文章数量: 1086019


2024年4月14日发(作者:c语言判断运算符优先级)

常用ETL工具对比

目前市场上主流的ETL工具有,IBM公司的DataStage、Informatica公司的Powercenter、

免费ETL工具Kettle等等。

1、 Datastage

DataStage 是一套专门对多种操作数据源的数据抽取、转换和维护过程进行简化和自动

化,并将其输入数据集市或数据仓库目标数据库的集成工具。他的优点如下:

具有多种数据源的连接能力,包括目前市场上的大部分主流数据库,并且具有优秀的

文本文件和XML文件读取和处理能力。

特点

软件安装和

升级

处理性能

使用场景或者益处

软件安装和升级的便捷程度

数据的加工效率

说明

图形安装,安装步骤较为复杂

并行运行能力,ETL Job的控件大多数都支

持并行运行,此外DataStage企业版还可

以在多台装有DataStage Server的机器上

并行执行,这也是传统的手工编码方式难

以做到的。这样,DataStage就可以充分利

用硬件资源。而且,当你的硬件资源升级

的时候也不用修改已经开发好的ETL Job,

只需要修改一个描述硬件资源的文件即

可。并行执行能力是DataStage所能处理

数据的速度可以得到趋近于线性的扩展,

轻松处理大量数据。

元数据信息不公开

没有真正的RECOVERY机制

全图化开发,无编码

只提供两个角色:Developer和Operator

datastage几乎支持目前所有的编码格式

元数据管理 与业务系统的集成

抽取的容

错性

操作便捷

健壮的安

全性

语言支持

错误还原和断点功能

开发和运维的便捷性

用户权限管理体系

多种字符集支持

2、 Informatica

Informatica PowerCenter用于访问和集成几乎任何业务系统、任何格式的数据,它可以

按任意速度在企业内交付数据,具有高性能、高可扩展性、高可用性的特点。Informatica

PowerCenter包括4个不同版本,即:标准版,实时版,高级版,云计算版。同时,它还提

供了多个可选的组件,以扩展Informatica PowerCenter的核心数据集成功能,这些组件包括:

数据清洗和匹配、数据屏蔽、数据验证、Teradata双负载、企业网格、元数据交换、下推优

化(Pushdown Optimization)、团队开发和非结构化数据等。

特点

软件安装和

升级

处理性能

使用场景或者益处

软件安装和升级的便捷程度

数据的加工效率

说明

完全图形化安装,无需额外安装平台软

件,且不需修改系统内核参数

可并行运行多个Session提高性能

可使用分区写目标数据,速度大大提高

可建立多个PowerCenter Server, 并发运

行多个Session和workflow,这样充分地利

用多CPU和系统资源

结合streaming和文件交换区的技术,优

化地利用硬盘和内存的资源

Session支持多线程和管道技术(piepline)

元数据资料库可基于所有主流系统平台

的关系型数据库(Oracle、DB2、teradata、

Informix、Sql server等)产品均支持多CPU

的各主流系统平台,以适应不同客户的特

定需求

抽取出错的恢复(RECOVERY),可实现断

点续传的功能

全图化开发,无编码,操作性,被TDWI连续

七年评为“数据仓库最佳实践”奖

多范围的用户角色和操作权限(只读、操

作和设计等)

权限可以分到用户或组

使用细致的锁(Lock)

支持编码格式十分丰富

元数据管理 与业务系统的集成

抽取的容

错误还原和断电功能

错性

操作便捷

开发和运维的便捷性

健壮的安

用户权限管理体系

全性

语言支持

多种字符集支持

3、 Kettle

Kettle是一款国外开源的etl工具,纯java编写,可以在Window、Linux、Unix上运行,

绿色无需安装,数据抽取高效稳定,提供丰富的sdk,并开放源代码,便于二次开发包装。

特点

软件安装和

升级

处理性能

使用场景或者益处

软件安装和升级的便捷程度

数据的加工效率

说明

绿色安装,直接使用

使用JDBC,性能与Datastage、Informatica

相比要差很多,适合于数据量较小的ETL

加工使用

无元数据管理

无RECOVERY功能

全图化开发,无编码,操作简单

简单的用户管理功能

支持常见的编码格式

元数据管理 与业务系统的集成

抽取的容

错性

操作便捷

健壮的安

全性

语言支持

错误还原和断电功能

开发和运维的便捷性

用户权限管理体系

多种字符集支持


本文标签: 数据 安装 集成 系统 工具