ETL工具对比参考文档 - 图文(3)

2019-08-29 19:53

的熟悉情况,没有太大的可比性;

4、 Kettle是基于Java开发的ETL工具,在使用过程中需要借助JVM,在数据抽取速度以及大数据处理能力方面远远不如Informatica;(Kettle在异构数据库的处理能力比同构数据库的处理能力要弱很多,特别是夸服务器之间就更弱了)

5、Informatica将客户端和服务端进行分离,而Kettle则没有但需要基于JVM;因此Kettle的部署比较简易; 6、稳定性方面,Informatica也有较大的优势; 7、Informatica将元数据及一些配置信息存储于配置的数据库,也就是说Informatica需要借助其他数据库才能运行; 8、 Kettle的数据转换过程相对比较灵活,可以是手工编写的SQL语句、Java代码、正则表达式等;Informatica则由Data Quality组件来保证数据的质量,当然也支持SQL语句,两者没有明显的差异;

9、Informatica和Kettle均有监控日志功能,这也是ETL工具必须具备的,Informatica的监控日志相对要详细一些,但在实际应用中,大多数情况下不需要这么详细;

10、数据源方面,二者没有明显区别,Kettle支持广泛的数据库、数据文件等,同时支持扩展;Informatica广泛支持各类结构化、非结构化的数据源;

Pentaho的Javascipt在写数据整合任务的时候非常强大。

Informatica有很多的企业级特性,比如数据库之间的负载均衡。 Pentaho的界面相较于Informatica来说需要的培训要少很多。 Penatho不需要像Informatica那样大的前期投入。

Informatica比Pentaho更快。Informatica有下推优化,但是如果对Pentaho做一些调整,并且有更多对数据库的了解,你可以改进Pentaho的速度。

你可以在许多不同的服务器上部署Pentaho(只要你愿意,免费的),把它当作一个个集群。 Informatic比Pentaho有好的多的监控工具。 印象

Infomatica真的是一个非常好的企业级ETL套件,但是非常大且昂贵。

如果你的系统足够小,而且愿意尝试Pentaho,并且有很多大公司成功使用Pentaho的案例。

参考4:

--kettle和Informatica

目前业内比较主流的ETL工具有很多,本文主要对开源kettle和Informatica这两款工具,从各方面进行对比分析。

数据捕获能力

1、如果要对数据库进行实时监控,kettle通常会采用CDC的方式,Informatica会采取PWX的方式。

优点:可以准确的识别变化数据,包括上游系统被删除的数据。

缺点:CDC和PWX都需要部署在核心数据库服务器,会对核心数据库造成一定压

力。

2、如果不采用实时监控,采用其他方式抽取,(比如时间戳)。 优点:不需要在核心服务器部署,对核心服务器基本不会造成压力。 缺点:被删除的记录,以及手工修改但是没有修改时间戳的记录无法在下游数据库识别。

整体性能对比

1、Informatica处理数据能力比kettle强。

2、Informatica属于收费软件,出现困难问题,可以找厂商解决。 3、kettle比较容易上手,Informatica需要充足的学习准备。 4、kettle部署相对简单。

数据处理能力

ETL工具在处理数据的时候,要目标库日志空间,表空间足够。 日志需要定期清理,表空间自动扩展就好。 kettle:可以高效处理千万级别以下数据。 Informatica:可处理上亿量级的数据。

实时监控对核心数据库压力

CDC:部署在核心数据库,读取核心数据库的归档日志,会在核心数据库生成实体表(每次数据变化,都会生成条记录,可以清理)。

PWX:部署在核心数据库,对核心压力较小,但是如果异常中断,重新启动的时候,会占用较大服务器资源。


ETL工具对比参考文档 - 图文(3).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:反应器内件安装方案(正式版) - 图文

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: