DMX-h使用户拥有更多的技能—不仅仅是MapReduce的编程人员一般的技能,完成ETL的工作却不需要MapReduce,不用复杂的Java工具或者pig代码,取而代之的是简易使用的图形用户界面进行管理。
DMX-h使运行在Hadoop上应用程序更加容易使用、维护和再次使用。 ? 基于Windows的图形用户界面管理 ? 内置强大的格式转换功能
? 通过实施普通ETL任务,如文件格式变化任务,joins或者其他任务,加速Hadoop的数据集成效率
? 内置的元数据功能,更好的进行数据再次使用、分析和数据分类 D
DMX-h不会生成任何代码,因此用户不用担心理解、维护和要对成千上万行代码进行调优的难题
更智能的架构,无代码生成、无需编译
DMX-h不仅是一个简单的Hadoop ETL工具。想其他的ETL工具,如Informatica或者Tailend,在数据抽取之后会生成一系列代码,而要对其后期进行调优和维护是非常困难的。DMX-h不是一个代码生成器,相反,是在Hadoop上自动高效进行数据抽取的工具 ,是在Hadoop上的大型机上运行,解决所有节点的数据,就好像已经是Hadoop大型机的一部分似的。这就意味着没有代码生成,加快MapReduce的运行。用户可以无缝地把DMX-h插入到Hadoop上,用来优化Map-Sort和Reduce-Merge执行的任务。
DMX-h是一个非常简易的工具,遗留痕迹很少,不依赖于第三方系统,如RDMS、Compiler和应用程序。因此,DMX-h能够轻易的部署在所有Hadoop集群上的数据节点上。
16
更加智能的连通:只需要这一个工具,就可以连接所有的资源和目标。
DMX-h的超强的连通性实现了Hadoop ETL上的成功部署。有了DMX-h,用户只需要用一个工具就可以连接到Hadoop所有的资源和目标上。无代码和无脚本。平行地在所有的可视数据源上进行数据加载和抽取,而且更省时。
DMX-h是一种高性能的连接器,用于连接主要的RDBMS应用程序,XML,平面文件和其他系统。此外,DMX-h独特的数据访问能力能够为用户解决一系列的数据难题。
DMX-h也适用于数据前处理阶段,如数据清洗、数据分类、数据分区和数据压缩,这些都是在加载到Hadoop的前期工作,可以提高数据集成的性能和实现数据安全存储。
更智能的灵活性。每个节点的性能更优。
17
随着数据处理的需求的增加,Hadoop要增强其灵活性就必须增加数据的节点。然而,这也会导致硬件成本的增加。因此,优化每个数据节点的效率是非常重要的。
大多数的ETL工具是通过在Hadoop的表层增加一抽取层。完美的Hadoop ETL部署必须做到没有代码生成同时实现性能高效。
DMX-h通过优化集群中每个数据节点以解决以上提到的问题(提高Hadoop的灵活性)。一旦部署了DMX-h,就能够自动优化CPU使用、内存使用和数据输出输入的问题,因此每个节点的数据都能够实现高性能,而且无需调优。
每个数据节点高性能和高效率就意味着要在更少的时间和更少的服务器上处理更多的数据
详情请访问:http://www.bigdataunion.org/detail2.php?id=28
18