Hadoop学习资源集合
本文章来自于阿里云云栖社区
摘要: Hadoop是一个由Apache基金会所开发的开源分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储。为了云栖社区组织翻译了GitHub Awesome Hadoop资源,涵盖Hadoop中常见的库与工具、存储方式、数据库,以及相关的书 Hadoop是一个由Apache基金会所开发的开源分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储。Hadoop得以在大数据处理应用中广泛应用得益于其自身在数据提取、变形和加载(ETL)方面上的天然优势。Hadoop的分布式架构,将大数据处理引擎尽可能的靠近存储。
为了帮助大家进一步了解Hadoop,云栖社区组织翻译了GitHub Awesome Hadoop资源,涵盖Hadoop中常见的库与工具、存储方式、数据库,以及相关的书籍、网站等资源。
目录:
? o o o o o o o o o o o
Awesome Hadoop Hadoop YARN NoSQL
Hadoop上的SQL 数据管理
工作流、生命周期及管理 数据提取与整合 DSL 库和工具 实时数据处理 分布式计算和编程
o o o o o o o ? o o o o
包装、配置和监测 监测 搜索 安全性 基准
机器学习和大数据分析 其他 资源 网站 演示 书籍
Hadoop &大数据事件
Hadoop ? Apache Tez – 它是一个针对Hadoop数据处理应用程序的新分布式执行框架,该框架基于YARN; ? SpatialHadoop – SpatialHadoop是Apache Hadoop的MapReduce扩展,专门用于处理空间数据; ? ? GIS Tools for Hadoop –用于Hadoop框架的大数据空间分析; Elasticsearch Hadoop – Elasticsearch与Hadoop深度集成,可用于实时搜索和分析,支持Map/Reduce、 Cascading、Apache Hive和Apache Pig; ? ? ? ? ? ? ? ? dumbo - Python模块,使Hadoop程序的编写和运行更为容易; hadoopy – 用Cython写的Python MapReduce库; mrjob - mrjob是一个Python2.5+程序包,可以帮助编写和运行Hadoop工作流; pydoop -为Hadoop提供Python API的程序包; hdfs-du -Hadoop分布式文件系统(HDFS)的交互可视化; White Elephant - Hadoop的日志聚合器和仪表板; Kiji Project Genie - Genie提供REST-ful API,以便运行Hadoop、Hive和Pig jobs,还管理多个Hadoop资源,并在它们之间进行作业提交; ? Apache Kylin –最初来自eBay公司的开源分布式分析引擎,能提供Hadoop之上的SQL查
询接口及多维分析(OLAP),以支持超大规模数据集;
? ?
Crunch -基于Go的工具包,用于在Hadoop上的ETL和特征提取; Apache Ignite -分布式内存平台。
YARN ?
Apache Slider - Apache Slider是Apache软件基金会的孵化项目,旨在能够轻松地实现现
有应用程序到YARN集群的部署;
?
Apache Twill - Apache Twill是Apache Hadoop? YARN的抽象层,降低了开发分布式应用
程序的复杂度,让开发者更专注于自己的应用逻辑;
?
mpich2-yarn –在YARN上运行MPICH2。
NoSQL 下一代数据库大多定位于以下几点:非关系型、分布式、开放源码和横向扩展。
? ? ? ? ? ? ? Apache HBase - Apache HBase; Apache Phoenix – Hbase的SQL驱动,支持辅助索引; happybase -一个开发者友好型的Python库,用于Apache HBase的交互; Hannibal –用于监测和维护HBase集群的工具; Haeinsa –用于HBase的线性可扩展多行多表交易库; hindex – Hbase的辅助索引; Apache Accumulo - Apache Accumulo可排序分布式键/值存储,是一个强大的、可扩展高性能数据存储和检索系统; ? ? OpenTSDB -可扩展时间序列数据库; Apache Cassandra Hadoop中的SQL ? Apache Hive ? ? ? ? ? ? ? Apache Phoenix - Hbase的SQL驱动,支持辅助索引; Pivotal HAWQ – Hadoop上的并行数据库; Lingual -用于级联的SQL接口(MR / TEZ工作发生器); Cloudera Impala Presto –用于大数据的分布式SQL查询引擎,该查询引擎由Facebook开发,现已开源; Apache Tajo - Apache Hadoop的数据仓库系统; Apache Drill 数据管理 ? ? Apache Calcite -动态数据管理框架; Apache Atlas -用于元数据标记及类群捕获,支持复杂的商业数据分类。 工作流,生命周期及管理 ? ? ? ? ? ? Apache Oozie - Apache Oozie; Azkaban Apache Falcon -数据管理与处理平台; Apache NiFi -数据流系统; AirFlow – AirFlow是以编程方式建立、调度和监控数据管道的平台; Luigi - Python包,用于构建批处理作业的复杂管道。 数据提取及整合 ? ? ? ? ? Apache Flume - Apache Flume; Suro - Netflix分布式数据管道; Apache Sqoop - Apache Sqoop; Apache Kafka - Apache Kafka; Gobblin from LinkedIn – Hadoop的通用数据提取框架; DSL ? ? ? ? ? ? ? ? Apache Pig - Apache Pig Apache DataFu – Hadoop中用于处理大规模数据的库的集合; vahara –基于Apache Pig的机器学习和自然语言处理; packetpig -用于开源大数据安全性分析; akela – Mozilla的实用工具库,用于Hadoop、HBase、Pig等等; seqpig -Hadoop中用于大型定序数据集的简单可扩展脚本(bioinfomation除外); Lipstick – Pig工作流程可视化工具;A(pache)的Lipstick简介; PigPen - PigPen是Clojure或分布式Clojure的Map-reduce,能够编译Apache Pig,但是不需要过多了解Pig也可以使用PigPen。 库和工具 ? ? ? ? ? ? ? ? Kite Software Development Kit –一组库、工具、示例和文档; gohadoop - Apache Hadoop YARN的本地Go客户端; Hue – 用Apache Hadoop分析数据的Web界面; Apache Zeppelin -基于Web的笔记,可进行交互式数据分析; Jumbune - Jumbune是为分析Hadoop集群和MapReduce作业而构建的开源产品; Apache Thrift Apache Avro - Apache Avro是一个数据序列化系统; Elephant Bird – Twitter中LZO、缓冲协议相关的Hadoop、Pig、Hive和HBase代码的集合; ? ? ? Spring for Apache Hadoop hdfs - A native go client for HDFS Oozie Eclipse Plugin -Eclipse中用于编辑Apache Oozie工作流的图形编辑器。 实时数据处理 ? Apache Storm