大数据资源整理(3)

2019-08-26 17:48

Apache Kafka：分布式发布-订阅消息系统;

Apache Sqoop：在Hadoop和结构化的数据存储区之间传送数据的工具; Cloudera Morphlines：帮助 Solr、HBase和HDFS完成ETL的框架; Facebook Scribe：流日志数据聚合器; Fluentd：采集事件和日志的工具;

Google Photon：实时连接多个数据流的分布式计算机系统，具有高可扩展性和低延迟性; Heka：开源流处理软件系统;

HIHO：用Hadoop连接不同数据源的框架; Kestrel：分布式消息队列系统;

LinkedIn Databus：对数据库更改捕获的事件流; LinkedIn Kamikaze：压缩已分类整型数组的程序包; LinkedIn White Elephant：日志聚合器和仪表板; Logstash：用于管理事件和日志的工具;

Netflix Suro：像基于Chukwa 的Storm和Samza一样的日志聚合器; Pinterest Secor：是实现Kafka日志持久性的服务; Linkedin Gobblin：LinkedIn的通用数据摄取框架;

Skizze：是一种数据存储略图，使用概率性数据结构来处理计数、略图等相关的问题; StreamSets Data Collector：连续大数据采集的基础设施，可简单地使用IDE。

服务编程

Akka Toolkit：JVM中分布性、容错事件驱动应用程序的运行时间; Apache Avro：数据序列化系统;

Apache Curator：Apache ZooKeeper的Java库;

Apache Karaf：在任何OSGi框架之上运行的OSGi运行时间; Apache Thrift：构建二进制协议的框架; Apache Zookeeper：流程管理集中式服务; Google Chubby：一种松耦合分布式系统锁服务; Linkedin Norbert：集群管理器; OpenMPI：消息传递框架;

Serf：服务发现和协调的分散化解决方案;

Spotify Luigi：一种构建批处理作业的复杂管道的Python包，它能够处理依赖性解析、工作流管理、可视化、故障处理、命令行一体化等等问题;

Spring XD：数据摄取、实时分析、批量处理和数据导出的分布式、可扩展系统; Twitter Elephant Bird：LZO压缩数据的工作库; Twitter Finagle：JVM的异步网络堆栈。

调度

Apache Aurora：在Apache Mesos之上运行的服务调度程序; Apache Falcon：数据管理框架; Apache Oozie：工作流作业调度程序; Chronos：分布式容错调度;

Linkedin Azkaban：批处理工作流作业调度; Schedoscope：Hadoop作业敏捷调度的Scala DSL; Sparrow：调度平台;

Airflow：一个以编程方式编写、调度和监控工作流的平台。

机器学习

Apache Mahout：Hadoop的机器学习库; brain：JavaScript中的神经网络; Cloudera Oryx：实时大规模机器学习;

Concurrent Pattern：Cascading的机器学习库;

convnetjs：Javascript中的机器学习，在浏览器中训练卷积神经网络(或普通网络); Decider：Ruby中灵活、可扩展的机器学习;

ENCOG：支持多种先进算法的机器学习框架，同时支持类的标准化和处理数据; etcML：机器学习文本分类;

Etsy Conjecture：Scalding中可扩展的机器学习; Google Sibyl：Google中的大规模机器学习系统;

GraphLab Create：Python的机器学习平台，包括ML工具包、数据工程和部署工具的广泛集合;

H2O：Hadoop统计性的机器学习和数学运行时间; MLbase：用于BDAS堆栈的分布式机器学习库;

MLPNeuralNet：针对iOS和Mac OS X的快速多层感知神经网络库; MonkeyLearn：使文本挖掘更为容易，从文本中提取分类数据;

nupic：智能计算的Numenta平台，它是一个启发大脑的机器智力平台，基于皮质学习算法的精准的生物神经网络;

PredictionIO：建于Hadoop、Mahout和Cascading上的机器学习服务器; SAMOA：分布式流媒体机器学习框架;

scikit-learn：scikit-learn为Python中的机器学习;

Spark MLlib：Spark中一些常用的机器学习(ML)功能的实现;

Vowpal Wabbit：微软和雅虎发起的学习系统; WEKA：机器学习软件套件;

BidMach：CPU和加速GPU的机器学习库。

基准测试

Apache Hadoop Benchmarking：测试Hadoop性能的微基准; Berkeley SWIM Benchmark：现实大数据工作负载基准测试; Intel HiBench：Hadoop基准测试套件;

PUMA Benchmarking：MapReduce应用的基准测试套件; Yahoo Gridmix3：雅虎工程师团队的Hadoop集群基准测试。

安全性

Apache Knox Gateway：Hadoop集群安全访问的单点; Apache Sentry：存储在Hadoop的数据安全模块。

系统部署

Apache Ambari：Hadoop管理的运作框架; Apache Bigtop：Hadoop生态系统的部署框架; Apache Helix：集群管理框架; Apache Mesos：集群管理器;

Apache Slider：一种YARN应用，用来部署YARN中现有的分布式应用程序; Apache Whirr：运行云服务的库集; Apache YARN：集群管理器;

Brooklyn：用于简化应用程序部署和管理的库;

Buildoop：基于Groovy语言，和Apache BigTop类似;

Cloudera HUE：和Hadoop进行交互的Web应用程序; Facebook Prism：多数据中心复制系统; Google Borg：作业调度和监控系统; Google Omega：作业调度和监控系统;

Hortonworks HOYA：可在YARN上部署HBase集群的应用; Marathon：用于长期运行服务的Mesos框架。

应用程序

Adobe spindle：使用Scala、Spark和Parquet处理的下一代web分析; Apache Kiji：基于HBase，实时采集和分析数据的框架; Apache Nutch：开源网络爬虫;

Apache OODT：用于NASA科学档案中数据的捕获、处理和共享; Apache Tika：内容分析工具包; Argus：时间序列监测和报警平台;

Countly：基于Node.js和MongoDB，开源的手机和网络分析平台; Domino：运行、规划、共享和部署模型——没有任何基础设施; Eclipse BIRT：基于Eclipse的报告系统; Eventhub：开源的事件分析平台; Hermes：建于Kafka上的异步消息代理;

HIPI Library：在Hadoop’s MapReduce上执行图像处理任务的API; Hunk：Hadoop的Splunk分析; Imhotep：大规模分析平台;

MADlib：RDBMS的用于数据分析的数据处理库;

共6页:

大数据资源整理(3).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档