根据要读取的数据在文件中的位置与相应的TrunkServer通信,获取文件数据。
在Google的论文发表后,就诞生了Hadoop。截至今日,Hadoop被很多中国最大互联网公司所追捧,百度的搜索日志分析,腾讯、淘宝和支付宝的数据仓库都可以看到Hadoop的身影。
Hadoop具备低廉的硬件成本、开源的软件体系、较强的灵活性、允许用户自己修改代码等特点,同时能支持海量数据存储和计算任务。
Hive是一个基于Hadoop的数据仓库平台,将转化为相应的MapReduce程序基于Hadoop执行。通过Hive,开发人员可以方便地进行ETL开发。
3.3NoSQL
随着数据量增长,越来越多的人关注NoSQL,特别是2010年下半年,Facebook选择HBase来做实时消息存储系统,替换原来开发的 Cassandra系统。这使得很多人开始关注HBase。Facebook选择HBase是基于短期小批量临时数据和长期增长的很少被访问到的数据这两个需求来考虑的。
HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建大规模结构化存储集群。HBase是BigTable的开源实现,使用HDFS作为其文件存储系统。Google运行MapReduce来处理BigTable中的海量数据,HBase同样利用MapReduce来处理HBase中的海量数据;BigTable利用 Chubby作为协同服务,HBase则利用Zookeeper作为对应。如下图1所示,是线上应用系统与数据平台的无缝融入交互图。
图1 线上应用系统与数据平台的无缝融入
5
近来NoSQL数据库的使用越来越普及,几乎所有的大型互联网公司都在这个领域进行着实践和探索。在享受了这类数据库与生俱来的扩展性、容错性、高读写吞吐外(尽管各主流NoSQL仍在不断完善中),越来越多的实际需求把人们带到了NoSQL并不擅长的其他领域,比如搜索、准实时统计分析、简单事务等。实践中一般会在NoSQL的外围组合一些其他技术形成一个整体解决方案。
4总结与展望
大数据已经涉及到生活的各个领域,对于大数据的研究涉及的领域也很广。与人们直接利益相关的大数据的能耗、安全、隐私保护等都受到了很多企业和个人的关注,还有更多未知的领域也不例外。本文对近几年国内外大数据的相关研究成果进行了较为全面的总结和介绍,阐述了大数据的相关概念、产生背景和4“V”特征,概括出了大数据的一般处理流程,详细介绍了大数据的几种关键技术,重点描述了典型的云计算技术在大数据分析过程中的基础性作用。总体来说,目前对于大数据的研究尚属起步阶段,还有很多问题亟待解决。大数据时代已经来临,如何从海量数据中发现知识、获取信息,寻找隐藏在大数据中的模式、趋势和相关性,揭示社会运行和发展规律,以及可能的科研、商业、工业等应用前景,都需要我们更加深入的了解大数据,并具有更加深刻的数据洞察力。
参考文献
[1] 严霄凤,张德馨. 大数据研究[J]. 计算机技术与发展.2013(04):168-172.
[2] GRAHAM-ROWED,GOLDSTOND,DOCTOROW C, et al. Big data:science in the petabyte era [J]. Nature,2008,455(7209):8-9.
[3] 李成华,张新访,金海等.MapReduce:新型的分布式并行计算编程模型[J].计算机工程与科学.2011,33(3):129-135.
6