大数据应用技术和潜在问题研究
大数据应用的技术体系
1.云计算及其编程模型MapReduce
1)云计算简述:大约从2007年下半年开始,云计算由于其能提供灵活动态的IT平台,服务质量保证的计算环境以及可配置的软件服务而成为热门话题。文献中给出了云计算的比较完整的定义:云计算一个大规模的由规模经济驱动的分布式模型,位于其中的抽象的、虚拟的、动态可扩展的、可管理的计算能源、存储、平台、服务等通过因特网交付给外围客户。由上述云计算的定义我们知道,云计算首先得是大规模的、分布式的,少量的计算处理用不着云计算;其次,它是跟规模经济相关联的,比较形象的说法是,云计算资源跟“电”和“水”一样,是按需收费的,并且是大规模式销售的,通常在建立数据中心时会考虑成本因素;最后,它从广义上说是给客户的一种服务,可以包括提供存储、计算等资源。云计算可以按服务的内容和交付形式分为基础设施即服务(IaaS)、平台即服务(PaaS)、软件即服务(SaaS)等。在单机芯片集成度已进入极小尺度级别,指令级并行度提升也已接近极限的今天,纵向扩展似乎已经不够现实,这也远远不能满足大数据处理的要求,而云计算的要求比较宽松的允许异构网络的横向扩展,无疑给大数据处理带来了方便。云计算能为大数据提供强大的存储和计算能力,可以迅速、方便地为大数据提供服务,另一方面,大数据的处理需求也为云计算提供了更多更好地应用场景。由此,云计算作为大数据的支撑技术而倍受业界关注。
2)MapReduce简述:关系数据库作为一门发展了近40年的主流数据管理技术,主要用于联机事务处理(OLTP)应用、联机分析处理(OLAP)应用和数据仓库等,然而扩展性方面的局限使得其在大数据时代遇到了极大障碍。2004年,谷歌公司提出的MapReduce技术,以其利用大规模廉价服务器以达到并行处理大数据的目的而倍受学术界和工业界的关注,广泛应用于
机器学习、数据挖掘等诸多领域。基于MapReduce的大数据分析处理研究也在不断深入,MapReduce作为一种非关系数据库的数据管理工具代表,克服了关系数据库扩展性方面的不足,将计算推向数据也迎合了大数据时代的内在需要,成为大数据处理的基本工具。而Hadoop作为模仿MapReduce而实现的一个云计算开源平台,目前已成为最为流行的大数据处理平台。MapReduce对于大数据处理的基本构思是分而治之,将大数据任务分解为多个子任务,将得到的各个子结果组合并成为最终结果。MapReduce对大数据的处理可抽象为两个主要阶段,Map阶段对初始的键-值(Key/Value)对进行处理,产生一系列的中间结果Key/Value对,然后通过Reduce阶段合并所有具有相同Key值的Key/Value对,得到最终结果。MapReduce对数据进行处理的应用思路如图2所示。
2.大数据获取技术
每天都有大量数据产生,并且这些数据通过不同的途径,以不同的形式被接收和记录。本节将简单介绍几种常见的大数据获取途径。
(1)传感器技术:近年来,传感器技术蓬勃发展,无论是道路交通方面,还是医疗机构方面甚至是个人工作和生活场所,传感器无处不在,大量的数据源源不断地被传感器所接收。可以说,传感器的迅速普及,为大数据的获取提供了有力地保障。传感器技术的快速发展,也促进了传感器网络的逐步完善。由于构建传感器网络的设备、数据收集、数据存储等方面的差异性,网络孤岛普遍存在,如何解决异构网络所带来的数据共享问题一度成为研究者们面临的极大挑战。不过随后美国国家技术标准局(NIST)和IEEE共同组织了关于制订智能传感器接口和连接网络通用标准的研讨会,产生了IEEE1451传感器/执行器、智能变送器接口标准协议族,试图解决传感器市场上总线不兼容的问题。2005年,开放地理空间联盟(OGC)提出了一种新型的传感器Web整合框架标准,让用户能透过Web的界面来进行节点搜寻、数据获取及节点控制功能。文献[12]对无线传感器网路的路由协议进行了研究,指出多路径路由发展的趋
势和挑战,而文献[13]则从生物学、商业、环境、医疗、工业以及军事等领域探讨无线传感器的重要用途。
(2)Web2.0技术:“Web2.0”的概念2004年始于出版社经营者O'Reilly和
MediaLiveInternational之间的一场头脑风暴论坛,所谓的Web2.0是指互联网上的每一个用户的身份由单纯的“读者”进化为了“作者”以及“共同建设人员”,由被动地接收互联网信息向主动创造互联网信息发展。Web2.0伴随着博客、百科全书以及社交网络等多种应用技术的发展,大量的网页点击与交流促使了大数据的形成,给人类日常生活方式带来了极大的变革。
(3)条形码技术:条形码的使用给零售业带来了革命性的改变,通过内嵌ID等信息,条形码在被扫描之后,快速在数据库中进行ID匹配,便很快就获知该产品的价格、性能、产商等具体信息,条形码被广泛应用于零售商店的收银以及车站售票等业务中,每天大量的商品销售记录通过扫描条形码而产生。近年来的智能手机的盛行,手机应用如微信中的二维条形码也随处可见,文献[14]中设计了一种应用于手机应用的彩色二维条形码,改善了用户对应用程序的感受。
(4)RFID技术:RFID与条形码相比,扩展了操作距离,且标签的使用比条形码容易,携带一个可移动的阅读器便可收集到标签的信息,被广泛应用于仓库管理和清单控制方面。RFID标签可以分为两类,一类是被动的,如今被广泛使用,其造价便宜,但是没有内部电源,依靠阅读器的射频波产生能量,操作距离也很近,因而其适用性也受到了制约;另一类是主动的,其拥有内部电源,因此造价较贵,但是操作距离远,存储能力强,因而适用范围广,在未来这种标签会受到普遍欢迎的。学术界在RFID技术的研究上已经取得巨大的进步。较早的工作重心大多集中在对标签进行搜集的问题上,即尽可能快地在大量标签中搜集他们的ID,而这方面最大的挑战是解决多标签同时竞争较窄的信道引起冲突的问题。研究者们提出了两类解决思路,即基于ALOHA的协议[15-17]和基于树的协议[18-20]。而其他的工作专注于标签评估问题,即
使用统计学的方法来评估一个庞大系统中的标签数目[21-23]。总之,RFID由于具有操作范围广泛、性能稳定以及高存储能力等特性,在工业界中将具有巨大的潜力。
(5)移动终端技术:随着科学技术的发展,移动终端诸如手机、笔记本、平板电脑等随处可见,加上网络的宽带化发展以及集成电路的升级,人类已经步入了真正的移动信息时代。如今的移动终端已经拥有极强的处理能力,通信、定位以及扫描功能应有尽有,大量的移动软件程序被开发并应用,人们无时无刻不在接收和发送信息。目前,智能手机等移动设备的数量仍然在迅猛增长中,移动社交网络也会日益庞大和复杂,海量的数据穿梭其中,针对移动数据的处理也将越来越复杂。