战略与决策研究
市的视频监控每时每刻都在采集巨量的流媒体数
Strategy&PolicyDecisionResearch
Facebook等跨国巨头是发展大数据处理技术的主要推动者。自2005年以来,IBM投资160亿美元进行了30次与大数据有关的收购,促使其业绩稳定高速增长。2012年,IBM股价突破200美元大关,3年之内股价翻了3倍。华尔街早就开始招聘
据。工业设备的监控也是大数据的重要来源。例如,劳斯莱斯公司对全世界数以万计的飞机引擎进行实时监控,每年传送PB数量级的数据。
一般意义上,大数据是指无法在可容忍的时
间内用传统IT技术和软硬件工具对其进行感知、精通数据分析的天文学家和理论数学家来设计金获取、管理、处理和服务的数据集合。大数据的特
点可以总结为4个V,即Volume(体量浩大)、Vari-ety(模态繁多)、Velocity(生成快速)和Value(价值巨大但密度很低)。首先,数据集合的规模不断扩大,已从GB到TB再到PB级,甚至开始以EB和ZB来计数。IDC的研究报告称,未来10年全球大数据将增加50倍,管理数据仓库的服务器数量将增加10倍[11]。其次,大数据类型繁多,包括结构化数据、半结构化数据和非结构化数据。现代互联网应用呈现出非结构化数据大幅增长的特点,至2012年末,非结构化数据占有比例将达到整个数据量的75%以上。同时,由于数据显性或隐性的网络化存在,使得数据之间的复杂关联无所不在。再次,大数据往往以数据流的形式动态、快速地产生,具有很强的时效性,用户只有把握好对数据流的掌控才能有效利用这些数据。另外,数据自身的状态与价值也往往随时空变化而发生演变,数据的涌现特征明显。最后,虽然数据的价值巨大,但是基于传统思维与技术,人们在实际环境中往往面临信息泛滥而知识匮乏的窘态,大数据的价值利用密度低。
融产品。IBM现在是全球数学博士的最大雇主,数学家正在将其数据分析的才能应用于石油勘探、医疗健康等各个领域。eBay通过数据挖掘可精确计算出广告中的每一个关键字为公司带来的回报。通过对广告投放的优化,2007年以来eBay产品销售的广告费降低了99%,而顶级卖家占总销售额的百分比却上升至32%。目前推动大数据
研究的动力主要是企业经济效益,巨大的经济利益驱使大企业不断扩大数据处理规模[14,15,17]。
近几年,Nature和Science等国际顶级学术刊物相继出版专刊来专门探讨对大数据的研究[6-9]。
[6]2008年Nature出版专刊“BigData”,从互联网技
术、网络经济学、超级计算、环境科学、生物医药等多个方面介绍了海量数据带来的挑战。2011年Science推出关于数据处理的专刊“Dealingwithda
[7]ta”,讨论了数据洪流(DataDeluge)所带来的挑
战,特别指出,倘若能够更有效地组织和使用这些数据,人们将得到更多的机会发挥科学技术对社会发展的巨大推动作用。2012年4月欧洲信息学与数学研究协会会刊ERCIMNews出版专刊“Big
[9]Data”,讨论了大数据时代的数据管理、数据密集
2大数据已引起高度关注
毫无疑问,大数据隐含着巨大的社会、经济、
型研究的创新技术等问题,并介绍了欧洲科研机构开展的研究活动和取得的创新性进展。在这样的大背景下,2012年5月,香山科学会议组织了以
科研价值,已引起了各行各业的高度重视[14,15,17]。“大数据科学与工程——一门新兴的交叉学科?”如果能有效地组织和使用大数据,将对社会经济和科学研究发展产生巨大的推动作用,同时也孕
为主题的第424次学术讨论会,来自国内外35个单位横跨IT、经济、管理、社会、生物等多个不同学
育着前所未有的机遇。著名的O'Reilly公司断言:科领域的43位专家代表参会,并就大数据的理论“数据是下一个‘IntelInside’,未来属于将数据转换成产品的公司和人们。”
IBM、Oracle、Microsoft、Google、Amazon、
与工程技术研究、应用方向以及大数据研究的组织方式与资源支持形式等重要问题进行了深入讨论。6月,中国计算机学会青年计算机科技论坛
2012年.第27卷.第6期