战略与决策研究
Strategy&PolicyDecisionResearch
大数据研究:未来科技
及经济社会发展的重大战略领域
——大数据的研究现状与科学思考
文/李国杰程学旗
中国科学院计算技术研究所北京100190
*
【摘要】近来,大数据引起了产业界、科技界和政府部门的高度关注。本文简要阐述了大数据的研究现状与重大意义,探讨了大数据的科学问题,介绍了大数据应用与研究所面临的问题与挑战。最后,对大数据发展战略提出了几点建议。【关键词】大数据,数据科学,数据工程,第四范式DOI10.3969/j.issn.1000-3045.2012.06.001
近年来,大数据引起了产业界、科技界和政府部门的高度关注。2012年3月22日,奥巴马宣布美国政府投资2亿美元启动“大数据研究和发展计划(BigDataRe-searchandDevelopmentInitiative)”。这是继1993年美国宣布“信息高速公路”计划后的又一次重大科技发展部署。美国政府认为,大数据是“未来的新石油”,并将对大数据的研究上升为国家意志,这对未来的科技与经济发展必将带来深远影响。
学等)的研究产生了越来越多的数据。例如,用电子显微镜重建大脑中的突触网络,1立方毫米大脑的图像数据就超过1PB。但近年来大数据的飙升主要还是来自日常生活,特别是互联网公司的服务。据著名咨询公司IDC的统计,2011年全球被创建和复制的数据总量为1.8ZB(10的21次方),其中75%来自于个人(主要是图片、视频和音乐),远远超过人类有史以来所有印刷材料
[11]
的数据总量(200PB)。Google公司通过
1何谓大数据
人、机、物三元世界的高度融合引发了数据规模的爆炸式增长和数据模式的高度复杂化,世界已进入网络化的大数据(BigData)时代[1,16]。以数据为中心的传统学科(如基因组学、蛋白组学,天体物理学和脑科
大规模集群和MapReduce软件,每月处理的数据量超过400PB;百度每天大约要处理几十PB数据;Facebook注册用户超过10亿,每月上传的照片超过10亿张,每天生成300TB以上的日志数据;淘宝网会员超过
3.7亿,在线商品超过8.8亿,每天交易数千万笔,产生约20TB数据。传感网和物联网的蓬勃发展是大数据的又一推动力,各个城
院刊