大数据研究_未来科技及经济社会发_省略_领域_大数据的研究现状与(6)

2021-01-20 23:35

战略与决策研究

容易做到。当年开普勒发现行星三大定律,牛顿

Strategy&PolicyDecisionResearch

络大数据有许多不同于自然科学数据的特点,包括多源异构、交互性、时效性、社会性、突发性和高噪声等,不但非结构化数据多,而且数据的实时性强,大量数据都是随机动态产生。科学数据的采集一般代价较高,LHC实验设备花了几十亿美元,因此对采集什么数据要做精心安排。而网络数据的采集相对成本较低,网上许多数据是重复的或者没有价值,价值密度很低。一般而言,社会科学的大数据分析,特别是根据Web数据做经济形势、安全形势、社会群体事件的预测,比科学实验的数据分析更困难。

未来的任务主要不是获取越来来越多的数据,而是数据的去冗分类、去粗取精,从数据中挖掘知识。几百年来,科学研究一直在做“从薄到厚”的事情,把“小数据”变成“大数据”,现在要做的事情是“从厚到薄”,要把大数据变成小数据。要在不明显增加采集成本的条件下尽可能提高数据的质量。要研究如何科学合理地抽样采集数据,减少不必要的数据采集。两三岁的小孩学习识别动物和汽车等,往往几十张样本图片就足够了,研究清楚人类为什么具有小数据学习能力,对开展大数据分析研究具有深刻的指导意义。

近10年来增长最快的数据是网络上传播的各种非结构化或半结构化的数据。网络数据的背后是相互联系的各种人群,网络大数据的处理能力直接关系到国家的信息空间安全和社会稳定[10]。从心理学、经济学、信息科学等不同学科领域共同探讨网络数据的产生、扩散、涌现的基本规律,是建立安全和谐的网络环境的重大战略需求,是促

发现力学三大定律都是基于小数据。但对于开放复杂的巨系统,传统的因果分析难以奏效,因为系统中各个组成部分之间相互有影响,可能互为因果,因果关系隐藏在整个系统之中。现在的“因”可能是过去的“果”,此处的“果”也可能是别处的“因”,因果关系本质上是一种相互纠缠的相关性。在物理学的基本粒子理论中,颇受重视的欧几里德量子引力学(霍金所倡导的理论)本身并不包括因果律。因此,对于大数据的关联分析是不是“知其然而不知其所以然”,其中可能包含深奥的哲理,不能贸然下结论。

4.4社会科学的大数据研究

根据数据的来源,大数据可以初略地分成两大类:一类来自物理世界,另一类来自人类社会。前者多半是科学实验数据或传感数据,后者与人的活动有关系,特别是与互联网有关。这两类数据的处理方式和目标差别较大,不能照搬处理科学实验数据的方法来处理Web数据。

科学实验是科技人员设计的,如何采集数据、处理数据事先都已想好了,不管是检索还是模式识别,都有一定的科学规律可循。美国的大数据研究计划中专门列出寻找希格斯粒子(被称为“上帝粒子”)的大型强子对撞机(LHC)实验。这是一个典型的基于大数据的科学实验,至少要在1万亿个事例中才可能找出1个希格斯粒子。2012年7月4日,CERN宣布发现新的玻色子,标准差为4.9,被认为可能是希格斯玻色子(承认是希格斯玻色子粒子需要5个标准差,即99.99943%的可能性

[12]是对的)。设计这一实验的激动人心之处在于,使国家长治久安的大事。我国拥有世界上最多的

不论找到还是没有找到希格斯粒子,都是物理学的重大突破。从这一实验可以看出,科学实验的大数据处理是整个实验的一个预定步骤,发现有价值的信息往往在预料之中。

Web上的信息(譬如微博)是千千万万的人随机产生的,从事社会科学研究的学者要从这些看似杂乱无章的数据中寻找有价值的蛛丝马迹。网

网民和最大的访问量,在网络大数据分析方面已有较强的基础,有望做出世界领先的原始创新成果,应加大网络大数据分析方面的研究力度。

4.5数据处理的复杂性研究

计算复杂性是计算机科学的基本问题,科学计算主要考虑时间复杂性和空间复杂性。对于大数据处理,除了时间和空间复杂性外,可能还需要

2012年.第27卷.第6期


大数据研究_未来科技及经济社会发_省略_领域_大数据的研究现状与(6).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:2012年九年级物理第一学期期末试卷 人教新课标版

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: