大数据研究_未来科技及经济社会发_省略_领域_大数据的研究现状与(5)

2021-01-20 23:35

大数据的研究现状与科学思考

的重要基石。

目前,研究Web数据的学者以复杂网络上的数据(信息)传播机理、搜索、聚类、同步和控制作为主要研究方向。最新的研究成果表明[4],随机的Scale-free网络不是一般的“小世界”,而是“超小世界(Ultrasmallworld)”,规模为N的网络的最短路径的平均长度不是一般小世界的lnN而是lnlnN。网络数据研究应发现网络数据产生、传播以及网络信息涌现的内在机制,还要研究隐藏在数据背后的社会学、心理学、经济学的机理,同时利用这些机理研究互联网对政治、经济、文化、教育、科研的影响。基于大数据对复杂系统内在机理进行整体性的研究,也许将为研究复杂系统提供新的途径。从这种意义上看,数据科学是从整体上研究复杂系统的一门科学。

发现Scale-free网络的Albert-LászlóBarabási教授在2012年1月的NaturePhys ics上发表一篇重要文章“Thenetworktake

[3]

over”。文章认为:20世纪是量子力学的世

有B,或者反过来有B就一定有A。严格来讲,统计学无法检验逻辑上的因果关系。如,根据统计结果:可以说“吸烟的人群肺癌发病率会比不吸烟的人群高几倍”,但统计结果无法得出“吸烟致癌”的逻辑结论。统计学的相关性有时可能会产生把结果当成原因的错觉。如,统计结果表明:下雨之前常见到燕子低飞,从时间先后看两者的关系可能得出燕子低飞是下雨的原因,而事实上,将要下雨才是燕子低飞的原因。

也许正是因为统计方法不能致力于寻找真正的原因,才促使数据挖掘和大数据技术在商业领域广泛流行。企业的目标是多赚钱,只要从数据挖掘中发现某种措施与增加企业利润有较强的相关性,采取这种措施就是了,不必深究为什么能增加利润,更不必发现其背后的内在规律和模型。一般而言,企业收集和处理大数据,不是按学者们经常描述的“从数据到信息再到知识和智慧”的研究思路,而是走“从数据直接到价值”的捷径。Google广告获得巨额收入经常被引用作为大数据相关分析的成功案例,美

纪,从电子学到天文物理学,从核能到量子

计算,都离不开量子力学;而到了21世纪,国Wired杂志主编ChrisAnderson在他的著网络理论正在成为量子力学的可尊敬的后继,正在构建一个新的理论和算法的框架。

名文章“TheEndofTheory”的结尾发问:“现在是时候问这一句了:科学能从谷歌那儿学

[2]

到什么?”。

4.3大数据研究中的关联关系与因果关系

大数据研究不同于传统的逻辑推理研究,而是对数量巨大的数据做统计性的搜索、比较、聚类、分类等分析归纳,因此继承了统计科学的一些特点。统计学关注数据的相关性或称关联性,所谓“相关性”是指两个或两个以上变量的取值之间存在某种规律性。“相关分析”的目的是找出数据集里隐藏的相互关系网(关联网),一般用支持度、可信度、兴趣度等参数反映相关性。两个数据A和B有相关性,只有反映A和B在取值时相互有影响,并不能告诉我们有A就一定

因果关系的研究曾引发了科学体系的建立,近代科学体系获得的成就已经证明,科学是研究因果关系最重要的手段。相关性研究是可以替代因果分析的科学新发展还只是因果分析的补充,不同的学者有完全不同的看法。我们都是从做平面几何证明题开始进入科学大花园的,脑子里固有的逻辑思维模式少不了因果分析,判断是否是真理也习惯看充分必要条件,对于大数据的关联分析蕴含的科学意义往往理解不深。对于简单封闭的系统,基于小数据的因果分析

院刊


大数据研究_未来科技及经济社会发_省略_领域_大数据的研究现状与(5).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:2012年九年级物理第一学期期末试卷 人教新课标版

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: