大数据研究_未来科技及经济社会发_省略_领域_大数据的研究现状与(7)

2021-01-20 23:35

大数据的研究现状与科学思考

考虑解决一个问题需要多大的数据量,暂且称为“数据量复杂性”。数据量复杂性和空间复杂性不是一个概念,空间复杂性要考虑计算过程中产生的空间需求。

设想有人采集完全随机地抛掷硬币的正反面数据,得到极长的01数字序列,通过统计可计算出现正面的比例。可以肯定,收

的殿堂。

4.6科研第四范式是思维方式的大变化

已故图灵奖得主吉姆·格雷提出的数据密集型科研“第四范式(thefourthpara-digm)”,将大数据科研从第三范式(计算科学)中分离出来单独作为一种科研范式,是因为其研究方式不同于基于数学模型的传

集的数据越多,其结果与0.5的误差越小,统研究方式[5]。Google公司的研究部主任这是一个无限渐进的过程。基于唯象假设的数据处理常出现这类增量式进步,数据多一点,结果就好一点。这类问题的数据科学价值可能不大。反过来,可能有些问题的数据处理像个无底洞,无论多少数据都不可能解决问题。这种问题有些类似NP问题。我们需要建立一种理论,对求解一个问题达到某种满意程度(对判定问题是有多大把握说“是”或“否”,优化问题是接近最优解的程度)需要多大规模的数据量给出理论上的判断。当然,目前还有很多问题没有定义清楚,比如,对于网络搜索之类的问题,如何定义问题规模和数据规模等。

对从事大数据研究的学者而言,最有意

PeterNorvig的一句名言可以概括两者的区别:“所有的模型都是错误的,进一步说,没有模型你也可以成功(Allmodelsarewrong,andincreasinglyyoucansucceed

[2]

withoutthem)”。PB级数据使我们可以做

到没有模型和假设就可以分析数据。将数据丢进巨大的计算机机群中,只要有相互关系的数据,统计分析算法可以发现过去的科学方法发现不了的新模式、新知识甚至新规律。实际上,Google的广告优化配置、战胜人类的IBM沃森问答系统都是这么实现的,这就是“第四范式”的魅力!

美国Wired杂志主编ChrisAnderson2008年曾发出“理论已终结”的惊人断言:

思的问题应该是,解决一个问题的数据规模“数据洪流使(传统)科学方法变得过时有一个阈值。数据少于这个阈值,问题解决不了;达到这个阈值,就可以解决以前解决

(TheDataDelugeMakestheScientificMeth-[2]odObsolete)”。他指出,获得海量数据和

不了的大问题;而数据规模超过这个阈值,处理这些数据的统计工具的可能性提供了对解决问题也没有更多的帮助。我们把这类问题称为“预言性数据分析问题”,即在做大数据处理之前,我们可以预言,当数据量到达多大规模时,该问题的解可以达到何种满意程度。

与社会科学有关的大数据问题,例如舆情分析、情感分析等,许多理论问题过去没有考虑过,才刚刚开始研究。迫切需要计算机学者与社会科学领域的学者密切合作,共同开拓新的疆域。借助大数据的推力,社会科学将脱下“准科学”的外衣,真正迈进科学

理解世界的一条完整的新途径。Petabytes让我们说:相互关系已经足够(Correlationisenough)。我们可以停止寻找模型,相互关系取代了因果关系,没有具有一致性的模型、统一的理论和任何机械式的说明,科学也可以进步。

ChrisAnderson的极端看法并没有得到科学界的普遍认同,数据量的增加能否引起科研方法本质性的改变仍然是一个值得探讨的问题。对研究领域的深刻理解(如空气动力学方程用于风洞实验)和数据量的积累

院刊


大数据研究_未来科技及经济社会发_省略_领域_大数据的研究现状与(7).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:2012年九年级物理第一学期期末试卷 人教新课标版

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: