数据密集型科学研究范式的兴起与情报学的应对

2019-04-02 22:18

数据密集型科学研究范式的兴起与情报学的

应对

周晓英

2012-9-21 16:10:05 来源：《情报资料工作》2012年02期

【英文标题】The Rise of a Data-Intensive Scientific Research Paradigm and the Response of Information Science to It

【作者简介】周晓英，女，1963年生，中国人民大学信息资源管理学院教授，博士生导师，北京100872

【内容提要】以数据密集型计算为特征的科学研究第四范式正在兴起，文章分析了第四范式的提出及其兴起的社会背景，研究了该范式的内涵和价值，总结了目前图书情报领域针对数据密集型科学研究范式的理论和实践，探讨了作为科学学科的情报学的应对措施。

The fourth scientific research paradigm based on data-intensive computing is rising. This paper analyzes the social background of its coming and its meanings and values. After summing-up the theories and practice exploration on data-intensive scientific research in library and information science area, the author puts forth the response measures for information science as an scientific discipline to the new paradigm.

【关键词】数据密集型科学研究/科学研究第四范式/数据管理/数据服务/情报学/关联数据/政府开放数据data-intensive scientific research/the fourth scientific research paradigm/data management/data

service/information science/linked data/open government data

情报学进展系列文之七

1、数据密集型科学研究范式的提出

1.1范式和范式的演变

1962年著名美国科学哲学家托马斯·库恩在他的著作《科学革命的结构》中系统阐述了范式的概念和理论。所谓范式，就是一种公认的模型和模式，是常规科学所赖以运作的理论基础和实践规范，是研究者群体在从事科学研究时所共同遵守的世界观和行为方式，是他们所共同接受的一组假说、理论、准则和方法的总和。范式的演变则表示科学研究的一套方法及观念被另一套方法及观念所取代。库恩对范式转换给予科学发展的推动作用尤其重视，他甚至认为：科学的发展不是靠知识的积累而是靠范式的转换完成的，一旦形成了新范式，就可以说建立起了常规科学[1]。

近半个世纪以来，科学范式理论对世界学术界产生了重大和深远的影响，很多学者都关注科学研究的范式，各个学科也纷纷开展自己的学科范式以及范式的应用研究。科学范式的价值不仅在于它描述了科学研究已有的习惯、传统和模式，还在于它提供了科学研究群体协同一致的、共同探索的纽带，它能够为科学研究的未来发展和进一步开拓奠定基础[2]。

1.2科学研究第四范式的提出

2007年，计算机图灵奖得主吉姆·格雷（Jim Grey）在美国国家研究理事会计算机科学和远程通讯委员会（NRC-CSTB）的演讲报告中提出了科学研究“第四范式”，即以数据密集型计算为基础的科学研究范式。

格雷先生的四个科学范式理论基本内容为：第一范式产生于几千年前，是描述自然现象的，以观察和实验为依据的研究，可称为经验范式；第二范式产生于几百年前，是以建模和归纳为基础的理论学科和分析范式，可称为理论范式；第三范式产生于几十年前，是以模拟复杂现象为基础的计算科学范式，可称为模拟范式；第四范式今天正在出现，是以数据考察为基础，联合理论、实验和模拟一体的数据密集计算的范式，数据被一起捕获或者由模拟器生成，被软件处理，信息和知识存储在计算机中，科学家使用数据管理和统计学方法分析数据库和文档，可称为数据密集型范式。

关于学科的发展，格雷先生认为，所有学科X都有两个进化分支，一个是模拟的X学，另一个是X-信息学，以生态学为例，即计算生态学和生态信息学，前者与模拟生态的研究有关，后者与收集和分析生态信息有关。在X-信息学中，我们编码和表达知识的方式是，将实验和设备产生的、其他档案产生的、文献中产生的、模拟产生的事实都保存在一个空间中，人们通过计算机向这个空间提问并获得答案，这之中要解决的一般问题有：数据获取、管理PB级大容量的数据、公共模式、数据组织、数据重组、数据分享、查找和可视化工具、建立和实施模型、数据和文献集成、记录实验、数据管理和长期保存。当前，科学家们需要更好的工具来实现数据的捕获、分类管理、分析和使其可视化。

关于新范式下的学术交流，格雷先生认为，应该让公共资金资助的学术论文都能在互联网上传播，因特网的功效不仅如此，它还可以联合所有的科学数据和

文献形成一个互操作的世界，让人们读论文时还可以找到论文的原始数据、可以重新做一次作者所做的分析，或者能够从数据开始找到与这些数据有关的所有文献。科学的研究素材有三个层次，分别是原始数据、派生数据和重组数据、科学文献，应该让三个层次的资源都能够在线和被获取。新的学术交流革命中需要建立既有文献也有数据的新的数字图书馆，需要开办Overlay期刊（一种不出版原始论文，而是按照一定的评价标准挑选保存在其他地方的文章，作为一项服务提供给用户的期刊[3]），需要实施数据出版，需要处理数据、信息和知识的本体和语义网技术。

2009年，微软公司开放创新部门副总裁Tony Hey以及Stewart Tansley和Kristin Tolle共同主编了《第四范式——数据密集型科学发现》（The Fourth Paradigm: Data-intensive Scientific Discovery）一书。该书共分六个部分，前言部分在刊登微软研究院首席研究员、著名计算机科学家戈登·贝尔的序言之后，登载了根据格雷先生的发言整理的《Jim Grey眼中的eScience：变革了的科研方法》作为引子，提出科学研究的第四范式的内涵和意义；然后从地球与环境、健康与幸福、科学基础设施、科学交流四个方面展示了69位学者从不同的视角观察、理解、分析和探讨的第四范式科学研究状况；最后结语部分登载了《前方的路》、《总结》和《下一步》三篇文章提出面对数据密集型科研我们应该如何提高认识、应该采取何种措施的问题[4]。

2、数据密集型科学研究兴起的社会环境

也许仅仅从微软研究院研究者们的成果出发就断定第四范式的到来尚不够客观，我们需要从更多的层面来考察这个新的科学研究范式的出现和存在。本部分将从数据爆炸现象和科学界的反应、世界范围内广泛兴起的关联数据运动、政

府数据开放运动这三个方面，感受海量数据对各个领域的冲击，从而讨论数据密集型科学研究兴起的社会环境。

2.1数据洪流的到来以及科学界的关注

2.1.1数据爆炸和数据洪流

情报学关注“信息爆炸”现象并试图对它的解决方案加以研究，这是我们这个学科产生的初衷之一。仔细分析，其实这个“信息爆炸”在人类的认识中是在不断发展进化的。在20世纪40-50年代，它主要指的是科学文献的快速增长所造成的信息问题；而经过50年的发展，由于计算机和通讯技术应用的结果，到20世纪90年代，这个“信息爆炸”主要指的是所有社会信息（包括纸质的和网络的也包括正式交流过程和非正式交流过程所产生的信息）快速增长所造成的信息问题；而到21世纪的今天，我们发现，这个“信息爆炸”的结果很大程度也是由于数据洪流的产生和发展所造成的。

数据洪流因为什么而产生呢？

从技术角度说，新型的硬件与数据中心、分布式计算、云计算、大容量数据存储与处理技术、社会化网络、移动终端设备、多样化的数据采集方式使海量数据的产生和记录成为可能。

从用户角度说，日益人性化的用户界面、人人的信息行为模式都容易作为数据记录下来，人人都可成为数据的提供方、人人也可成为数据的使用方。

共5页:

数据密集型科学研究范式的兴起与情报学的应对.doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档