数据密集型科学研究范式的兴起与情报学的应对(2)

2019-04-02 22:18

从未来趋势看，随着云计算的发展，理论上讲，世界上每个人每件事物所存在和活动所产生的新数据，包括位置、状态、思考、过程和行动等等都能够被数字化，成为数据在互联网传播[5]。社交网站记录人们之间的交互，搜索引擎记录人们的搜索行为和搜索结果，电子商务网站记录人们购买商品的喜好，微博网站记录人们所产生的即时的想法和意见，图片视频分享网站记录人们的视觉观察，百科全书网站记录人们对抽象概念的认识，幻灯片分享网站记录人们的各种正式和非正式的演讲发言，机构知识库和开放获取期刊记录人们的学术研究成果。

上述现象都导致海量数据的产生，引起数据的洪流。可见，在现代技术的支持下，今天无论是人们简单的生活活动还是复杂的学术研究的记录，都能够成为数据而传播，这些海量数据蕴含了巨大的潜力，善于挖掘、分析和可视化展现它们，将给人类的生活、工作和学习带来全方位的影响。

2.1.2科学界对海量数据的关注

2011年5月，麦肯锡全球研究院发布了一份同样关注当前社会数据洪流的报告《海量数据：创新、竞争和生产率的下一个前沿》。报告以数字数据和文档的当前状况为基础，分析大数据集如何在现代社会中创造价值和产生更大的潜力。报告称：2010年全球企业在磁盘上存储了超过7EB的新数据，消费者在个人电脑等设备上存储了超过6EB的新数据，而1EB等于10亿GB，相当于美国国会图书馆中存储数据的4000多倍[6]。如果这些数据能够合理地采集、管理和分析，将会创造难以计量的商业价值。报告通过研究美国卫生保健、欧洲公共部门、美国零售业、美国制造业和全球个人位置数据这五大领域的大数据集后估计：美国的医疗行业可以利用海量数据管理，通过使数据更易于访问、促进与数据相关

的实验和商业决策自动化等手段，创造高达每年3000亿美元的价值；零售业通过海量数据管理可将利润率提高60%；欧盟经济可以利用海量数据管理缩减1490亿美元的运营开支[7]。

在科学领域，由于科学观察、实验和研究设备的进化、计算机辅助技术的发展以及大规模合作的科学态势，科学数据呈海量增长。据统计，大型天文观察望远镜投入运行后第一年，生产的数据就达到1.28PB（1×1015Bytes）；欧洲分子生物实验室核酸序列数据库EMBL-Bank收到数据的速度每年递增200%；预算达30万元的人类基因组计划（Human Genome Project，HGP）要揭开组成人体的4万个基因的30亿个碱基对的秘密，2008年生产1万亿碱基对的数据，2009年速率又翻一番[8]。

科学界对海量数据对科学研究的影响已经开始重点关注，2011年2月美国《科学》（Science）期刊刊登了一个专辑，名为“数据处理（Dealing With Data）”。该杂志还联合美国科学促进会（AAAS）的官方刊物《科学——信号传导》（Science：Signaling）、《科学——转化医学》（Science：Translational Medicine）以及职业在线网站Science Careers，推出相关专题，围绕科学研究海量数据的问题展开讨论[9]。

2006年美国国家科学基金会发布的名为“21世纪发现的赛博基础结构”报告称，美国在科学和工程领域的领先地位将越来越取决于利用数字化科学数据，借助复杂的数据挖掘、集成、分析和可视化工具将数据转换为信息和知识的能力[10]。2010年12月，美国总统科技顾问委员会（PCAST）提交给总统和国会的报告中明确提出“数据密集的科学和工程”（DISE）概念，随后，数据密集的科学和工程问题在美国国家科学局和国家科学基金会的一些会议上进行了深入的

讨论。

学者们将科学研究型数据的来源归结为四类：一是来自于测量仪器、传感设备记录仪器的观测型数据，如天文望远镜观测的数据；二是来自于物理学、医学、生物学、心理学等各学科领域的大型实验设备的实验型数据，如粒子加速器实验数据；三是来自于大规模模拟计算的计算型数据；四是来自于跨学科、横向研究的参考型数据，如人类基因数据[11]。这些数据有些由于观测和实验的不可重复性，有些由于时间、设备和经济等其他条件的限制，数据获取难度大，因此数据长期有效保存、科学的管理、有条件共享和促进利用是极有意义和价值的一项工作。

科学界需要为应对数据洪流采取措施，需要从海量的数据中寻找科学的规律，需要考察数据密集性科学研究的未来。

2.2关联数据运动

互联网之父伯纳斯·李（Tim Berners-Lee）从对web发展和演变的分析中同样也发现了数据在未来网络中的价值。2006年，他在讨论关于语义网项目的一份设计记录中提出了发展数据网络（web of data）的设想，并创造了“关联数据（linked data）”一词，提出数据网络的核心即关联数据（linked data）[12]。2009年，他在TED大会（即技术娱乐和设计大会，1984年由理查德·沃尔曼先生发起，每年3月在美国召集科学、设计、文学、音乐等领域的杰出人物，探索关于技术、社会和人的问题[13]）上再次阐明了关联数据及其对数据网络的影响[14]。关联数据就是用主体、谓词、客体三元组来表示资源的RDF（Resource Description Framework）格式数据，关联数据描述了一种出版结构化数据让其

能够互连和更加有用的方法，它依赖标准互联网技术如HTTP和URIs，不是使用它们服务于人类可读的网页，而是扩展到以能被计算机自动阅读的方式分享信息[15]。关联数据有别于万维网上的文件互连，它强调的是数据互连，将以前没有关联的数据链接到一起，允许用户发现、描述、挖掘、关联和利用数据。

关联数据方法提出后受到社会的广泛响应，一些国际组织如W3C、世界银行，政府机构，社会公益机构如美国国会图书馆，大众媒体如BBC、纽约时报等等纷纷加入到关联数据出版发布的行列。2007年5月，W3C启动LOD项目（Linked Open Data, LOD），号召人们将数据按照关联数据要求发布，将数据源互连。至2010年9月三年时间，已有很多数据提供者和web开发者将数据发布过来，形成了具有203个数据集、包含250亿条的RDF语句、3.95亿个链接构成的巨大的关联数据网络[12,16]。

从以下欧洲委员会在关联数据所提供的支持和举措，我们便可以感受到关联数据的影响力：

欧洲委员会提供资金作为第七框架计划的一部分支持出版和使用链接的开放数据，目的是改善一个全天候的基础结构以监测使用情况并改善数据质量，为数据出版者和消费者提供低的接入门槛，开发一个开放源数据处理工具图书馆，为处理链接数据与欧盟数据的联合而管理一个试验平台，支持社区教育和最佳实践。

欧洲委员会资助了杰出网络项目——行星数据项目（the Planet Data Project），致力于将欧洲在大规模数据管理方面的研究者聚合起来，这些数据包括遵从链接数据原则出版的语义网RDF数据。该项目的独特之处在于能够在项

目进行过程中开放引进其他研究者提供的行星数据。

欧洲委员会投资650万欧元的资金支持LOD2项目以持续开展链接开放数据项目，该项目2010年9月开始，将持续到2014年完成。项目的目标是从“相互关联的数据中创造知识”，具体任务包括五个方面：开发可供企业使用的、在互联网上公开和管理大量结构化信息的工具和方法；开发来源于维基百科和Open-StreetMap的高质量的多领域、多语种的本体的试验平台和网络；开发基于机器自动从互连中学习和从网络融合数据的算法；开发能够可靠跟踪来源、确保隐私和数据安全、评价信息质量的标准和方法；开发适宜的工具以搜索、浏览和创作链接数据[15]。

2.3政府数据开放运动

由于新型网络技术在电子政府发展过程中的逐步应用，今天的互联网已不仅仅是政府提供信息和服务的平台，而是公众与政府互动的、共同创造的平台，这种状态改变了政府与公众以及公众之间建立关联的方式，同时也逐步改变了电子政府信息管理和服务的方式。新时代的电子政府不再只满足于从提供的角度给公众更好的服务，而是提倡政府作为一个整体的、开放的平台为企业和公众开放更多的信息和数据，促进更多的创新应用，这就是Tim O’Reily提出政府2.0时重点强调的观点。

我们知道政府信息资源占社会信息资源的绝大多数，政府所掌握的数据也同样可观，如果关联数据标准用于政府数据的开放中，必将为全球的数据空间贡献更多的数据容量。对于政府而言，政府数据的开放意味着电子政府的发展进入到一个全新的开放、透明、互动的电子政府新阶段，它使得政府能够提供一个中心

共5页:

数据密集型科学研究范式的兴起与情报学的应对(2).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档