数据密集型科学研究范式的兴起与情报学的应对(3)

2019-04-02 22:18

平台或者门户,更好地满足决策制定者、科学研究者、企业和普通公众对政府信息资源的需求。开放政府数据的价值在于:(1)可以使公众免费、便捷地获得政府的数据、促进政府信息透明;(2)可以使公民更多更好地参与政府决策,促进政府决策的民主化;(3)可以获得公众更有效的反馈,增加公众与政府的协作性;(4)可以促进公共数据的广泛应用,激发创新,促进政府信息资源的深度开发与重用,更快实现资源的价值。

自2009年以来,世界电子政府先进国家兴起了一股“数据民主化”浪潮,各国积极开展政府数据开放工作。美国政府承诺除了涉及国家安全和隐私之外的政府数据全部向公众开放,2009年5月,政府将以前政府专有的数据库发布到网上,建立了全球第一个独立的政府数据门户www.data.gov,该举措标志着全世界政府数据开放运动的开端。伯纳斯·李也是政府数据上网的积极倡导者,他不仅通过TED会议号召让公众可以访问和利用政府数据,通过真实的案例说明政府开放数据的价值,还在2010年1月亲自为英国政府数据网站揭幕。

两年多来,政府数据开放发展迅速,成效显著,以美国政府数据网站为例,2009年5月美国政府数据网站上线时,只有11个政府机构提供了76项数据集[19]。今天,该网站不仅提供计算机可读和可处理的数据集,还提供了多种数据分析、过滤和管理的工具;不仅由政府提供数据的各种应用程序,还鼓励公众贡献数据的应用程序;不仅提供互联网上的应用,还提供移动终端的综合应用。2012年1月,该站点提供了390 178个原始数据和地理空间数据集,1150个政府应用程序,236个政府开发的应用,85个移动终端应用。美国政府有31个州、13个城市、172个机构和子机构建立了数据网站,而与此同时国际上也有28个国家、地区或国际组织开办了数据网站[20]。

政府数据开放运动的价值不仅在于它提供了计算机可以直接处理的数据,还在于它提供了各种各样的作为数据基础设施的数据工具,包括结构间协作的数据工具、数据反馈工具、数据查找工具等。毫无疑问,从科学研究发展的角度看,全球正在兴起的政府数据开放运动为基于数据科学研究基础架构的建立提供了良好的条件。

3、对数据密集型科学研究范式的分析

科学研究第四范式为我们描绘了科学研究在当前的水平下科学发展新的增长点,《第四范式》一书通过多角度的分析展现了新的科研范式的现状、价值和意义。结合上述数据洪流产生的社会背景分析,数据储存、数据互连和数据挖掘的价值将是难以估量的。本部分我们在《第四范式》一书的基础上分析数据密集型科学研究以及格雷先生第四范式的意义和价值。

3.1科学数据和科学研究的问题

科学界目前对科学研究范式和海量数据问题的探讨,让我们感受到了当前科学研究中存在的问题,这些问题可以分为两方面,一是数据方面,二是科学研究方面。

数据方面的问题是:

(1)缺少合理的数据保存、共享和重用制度保障。一直以来,绝大多数科学数据作为科学研究的附属材料没有得到很好的处置,它们在个人笔记中或使用磁介质存贮,随着时间的流逝,渐渐变得不具备可读性或者最终被丢弃。

(2)数据爆炸。在21世纪,大量新科学数据被新的仪器全天候(24/7)获取,同时信息在计算机模型的人工世界中生成,这使我们身处数据洪流中。

(3)缺乏有效的数据工具。虽然数据在急骤增多,人类存储数据和传输数据的能力在不断增强,但数据往往保存在分散的数据库中,目前科学研究领域对数据管理、分类、分析、挖掘工具依旧缺乏。

科学交流方面的问题是:

在科学研究的整个链条中,我们只得到了作为论文或研究结果出版后的最高端的一部分成果,大量的数据为了文献发表栏目的需要被缩减到极小一部分。尽管科学界有少量利用数据或重用数据成功的科学研究范例,但是总体看,已经存在的科学交流模式未能发掘数据这个原始科学研究素材的价值和功能,在我们面临着数据洪流、面临着数据为我们揭示更多元、更深刻、更全面的事物规律的可能性之时,科学交流体系的完善应该提上议事日程。

3.2相应的解决方案

从《第四范式》一书以及从其他学者的相关研究中,从上述关联数据实验项目、政府数据开放的实施以及科学界海量数据管理和挖掘的实践探索中,我们看到,解决上述问题的数据密集型科学研究范式正在出现,学者们所提出的解决方案主要体现在:

(1)建立整个学科研究资源完整的采集、存储、管理、分析、发布的链条,

这个链条中不仅有文献还要有数据存在,不仅有原始数据还要有派生数据存在,不仅有结果还要看到过程的存在。

(2)建立实验室数据管理系统,并形成长期的数据存档和追根溯源的机制。

(3)建立对所捕获数据的挖掘和分析的专门机构。

(4)大力开发数据捕获、分类管理和分析挖掘的新算法和新工具。

(5)开发新型文献及数据出版和发布的工具,开发新的出版模式,支持出版物的快速变革。

(6)建立支持数据交流、发布和利用的、随处响应的数据基础设施,其中包括计算机资源硬件、数据中心和高速网络、软件工具和中间件;建立互操作标准,支持数据之间以及数据和信息之间的整合、获取、推断、思考和说明,支持国际间分享数据和多个学科的紧密合作。

(7)建立融数据和文献于一体的新型数字图书馆,形成数据与信息融合的互操作架构。让科学研究的整个过程都可以在数字图书馆的电子环境中进行,并对所有人开放,使科学研究的素材、思路、过程和结论都能够得到传播和共享。

(8)制定国家政策促进全科学链条信息和数据的接入和重用,提高科学研究者的生产率,加速科学研究的创新和发现速度。

(9)培育数据科学家,展开对数据的高质量管理和分析。

根据本文前述库恩的范式理论,科学向数据密集型科学研究范式转换的成功将标志着常规科学的形成,必将引发科学研究观念和研究方法的新突破和新发展。这个愿景反映了未来科学的行为方式,若要保证科学的快速发展、保持科学研究的领先地位,这已是国家政策制定者不能忽视的趋势,也是科学研究者必须高度关注的信号。

4、情报学对于数据密集型科学研究范式的应对

4.1数据密集型科学研究范式对情报学的影响

笔者将数据密集型科学研究范式对情报学的影响归结为以下两方面:

(1)情报学本身作为一个科学学科,必然也会采用数据密集型科学计算的方式开展学科基本问题的研究。

这种影响表现得非常明显,从学术成果来看,主要有:一是信息计量学和网络计量学在近年来的快速发展;二是基于科学文献的引文、作者、关键词、研究机构数据的分析成果大量出现;三是基于网络超链接数据、社会网络数据的分析成果大量出现;四是大容量数据统计和分析工具如SPSS等以及信息可视化工具如CiteSpace等的广泛传播和利用。

由于这方面的研究在目前的情报学专业刊物上是比较多见的,在下文中,笔者将不对这部分的影响做过多分析。


数据密集型科学研究范式的兴起与情报学的应对(3).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:今天,你减碳了吗

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: