CiteSpace知识图谱的方法论功能_陈悦

2019-04-14 20:37

第33卷第2期2015年2月

文章编号:1003-2053(2015)02-0242-12

科学学研究StudiesinScienceofScienceVol.33No.2Feb.2015

CiteSpace知识图谱的方法论功能

12111

陈超美,刘则渊,胡志刚,王贤文悦,

(1.大连理工大学(中国)—德雷塞尔大学(美国)知识可视化与科学发现联合研究所,WISE实验室,大连116085;

2.德雷塞尔大学计算与信息学院,美国)

要:科学知识图谱的概念和CiteSpace工具自引入国内学术界,就迅速得到了大量关注,相关文献犹如雨

后春笋般见诸国内情报学、科学学和管理学等各种期刊。但我们通过阅读国内500多篇应用CiteSpace工具“滥用”“误用”的论文,发现存在知识可视化工具和的现象,其缘由在于使用者对该工具的方法论功能认识不足。为此,本文从四个方面阐释CiteSpace知识图谱的方法论功能:从CiteSpace工具的设计理念入手阐发其改变看世界方式的核心功能;从CiteSpace的理论基础阐述其对研究领域解释与预见上的理论功能;从CiteSpace使用流程阐明其方法论功能的实现;从CiteSpace的新近技术介绍其应用功能的扩展。我们期望CiteSpace知识图谱在探测学科前沿、选择科研方向、开展知识管理和辅助科技决策诸方面能够更好地发挥方法论的功能。

关键词:科学知识图谱;方法论;CiteSpace中图分类号:G301

文献标识码:A

DOI:10.16192/j.cnki.1003-2053.2015.02.009

自2005年我们率先在中国命名和引入科学知

[1]

科学知识图谱(mappingknowledgedomains)以来,trendsandtransientpatternsinscientificliterature一

[3]文,迄今(截至2014年8月8日)在谷歌学术搜GS)上已被引855次,索(GoogleScholar,其中文版本

[4]

识图谱或知识图谱作为科学计量学的新方法和新领

域在我国勃然兴起并获得长足的发展。科学知识图谱是以知识域(knowledgedomain)为对象,显示科学知识的发展进程与结构关系的一种图像。它具有“图”“谱”和的双重性质与特征:既是可视化的知识图形,又是序列化的知识谱系,显示了知识单元或知识群之间网络、结构、互动、交叉、演化或衍生等诸多隐含的复杂关系,而这些复杂的知识关系正孕育着新的知识的产生。

科学知识图谱的概念源于2003年美国国家科学院组织的一次研讨会,随着信息可视化的发展,绘制科学知识图谱的各种工具亦纷至沓来

[2]

也被引196次(GS)。由于这种多元、分时、动

态的引文分析可视化技术所绘制的CiteSpace知识

图谱,能够将一个知识领域来龙去脉的演进历程集中展现在一幅引文网络图谱上,并把图谱上作为知识基础的引文节点文献和共引聚类所表征的研究前沿自动标识出来,因此我们将CiteSpace知识图谱的:“一图谱春秋,这两大基本特征概括为一览无余;

[5]一图胜万言,一目了然”。

正是CiteSpace知识图谱的鲜明特征而导致CiteSpace迅速得到广泛的应用,随之出现了一批关于应用CiteSpace及其知识图谱的文献综述。国内

[6]

较早开始应用CiteSpace的侯剑华和胡志刚分析

。其中,

CiteSpace知识可视化软件如异军突起,成为目前最为流行的知识图谱绘制工具之一,阐释其基本原理的CiteSpaceⅡ:Detectingandvisualizingemerging

收稿日期:2014-04-27;修回日期:2014-10-21

基金项目:大连市科技计划软科学研究项目(2012D12ZC180)作者简介:陈

了收录在WoS和CNKI中应用CiteSpace的论文的学科分布和使用功能。中国科学技术信息研究所的

mail:chenyuedlut@163.com。悦(1975-),女,辽宁大连人,副教授、博士生导师,研究方向为科学学、科学计量学。E-陈超美(1960-),终身教授,博士,研究方向为信息可视化,知识图谱与科学计量学。男,北京人,

刘则渊(1940-),男,土家族,湖北恩施人,教授、博士生导师,研究方向为科学学理论、科学计量学与科技管理。

胡志刚(1984-),男,山东济宁人,博士生,研究方向为科学计量学与科技管理。王贤文(1982-),男,博士,湖南双峰人,副教授,研究方向为科学计量学与科技管理。

第2期

[7]

陈悦陈超美刘则渊等:CiteSpace知识图谱的方法论功能

·243·

胡泽文等以在综述了国内知识图谱应用现状之:“CiteSpace及知识图谱绘制方法引入中国后惊呼

”后,国内学者对该主题的研究呈井喷之势。北京大

[8]

学的赵丹群在对国内基于CiteSpace的知识图谱应用现状调研的基础上,从领域文献的查找、突变词语的探测、时区分割与相关参数的阈值设置和图谱解读四个方面较为深入地探讨了应用CiteSpace中存在的重要问题。值得关注的是,我国不仅产生了一批以CiteSpace为知识图谱绘制工具的硕士博士学位论文,而且在学位论文中能够剖析使用CiteSpace过程中存在的诸多问题,如北京大学王钦炜在其学位论文中提出国内研究者普遍缺乏对CiteSpace软件功能及使用方法的深入了解,由此造成了一系列科学知识图谱绘制中的诸多问题:图谱绘制缺乏规范,图谱质量参差不齐,图谱解读不当,单张图谱信息量过载而导致图谱可视化直观程度下降等。

人们对待新鲜事物的态度往往是经历观望、追随、狂热、冷静、再回归理智的过程,我国学术界对于CiteSpace和知识图谱的态度也显示出了这种趋势。“CiteSpaceOR科学知识图谱”图1为以为检索式在CNKI中“全文检索”(2005.01-2013.12)所检索到的1352篇学术论文年度分布。2005年为我国关于

,《科学学研究》科学知识图谱文献的起始年发表推出了国内第一篇科学知识图谱论文《悄然兴起的科

(被引229次,学知识图谱》检索时间:2014年8月13日),《作品共被引分析同期发表的还有刘林青的

,与科学地图的绘制》用多维尺度分析方法来绘制“科学地图”,也就是我们所说的科学知识图谱。其

后,论文数在经历2009年到2012年的急剧增长后,2013年增长趋于平缓。从1352篇论文中抽取出的555篇应用CiteSpace的论文,其应用目的和研究领域的分布非常广泛,但主要集中在管理学领域,其中图书情报与档案管理占42.12%,管理科学与工程、公共管理和工商管理共占22.72%,教育学、社会学、体育学共占17.41%,其余大都为人文社科领域,自然科学领域仅基础医学和生物学只占4.7%。值得注意的是,通过基于CiteSpace的专利文献知识图谱分析,它正在工程技术领域迅速扩散与应用。

考察和分析这555篇应用CiteSpace的论文,我们深刻感受到国内学术界对科学研究新方法和新工

CiteSpace凭借其使用操作简单、具的渴求,适用源于多种数据库格式的数据、可以绘制多种图谱、可视

[9]

图1CNKI中关于CiteSpace和科学知识图谱的学术论文年度分布:2005-2013

化效果好、提供信息量大和自动标识易于图谱解读

等强大功能优势吸引了各个专业学科的研究人员,从目前大多数使用CiteSpace的目的主要在于探测学科知识领域发展及其研究热点、前沿和趋势,大体符合开发CiteSpace的初衷。但从现有应用研究的后果来看,仍然存在一些问题:(1)知识领域数据下载策略不当,达不到数据集的完整性和准确性。

(2)对CiteSpace中功能使用的选择与所要解决的问题不匹配。

(3)图谱不美观。主要表现在结构过于拥挤、节点和标签的大小不匹配。

(4)图谱信息缺失。主要表现在CiteSpace使用版本、节点和连线数量不清、阈值选择不明了。(5)图谱解读偏颇。大部分图谱对高频节点都进行了解读,一半左右的文章会对聚类解读,接近一42%的文章半的文章对高中心性节点进行了解读,含有图例说明,时间趋势和burst的应用较少。(6)图谱绘制效果缺乏评估。我们在555篇论文中仅找到1篇论文利用聚类模块性指数Q值和聚类轮廓性指数S值来评估图谱聚类效果。(7)CiteSpace提供了很多深入分析的功能和解读信息,但目前对其应用还都处于较为简单的层次。这些问题导致知识可视化工具的“滥用”和“误

,用”损害了知识图谱的声誉,甚至威胁到知识图谱的命运。究其根源主要是使用者对CiteSpace工具的认识不足,尤其对其方法论功能上的理解还有所欠缺。因为方法论功能并非只是各种方法及其作用的集合,而主要是基于哲学理念和学科理论的观察世界、认识世界与变革世界的方式。正是基于这一点,本文作者作为CiteSpace开发者和主要合作者及优先使用者,试图把近几年对话交流所达成的共识,汇集为CiteSpace知识图谱的方法论功能,拟分别从如下四个方面加以探讨:从CiteSpace工具的设计理念入手阐发其改变看世界方式的核心功能;从

·244·

科学学研究第33卷

CiteSpace的理论基础阐述其对研究领域解释与预见上的理论功能;从CiteSpace使用流程阐明其方法论功能的实现;以及从CiteSpace的新近技术介绍其应用功能的扩展。其中若干关键内容系在开发和改进CiteSpace工具的背后所坚守的宏观哲学观念和相关学科理论,在此首次坦诚地较为完整地披露出来,与国内学术同行分享,以期CiteSpace知识图谱保持旺盛的生命力,在探测学科前沿、选择科研方向、开展知识管理和辅助科技决策诸方面能够更好地发挥方法论的功能。1

CiteSpace的核心功能:改变看世界的方式

和寻径网络算法(pathFinder)等,对特定领域文献

(集合)进行计量,以探寻出学科领域演化的关键路径及其知识拐点,并通过一系列可视化图谱的绘制来形成对学科演化潜在动力机制的分析和学科发展前沿的探测。不仅如此,作为CiteSpace的开发者,陈超美特别强调

[11]

:更重要是在于让使用者通过对

知识图谱的绘制、生成和解读,看到知识图谱将会如

:“CiteSpace的背何改变看世界的方式;并明确袒露

后需要有对库恩或类似的宏观哲学思想体系的了

[6]”解,才能明白CiteSpace到底在帮用户找什么。这里,我们引入著名科学哲学家卡尔·波普尔关于三

[12]

个世界的宏观哲学理论,来说明CiteSpace的设计理念,阐释其如何改变看世界方式的核心功能(图2)。

CiteSpace是应用Java语言开发的一款信息可视化软件,它主要基于共引分析理论(co-ciation)

图2CiteSpace的核心功能:基于三个世界理论的看世界方式

存在着物理世界在波普尔的三个世界理论中,(世界1)、精神世界(世界2)和客观知识世界(世界3)。与划分为客观世界和主观世界的经典哲学认识论不同,波普尔的独到见解在于世界1和世界2相互作用所形成的世界3,是人类创造的知识世界,一旦形成便具有客观性;其结构非常复杂,可分为两部分:文化知识世界和物化知识世界。从科学计量

世界3的科学学理论(1963年)看,

可分为两个层次:由世界2认识自然界所获得的科学之父普赖斯

(first-order-学知识,属于“一阶科学或一阶主题”subject),而科学的科学,包括对科学的认识和计量,(second-ordersub-属于“二阶科学或二阶主题”ject)。后来,1999年瑞典学者伍特斯[14]提出科学表征的概念,将其分为三个层次,意味着世界3也可

[13]

第2期陈悦陈超美刘则渊等:CiteSpace知识图谱的方法论功能

·245·

分为三个层次:一阶表征(firstorderrepresentation)为科学文献;二阶表征(secondorderrepresentation)为引文分析;而他研究的引证文化(citationculture)则属于三阶表征(thirdorderrepresentation)。这就是说,世界3存在抽象程度不同的多阶科学。但抽象程度更高的高阶科学却能够更深刻地反映世界1。不中客体的本质。这就是所谓“思维中的具体”

过这种思维中的具体毕竟远离直观的物理世界,人们难以理解,于是直观形象的可视化技术应运而生。

目前可视化技术有两种形式:图2左侧表示模拟和再现物理世界的科学可视化,亦称体视化(vol-umevisualization)。它与一般科学研究的看世界方式一样,是通过人的视觉,即世界2来认识世界1,

“一阶科学”形成世界3,虽然属于的范畴,但不同之处是以体视化的图像表征世界3,直观再现世界1。

图2右侧为知识可视化,是世界2从世界3中获取抽象信息与知识,通过绘制知识图谱来认识世界1。而制作知识图谱是复杂的认识与思维过程,需要“觉悟””、“视觉思维”。、“感悟”,主要是“视觉顿悟

CiteSpace的设计理念正是由世界2以视觉思维方式,分析和加工世界3中“一阶科学”的一个领域文献,通过绘制知识可视化图谱来透视世界1的一个“改变看世界的方式”。现实领域,从而

在这种以科学知识图谱的方式来认识世界中,视觉思维、数学思维和哲学思维三种思维方式得以统一。首先,绘制出的图谱必须具有映射性、美观性和易读性,而品质优良的图谱是通过各种算法才得以实现,图谱的整体设计、算法选择及解读依赖的是哲学思维。法国数学家波尔达斯·德莫林斯曾说,“没有哲学,过固然难以得知数学的深度,然而没有数学,也同样无法探知哲学的深度,两者互相依存。还应特别指出,如果既无哲学也无数学,则就不

[15]

能认识任何事物”。因而,不从科学哲学的角度去把握CiteSpace,不理解其中各种算法的选择,就难以绘制出令人满意的图谱,更难以去科学地解读图谱。

总之,我们以基于三个世界理论的看世界方式,诠释了CiteSpace的核心功能:借助一个知识领域演进的可视化图谱,以更高抽象程度的“二阶科学”范畴和更为生动直观的形象化图像,从整体上更加深刻地反映和逼近物理世界一个具体领域的科学发展规律,不仅有助于解释现有科学发现,而且有利于建立在世界3基础上的新发现,即基于文献的科学发

现。基于CiteSpace的可解释性与可计算性科学发

[16]

现理论,就是这方面的一个范例。2

CiteSpace的理论功能:对研究领域的解释与

预见

包括CiteSpace的所有信息可视化工具都是旨

,“看”在改变人类看世界的方式,在科学图谱中包“搜索”括和“解读”两个步骤。如何“搜索”和“解

读”才更有效率和效用呢?人们意料之中的信息实际上远不如意料之外的信息更有价值,因为后者意味着变化,很可能预示着新事物的出现。因而,寻找可视化图谱中那些不同寻常的点并分析这些不同寻常点之间的关联是非常重要的。针对于科学知识图谱的CiteSpace工具的设计主要基于库恩的科学发展模式理论、普赖斯的科学前沿理论、社会网络分析的结构洞理论、科学传播的信息觅食理论和知识单元离散与重组理论。这些理论基础的意义在于强化图谱的可解读性、解读的合理性和正确性,通过图谱解读,实现理论两大功能,即领域现状的解释功能与领域未来前景的预见功能。

库恩的科学发展模式理论。库恩把科学发展看成科学革命的历史过程。科学在未形成统一范式之前处于前科学时期;范式形成之后,进入常规科学时期,人们在科学共同体中按范式解题,是范式积累期;发展一定阶段,出现反常和危机,人们寻求新的范式取代旧范式,导致科学革命的发生;之后,迈进新范式下的新的常规科学期。因此,科学发展本质上是常规科学与科学革命、积累范式与变革范式的交替运动过程。这个科学发展模式可以更深刻地阐释CiteSpace知识图谱上一个学科领域引文聚类的形成、积累、扩散、转换进程,揭示一个知识领域研究前沿的突现与演变进程。库恩理论关于发现的涌现、经典名著是科学的转折点等观点,仿佛预见到CiteSpace共引网络图谱中关键节点论著的被引突现性和转折点特征。

普赖斯的科学前沿理论。普赖斯受贝尔纳关于“科学发展总的模式与其说像树,更像网”思想的启发,在加菲尔德发明的科学引文索引(SCI)基础上,

“论文会因为引证关系而形成网络,预言人们可以借助于图论和矩阵的方法来加以研究。……论文一

而形成几乎绘制成地图的(显示出定会聚集成团,

拥有高地和不可逾越的沼泽地)‘陆地’和‘国

·246·

科学学研究第33卷

[13]。”家’紧接着在著名的《科学论文的网络》(1965)一文中,把它变成了现实,由此形成普赖斯维势场上重新结晶的过程。这种过程不是简单的重

复,而是在重组中产生全新的知识系统,全新的知识”在此基础上,单元。刘则渊等提出知识单元(knowledgeunit)就是表征知识领域文献内容或信息内容的概念及陈述、语词及词组、术语及定律等可计量的基本单位。它是知识计量学的核心概念和基本计量单位。在一定条件下,某个关键的知识单元

(knowledgegene)的角色,可能扮演“知识基因”决定着特定领域知识的进化与突变。因而,基于知识单元的特定知识领域所构成的复杂自组织知识系

统,就能够在CiteSpace知识图谱上展示知识的产生、传播和应用,知识的基础、中介和前沿,知识的结构、演化和重组,知识的涌现、断层和变革,等等。因此,可以用关于凝聚游离的知识单元阐释科学发现的宏观和微观机制,这跟上述以网络结构(结构洞)和信息变化(概念假设突变)为基础的科学发现机制,可谓异曲同工。3

CiteSpace的应用流程:方法论功能的实现

[23]

[24]

“参考文献的模式标志科学研究前沿的本质”的的

前沿理论。这个前沿理论是贝尔纳的创意、加菲尔

[18]德的发明和普赖斯的破解三者的结晶。CiteSpace在此基础上,创造性地将引证分析(历时

性)和共引分析(结构性)综合起来,创建了从“知识

“研究前沿”基础”映射到的理论模型,即“如果我们把研究前沿定义为一个研究领域的发展状况(如研

究思路),那么研究前沿的引文就形成了相应的知识基础。一个研究领域可以被概念化成一个从研究前沿Ψ(t)到知识基础Ω(t)的时间映射Φ(t),即Φ

[3](t):Ψ(t)→Ω(t)”。

社会网络分析及结构洞理论。在社会网络分析理论的形成中,英国社会学家格兰诺维特(Mark

Granovetter)提出社会网络“弱连接优势”的重要观点,认为信息在强关系的群体中高速传播,每个人知道的,其他人也多半会知道,新观点和新信息一定来

[19]

自于与其他不同群体中的个体间的弱关系。博在此基础上提出结构洞理论。2012年5月基

[21]

于CiteSpace的再生医学领域综述,正是利用结特

构洞理论分析和把握了其知识图谱上关于“诱导多能干细胞(iPSC)”的前沿聚类中,日本生物学家山中伸弥(ShinyaYamanaka)首创“iPSCs”的高被引、高突现性论文的关键基础作用(参见图5-c左下聚类7),预言该领域这一研究前沿将会摘取诺贝尔奖。果然,山中伸弥和英国科学家格登(JohnGur-don)因在此方面的贡献而获得2012年度此项殊荣。处于结构洞未知的个体透过信息过滤获得更多竞争优势与创新能力。CiteSpace基于此理论开发出知识网络中关键节点及关键位置的发现技术,即发现

[22]

。知识转折点(turningpoint)

信息觅食理论。该理论主要用来解释和模拟人

们在网络环境中的信息搜寻行为,通过模型的简历,模拟用户的信息搜寻过程,并对获取信息的效率进行计算,以其最小搜索成本获取最大利益。CiteSpace将该理论融入科学发现中,揭示科学网络中的结构与时间属性,从发现知识转折点及其连接的角度,开发了一套探寻知识传播(或知识演变)路径的独特方法和技术。

知识单元的离散与重组理论。我国科学计量学家赵红州首先提出“任何一种科学创造过程,都是先把结晶的知识单元游离出来,然后再在全新的思

[20]

CiteSpace知识图谱的合格满意标准一般说来,

主要是:数据完整、程序正确、图谱美观、解读合理,并在图谱制作中能够贯穿和体现CiteSpace的核心功能与和理论功能。这两方面是CiteSpace知识图谱方法论功能中的关键与基础。包括这两方面在内的方法论功能要得以实现,必须通过CiteSpace的一系列应用流程来保证。为此,这里汇集了CiteSpace当前版本使用中,能够达到知识图谱合格满意标准的主要流程,包括软件安装、数据采集、数据处理、参数功能选择、可视化和解读(图3)。

在安装和启动CiteSpace软件之前,首先应确保电脑装有相匹配的JavaRuntime(JRE),如果电脑系统是32位的,需安装Windowsx86的JRE,如电脑系统是64位的,需安装Windowsx64的JRE。当前版本(CiteSpace3.8.R3)最优化的是用于装有Java7的64位Windows系统。当CiteSpace运行速度非常慢时,除了考虑数据量的原因外,也应该考虑计算机的系统配置。

CiteSpace软件对数据格式的要求是以WebofScience数据库的文本数据格式为标准,并随着ISI数据库中数据格式的变化而不断更新。该软件可直接导入WebofScience和arXiv数据库中的数据,直CSSCI,接进行可视化分析,并对于来源于CNKI、


CiteSpace知识图谱的方法论功能_陈悦.doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:小学一年级音乐《咏鹅》教案(龙艳红)

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: