CiteSpace知识图谱的方法论功能_陈悦(2)

2019-04-14 20:37

第2期陈悦陈超美刘则渊等:CiteSpace知识图谱的方法论功能

·247·

图3CiteSpace的应用流程

Derwent,NSF,SCOPUS,SDSS和ProjectDX的数据提供了数据格式转换器。CiteSpace更适用于研究某个主题的演进,所以有针对性的主题检索效果相对

更好,由于该工具基于数据的聚类而形成可视化图谱,因而数据量应达到一定的规模,如果一次检索的,数据量较少,可以以此为“种子”进行引文的二次

·248·

科学学研究第33卷

检索,数据将会更完整,这可以在一定程度上提高可

[21]

,“再生医学”前沿研究就采用了这种视化效果

数据检索方式。任何知识图谱绘制的科学性都根源

于数据基础,即如何精准全面地检索到所要研究主题的全部文献是关键的问题,作者应该重视数据检索方式,并在研究论文中有明确表述。除了利用已有数据库的数据之外,我们也应该试图根据所要研

:“对于从事究的问题自己搜集挖掘数据,武夷山说科学计量学研究的,如果不肯花力气去搜集、挖掘待[25]

分析的数据,那就趁早离开得了”。CiteSpace是一个开源软件,它有强大的数据处理功能,我们可以在数据的搜集和检索方面做更多的努力。

数据准备好之后,进入CiteSpace运行阶段,该阶段包括一系列的选择,即时区选择、阈值选择、剪枝选择和功能选择。时区选择是CiteSpace工具的一大特色,但当研究内容并不在于反映“演化”时,就可以灵活地将数据划为一个时区。阈值选择提供了多种数据筛选的策略。

数据准备好之后,进入CiteSpace运行阶段,该阶段包括一系列的选择,即时区选择、阈值选择、剪枝选择和功能选择。时区选择是CiteSpace工具的一大特色,但当研究内容并不在于反映“演化”时,就可以灵活地将数据划为一个时区。阈值选择提供了多种数据筛选的策略。首推最简单的TopN选择,即在每个时区中选择前N个高频出现的节点;次推TopN%选择,即在每个时区中选择前N%个高频出现的节点;第三种比较复杂,通过前、中、后三

cc,ccv),个时间段的(c,即(被引或出现的频次,共被引或共现频次,共被引率或共现率)的设置来筛

选数据的方式,具体运行过程中通过线性插值的方cc,ccv)的前两法对各个时间段进行阈值控制。(c,

ccv是相对值控项是绝对值控制,实现对点的控制,

制,实现对线的控制,经验值为15或20,这意味着我们对出现频率较高的两点的共现频率的要求也相应提高;第四种选择是要与上述三种选择策略配合使用,选择出现频率在某个区间的文献(或词等),这使得我们可以根据研究的具体内容,方便地删除掉可能无太大意义的高频文献或低频文献。在CiteSpace运行过程中,后台的数据处理状况都能够显示出来,我们可以根据数据运行状况进行阈值调

CiteSpace整。如果可视化初期结果杂乱难以解读,提供了寻径(PathFinder)和最小生成树(Minimum

SpanningTree,MST)两种剪枝方式的选择,Path-

Finder的作用是简化网络并突出其重要的结构特

MST的优点征,它的优点是具有完备性(唯一解),能很快出结果。CiteSpace提供了11是运算简捷,

种功能选择,针对于施引文献的合作图谱(作者合作、国家合作和机构合作)和共现图谱(特征词、关键词、学科类别),以及针对于被引文献的共引图谱(文献共被引、作者共被引和期刊共被引)。这些图谱都可以用来揭示科学结构的发展现状乃至变化情况,并进而用于前沿分析、领域分析、科研评价等,但针对于具体的研究问题,应根据不同图谱的绘制原理来进行选择。如使用最频繁的是文献共被引图谱,可以帮助人们通过图谱中的关键节点、聚类及色彩来分析某个研究主题的演变;合作图谱可以发现某个研究领域学者、国家或研究机构之间的社会关系,为评价科研人员、国家或机构的学术影响力提供一个新的视角,有利于我们发现那些值得关注的科研人员、国家或机构;共词(特征词或关键词)图谱更有利于人们分析研究热点及热点的演变,尤其配合突现词(burstterm)功能的使用;学科类别贡献图谱往往用来分析学科知识结构及其演变;作者共被引图谱可以用于分析某个领域内的科学共同体及其演变;期刊共被引可用于研究领域的学科基础及其演变的分析。完成这一系列选择,按下运行按钮,CiteSpace将在后台进行创建矩阵、降维和聚类的过程,数据筛选和运行情况会显示在运行窗口的左侧。随后进入可视化阶段。

CiteSpace提供了三种可视化方式的选择,其中默认的是聚类视图(cluster),它侧重于体现聚类间的结构特征,突出关键节点及重要连接,时间线视图(Timeline)侧重于勾画聚类之间的关系和某个聚类中文献的历史跨度,时区视图(timezone)是另一种侧重于从时间维度上来表示知识演进的视图,它可以清晰地展示出文献的更新和相互影响。在聚类视图的基础上我们还可以选择双图叠加以寻求两个图谱之间的关联,或是以Googlemap为基础图,绘制一幅空间知识图谱。CiteSpace依据谱聚类算法提供了自动聚类的功能,并提供了从聚类施引文献中提取聚类主题词的三种算法,默认的自动标签词是依据TF*IDF加权算法而给出的。绘制图谱的要求。“美观”之一是要美观并易解读就是指看上去舒

服,对于一副知识图谱而言,如果显示出结构过于拥挤、节点大小和标签大小不协调、色彩混乱,则称不“美观”,上但若结构布局清晰、节点大小和标签大

第2期陈悦陈超美刘则渊等:CiteSpace知识图谱的方法论功能

·249·

干净利索的图谱会让人舒服,小适度、色彩层次化、“美观”(图4)。甚至有艺术的享受,即

图4美观的知识图谱示例

CiteSpace依据网络结构和聚类的清晰度,提供了模块值(Q值)和平均轮廓值(S值)两个指标,它

可以作为我们评判图谱绘制效果的一个依据。一般Q值一般在[0,1)区间内,Q>0.3就意味着划而言,

分出来的社团结构是显著的,当S值在0.7时,聚类是高效率令人信服的,若在0.5以上,聚类一般认为是合理的。知识图谱的绘制是需要选取不同的阈值多次绘制,依据Q值和S值选取较理想的图谱作为最终的结果。另外,值得一提的是,为了便于读者对图谱的认识和理解,我们应该尽可能保留软件生成图谱的坐上方信息栏,其中提供了各种阈值设置、节点数、连线数、网络密度、轮廓值及模块值等数值。绘制知识图谱的目的是更好地理解科学发展的状态和机制,因而解读是关键。图谱解读是一项兼具科学性和建构性的工作,建构性必然会带来图谱解读的因人而异,无法强求一致,而科学性则要求图谱解读的规范和严谨,需遵循一定的规则和程序。

专家解读固然能提高图谱解读的科学性,但随着科

学的交叉、融合、纵深的快速发展,新兴研究领域和主题不断涌现,所谓的专家也未必能对科学的局部与整体把握得十分准确,实际上从某种角度而言,科学知识图谱工具的使用有助于改善人们的这种认识

[3][26][22]

,除不足。关于CiteSpace的三篇重要文献

了对形成的文献结构进行分析外,都经过了专家的

认证解读。这从一定程度上可以证明CiteSpace是可以用来反映科学发展的客观情况的。CiteSpace是通过多种阈值选择而形成的一种独特的多个文献共被引网络组合而成的知识网络,并提供了一些自动生成的信息,可以利用这些信息从网络的整体结构、形成的聚类、聚类之间的关系(包括结构的关系和时间的关系)来入手,解读过程中应参照各种自动生成的指标信息(右键弹出菜单提供很多功能)。另外,自动聚类和自动提取出的聚类标签词极大地帮助我们理解网络的内容,在理解网络结构和内容

·250·

科学学研究第33卷

时,寻找特殊点和连接线是很重要的,这些特殊点占据着知识网络中的一些重要位置,在知识结构演变中扮演着特定的角色,这些特殊点的寻找可以依据中介中心性(betweennesscentrality)、突现性(burst)、综合考虑中介中心性和突现性的Sigma值等来灵活判断。

以按图3应用流程引入Google地图,自动生成合作网络的地理分布图谱,它可以从空间位置上直观地显示出作者和合作作者之间的关系(图5)。

(2)CiteSpace的数据处理功能。CiteSpace软件内置了MySQL数据库,可以导入WoS格式的txt数据。通过菜单按钮或直接输入SQL语句,可以对生成的数据库进行查询和更新,实现对数据的统计、过滤和清洗。CiteSpace软件3.7.R7版本中的内置数据库采用的是MySQL数据库技术,要求本地机器可以成功运行MySQL数据库,并且需要在在“C:\\\\DocumentsandSettings\\\\Administrator\\\\.citespace”文件夹下创建一个名为“mysql.ini”的数据库文件,而后导入的数据文件信息都将存储于在此数据库中。图6为内置数据库操作界面,此界面可以划分为三部分,最上部分是功能菜单,中间部分为工程信息、最下面部分为SQL语句查询。

4CiteSpace的功能拓展:从地理图谱到双图叠加

CiteSpace知识图谱问世之初仅限于展示知识领域研究前沿演进的基本功能,其后技术不断改进,

功能不断拓展。鉴于国内大多数应用CiteSpace的论文都是使用了该工具较为初级的功能,本文在此推介几种较为高级的功能,以便国内学者能更有效地应用该工具。

(1)基于GoogleMap的知识图谱。CiteSpace可

图5合作网络的地理图谱

[27]

(需事先例如,想要查询数据库文件“project1”

创建并导入数据)中被引频次大于5的引文,可以reffromrefs在查询栏中输入“selectcount(ref),

whereproject=“project1”groupbyrefhavingcount(ref)>5”查询结果可以保存为WoS格进行查询,式或CSV格式。

“update”SQL语句,通过还可以对数据表中的

数据进行修改。例如,输入“UPDATErefsSETref=Kuhn,T.S.,STRUCTURESCIREVOLU,1962’WHEREproject=’project1’andref=’Kuhn,T.,”,STRUCTURESCIREVOLU,1962’可以将所有写成“Kuhn,T.,STRUCTURESCIREVOLU,1962”的引文

图6

CiteSpace内置数据库操作界面

统一成“Kuhn,T.S.,STRUCTURESCIREVOLU,1962”。修改后的数据可以利用数据库的导出功能

第2期陈悦陈超美刘则渊等:CiteSpace知识图谱的方法论功能

·251·

以便在CiteSpace中重新运行重新生成WoS格式,

和可视化。

(3)鱼眼图。鱼眼视图技术(fish-eye),一方面把人们感兴趣的研究区域放大显示,另一方面使焦点周围的信息内容逐渐缩小,而且保持着整体视

图的可见性,这是一种Focus+Context技术。

CiteSpace为便于用户的分析,提供了基于时间线图的鱼眼图功能,图7显示的是一般时间线图和鱼眼图的比较。

图7一般时间线图和鱼眼图的比较

(4)双图叠加。双图叠加(overlay)功能是将一幅CiteSpace图谱上叠加到另一幅图谱之上,前者称为叠加图,后者称为底图(basemap)。通过双图叠加功能,可以展现一张图谱所代表的知识领域在另一张图谱所代表的知识领域中的分布和地位。图5(c)就是一幅双图叠加图谱,但目前的CiteSpace版本还无法实现。我们用现有的版本绘制了另一双图叠加图谱(图8),底图展现了Scientometric期刊论文中的共被引图谱,可以看出,该期刊主要分成了7

个子领域;另外再做一个引用普赖斯《小科学、大科

学》一书的文献共被引图谱,并将其叠加到前者的底图上,这样就可以展现普赖斯的影响力主要体现在Scientometrics的7个子领域中的哪些方面。比如,图中可以看出,普赖斯的影响力主要体现在“科

”、“科学评价”、学合作基于科学论文网络的“科学知识图谱”和包含洛特卡定律或普赖斯定律的“科学生产率”等领域中。

图8引用普赖斯的文献在整个Scientometrics期刊论文中的分布

5结论

方法论功能的实现、及其应用功能的扩展,较为全面深入地论述了CiteSpace知识图谱的方法论功能。(1)CiteSpace知识图谱整合了视觉思维、数学思维和哲学思维,改变了人们认识世界的方式,即以世界2对世界3中“一阶科学”的一个知识领域文

本文从四个方面,即CiteSpace改变看世界方式

的核心功能、对研究领域解释与预见上的理论功能、


CiteSpace知识图谱的方法论功能_陈悦(2).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:小学一年级音乐《咏鹅》教案(龙艳红)

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: