国内外主要本体库比较分析研究
白如江/于晓繁/王效岳
2012-10-22 11:13:10 来源:《现代图书情报技术》(京)2011年1期
【英文标题】The Comparative Analysis of Major Ontology Repository at Home and Abroad
【作者简介】白如江、于晓繁、王效岳,山东理工大学科技信息研究所(淄博255049)
【内容提要】介绍4种国内外主要的通用本体库WordNet、DBpedia、Cyc、HowNet和两个比较成功的专业领域本体库生物医学和企业领域本体库,从描述语言、存储方式、查询语言、构建平台和应用领域5个方面分别对4种通用本体库和领域本体库进行比较分析,为国内外学者在本体库及其应用研究方面提供帮助。
The paper introduces the major general Ontology libraries in domestic and foreign: WordNet、DBpedia、Cyc and HowNet, and the successful professional domain Ontology libraries: Biomedical Ontology and Enterprise Ontology. Then it separately compares and analyzes them from five aspects as the description language, storage mode, query language, platform building and application to provide assistance for the study in Ontology library and its application.
【关 键 词】本体库/WordNet/DBpedia/Cyc/HowNet/生物医学本体/企业管理本体Ontology library/WordNet/DBpedia/Cyc/HowNet/Biomedical Ontology/Enterprise Ontology
1 背景
本体(Ontology)的概念最早起源于哲学领域[1],作为语义基础被广泛应用于信息检索、人工智能、语义网络、软件工程、自然语言处理、电子商务和知识管理等领域。为满足企业界和学术界的需求,现已开发出了多种通用的常识性本体库系统(如WordNet、DBpedia、Cyc、HowNet、Frame Ontology、DublinCore等)和大量的领域本体库系统。
领域本体库系统方面存在两个问题:
(1)不同的领域积极开发自己领域的本体,如生物医药本体、金融本体、法律知识本体、电子政务本体、新闻本体、旅游本体、生物基因本体等。
(2)同一领域也存在两种情况:由于地域的差异,同一知识范畴出现了不同版本的本体和本体模型;由于领域的概念结构庞大,逻辑结构复杂,产生多个相互关联的本体,这些本体组合起来,共同表示某一领域的知识范畴。
本体如此广泛应用的原因是:它提供了对特定领域知识的共享和共同认识,以便实现人机应用系统中的通信。利用本体技术构建的领域知识库不仅可以清晰地描述领域中的概念及其关系,还可以实现领域知识的共享和重用,且有利于领域知识库的管理和维护。
国外对本体的研究项目很多,研究成果已十分丰富,并且建成了许多正在使用的开源本体知识库系统。国内对此的研究十分有限,与国外存在很大的差距。通过对文献的搜集发现,目前国内外关于本体库比较分析研究的论文很少。本文选取了目前4个主要的、较为成熟的通用本体库系统:WordNet、DBpedia、Cyc、HowNet和两个专业领域的领域本体,从描述语言、存储方式、查询语言、构建平台和应用领域5个方面分别进行比较分析,希望为自然语言处理等的研究和科研人员在本体库的选取和使用方面提供帮助。
2 国内外主要的本体库
2.1 WordNet
WordNet(http://wordnet.princeton.edu/)是由美国普林斯顿大学的Miller带领的一组心理词汇学家和语言学家于1985年起开发的大型英文词汇数据库,它是传统词典信息与现代计算机技术以及心理语言学研究成果有机结合的一个产物[2]。目前与WordNet相关的研究已经涉及德语、法语等其他多种语言,被认为是计算语义学、文本分类等相关领域研究者可获取的最为重要的资源[3]。
WordNet以同义词集(Synsets)为单位组织信息,对查询结果的演绎比较符合人类的思维定式。同义词集是在特定的上下文关系中可互换的同义词集合。它与普通词典的最大区别在于它根据词义而不是词形来组织词汇信息。WordNet关心词与词之间的联系,认为词的意义在于词与词之间的区别和联系,而词与词之间的组织方式显示了词概念之间的区别和关联;词性反映了词汇所包含的概念的类别,在组织中将词汇分成5个类:名词、动词、形容词、副词和虚词。实际上,WordNet仅包含名词、动词、形容词和副词,忽略了英语中较小的作为语言句法成分的虚词集。WordNet使用同义词集表示一个语言符号,重点分析名词、动词、形容词和副词的语义关系,构建了如层级系统、N维空间关系、蕴含关系等关系系统,通过这些关系来表征语言的意义。
WordNet的各个版本均可以从普林斯顿大学认知实验室的网站上(http://wordnet.princeton.edu/wordnet/)免费下载。WordNet3.0数据库中所包含的词汇统计数据,如表1所示。
因WordNet3.0版本对于安装系统的要求较高,可选择WordNet2.1版,使用WordNet浏览器界面,深入了解其用途。图1是笔者在浏览器中输入“mouse”,了解与“mouse”相关的信息。可见,单词“mouse”既有名词的词性也有动词的词性,点击“Noun”选项可以查询其同义词“Syonoyms”、并列术语“Coordinate Terms”、上位词“Hypertms”、下位词“Hyponyms”、摘要“Brief”、下位词“Hyponyms”、完整“Full”、组分概念“Holonyms”、规则的部分词“Meronyms”、继承的部分词“Meronyms”、关联格式的