国内外主要本体库比较分析研究(2)

2018-11-28 17:57

变形“Derivationally Related Forms”和歧义参数“Familiarity”。点击“Verb”选项可以查询其以估计频率排列的同义词、以相似性分组的同义词、并列术语、上位词、关联格式的变形、句式框架“Sentence Frames”和歧义参数。

图1 WordNet2.1的浏览界面

如果查询的是形容词,系统可以提供以下信息:同义词和相关名词性概念、反义词、该词的值、关联格式变形和歧义参数等。如果查询的是副词,可以提供:同义词和以其为词干的形容词、词域和歧义参数。

尽管WordNet3.0版本比最初的版本无论是在词汇量还是在用户界面上都有了很大改进,但它的查询范围仍然只限于英文的名词、动词、形容词和副词4种词汇。WordNet将代词归入名词概念中,而定冠词则无法查询。本质上,WordNet更像一部电子词汇数据库(An Electronic Lexical Database),与真正意义上的本体库相差甚远。由于系统原始条件的缺陷以及词库数据庞大而又无法再进行重新标引等限制因素,WordNet注定不能成为具有推理功能的系统,而只是“一部基于网络的叙词表检索系统”[4]。

2.2 DBpedia

知识库在提高网络智能和智能搜索方面起着重要的作用,同时也支持信息的集成。由大量人员维护的维基百科(Wikipedia)是人类知识资源的知识库。DBpedia(http://dbpedia.org/About)项目通过从维基百科的词条里抽取结构化数据,以更加有效的方式获得信息来平衡这个巨大的知识资源。基于维基百科数据集,DBpedia允许用户进行复杂问题的查询,并链接网上其他数据集到维基百科数据集[5]。

目前,DBpedia描述340多万个事件,其中150万个一直以本体的方式进行分类,包括312 000个人物、413 000个地方、94 000个音乐专辑、15 000个视频游戏、140 000个组织机构、146 000个物种和4 600种疾病。DBpedia数据集有特色的标签,它从90多

种语言中提取320万个事件、841 000种链接图片、5 081 000个外部网络连接、9 393 000个外部链接到RDF数据集、565 000个维基百科类别和75 000个YAGO类别。DBpedia包含的10亿多条信息中有2.57亿是从维基百科的英文版本中提取的,7.66亿是从其他语言的版本中提取的(数据来源http://wiki.dbpedia.org/Datasets)。图2展示了DBpedia强大的链接数据。

图2 DBpedia的链接数据资源

(注:图片来源:http://richard.cyganiak.de/2007/10/lod/,最后更新日期2010-09-22)

DBpedia的优势在于:它涵盖很多领域,可代表真实团体的一致意见,能自动地随着维基百科的变化而发展,是真正多语种的。DBpedia工程展示了一个多种类知识的丰富语料库,这些知识是致力于建立结构化知识库的人们大规模的共同合作的结果。DBpedia知识库涵盖了一系列的不同领域和这些领域的实体联系,代表了数以千计的维基百科工作者对概念的一致意见并且随着概念的改变而进化。

2.3 Cyc

Cyc(http://www.cyc.com/opencyc/)提取了单词Encyclopedia(百科全书)中间的三个字母,百科全书并非包括所有的知识,一些显而易见的知识就没有,但正是这些显而易见的知识就是常识性知识,Cyc项目用电脑表示需要了解但百科全书中没有的常识性知识。这个项目始于1984年,由Cycorp集团的总裁和首席执行官、卡耐基梅隆大学和斯坦福大学计算机科学系的教授Dong Lenat[6]发起。Cyc是一个试图综合日常生活常识,建立综合的本体库和数据库的人工智能工程,其目标是使人工智能具有与人相似的推理能力。

1994年度的图灵奖获得者Edward Feigenbaum在2001年1月曾说过:“智能系统的动力是系统所包含领域的知识??Cyc不仅有世界上最大的知识库,也是技术论的最佳代表。”[7]Cyc旨在提供一种可以被其他程序灵活使用的深层次的理解。它的知识库服务器


国内外主要本体库比较分析研究(2).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:机械设计习题

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: