3)句子相似性度量的研究:分类已有的句子相似度计算方法,分析各自的优缺点。 研究已有的句子语义计算模型,并将其与全信息理论结合起来,分析全信息理论在模型中的使用。综合句义三维模型与全信息理论,提出基于全信息理论的句子相似度计算方法。 4)算法的测试与应用:综合测试提出的语义相似性度量算法,并将算法应用到课 题的Yotta系统中,实现算法与实际工程的结合。
总体上,本文拟采用“发现扩展主题图融合中的语义冲突—解决冲突,提出算法 —算法实现与测试—应用到实际系统”的技术路线,如图1-2所示:
扩展主题图融合分析扩展主题图融合中语义冲突分析、扩展主题图融合中的语义相似性度量研究(方法、使用场景等)语义相似性度量研究基于规则和同义词词典改进的基于知网的计算基于语料库的计算句义三维模型全信息理论基于本体和语料库的综合词语相似度计算基于全信息理论的句子相似度计算扩展主题图的相关标准与规范与知识资源管理与服务系统(Yotta系统)的集成
图 2-2 本文的技术路线
1.4 论文组织结构
论文按照以下content进行组织:下面的文字的缩进是不是有点怪 第1章
绪论。简述了课题的研究背景、研究的意义和价值,然后介绍了相关
理论和技术的国内外研究现状,最后简介自己的研究content和研究思路。 第2章
扩展主题图融合及语义冲突。介绍主题图和扩展主题图的概念和描
述,详述扩展主题图融合的原则和过程;研究融合过程中产生的语义冲突,分析其产生的原因和种类;研究语义相似度在扩展主题图融合中的具体使用。 第3章
基于本体和语料库的综合词语相似度算法。分析已有的计算算法,建
立计算机领域的简易语料库,融合同义词辞典、规则、知网和语料库,提出一种基于本体和语料库的综合词语相似度计算算法。 第4章
基于全信息理论的句子相似度算法。分类介绍现有的句子相似度计算
算法,研究句子语义计算模型,融合句义三维模型和全信息理论,提出一种基于全信息理论的句子相似度算法。 第5章
算法的实验与分析。首先介绍两类实验数据的准备,然后进行多领域、
多层次的算法测试与分析及相关算法对比测试;最后将提出的语义相似性度量的算法应用到课题系统(Yotta系统)中进行综合测试。 第6章
结论与展望。对本文的工作进行总结,然后提出本文工作中的不足和
需要改进的地方,以及将来研究的方向。
2 扩展主题图融合及语义冲突
本章首先详述主题图和扩展主题图的概念及描述语法XTM,并举例说明。然后研究扩展主题图融合的原则和过程,分析融合过程中产生的语义冲突。最后介绍解决语义冲突关键技术—语义相似性度量及其在扩展主题图融合中的具体使用。 2.1 主题图与扩展主题图
2.1.1 主题图概念及描述
1)主题图的概念
主题图(Topic Maps)的概念最初是由W3C(World Wide Web Consortium全球万维网联盟的简称)提出的,并由国际标准组织SGML(Standard Generalized Markup Language)委员会第三工作小组的研究人员开发,用来实现索引和辞典构建过程的形式化。这些早期努力演变的结果就是ISO/IEC 13250:2000,这项国际标准定义出了Topic Maps的完整模型[3]。主题图标准建设了知识和信息间的桥梁,实现信息快速查找,提高信息的可现性,最终实现知识的共享和重用。主题图实际上在信息资源的上层构建了一个结构化的语义网,其独立于技术平台,描述主题之间的关系及主题与具体资源的联系,通过揭示概念之间的关系,将用户引领到相关的资源。
一个主题图就是一个由主题、关联性以及资源实体组成的集合体。如图2-1所示主题图的架构可分为3部分,即TAO[19]。不知道你的这个“TAO”在这句话中指什么主题(Topic):指主题图中用来代表具体实体或抽象概念的符号表示,能在计算机中表示、存储、检索等,在现实世界中能表示人、事、时、地、物等。关联(Association):指连结两个或两个以上主题间的关系,主题间的关联性可以独立于信息资源而存在。主题图的关联性是主题间的双向关联,并且可实现多个主题间复杂关联。资源实例(Occurrence):代表一个主题与信息资源之间的联系。一个主题可以被链接到一个或多个信息资源,被关联的信息资源可能是关于某个主题的一篇专论、文章或为一段简述以表达此主题的资源等,该资源可位于主题图的外部,通过URL来指向具体信息资源。
主题主题间联系主题到资源的引用数据库资源网页或文档资源
图 2-1 这块的空格与上面图的个数不一样主题图体系结构 2)主题图的描述与实例
基于ISO13250标准的XML Topic Maps(XTM)[4],是使用XML的语法形式描述主题图的各个元素。根据XTM的DTD标准,XTM定义了19个标签元素。如表2-1所示:
表2-1 XTM元素表
元素
含义 主题图的根元素
主题 主题关联 说明范围引用到的主题
引用表示类型的主题
主题标识 主题基名 和主题相关的资源 主题基名的字串content 主题基名以外的名称,即别名
别名 别名的上下文
关联成员,指出在关联中,扮演某种角色的主题
指明在关联中,成员扮演的角色
引用主题元素 引用项目标识符 提供待引用资源的URI 资源数据,只能容纳字符数据
与其它主题图合并用
下面展示一个具体的实例,来描述XTM的三要素:主题、关联和资源出处。实例描述的是:在福建泉州有一个郑成功纪念馆,里面有郑成功的各种资料,泉州盛产水果龙眼。首先定义四个主题:福建泉州、郑成功纪念馆、郑成功和龙眼,然后定义位于、生产和地方与人物三种关系,最后将资源出处与主题关联起来。XTM描述如下: