长文档(4)

2019-04-14 20:28

b）如果Ci?Cj，但Ci.name?Cj.name，则为命名冲突。

2）结构冲突：相同的概念群在不同主题图中采用不同的逻辑结构进行表达所造成的冲突。具体又划分为层级结构冲突、属性冲突。

（1）属性冲突是指相同元素，其属性集合不相同。相同概念的属性名相同，属性值不同时，出现属性值冲突。相同概念的属性值相同，属性名不同时，出现属性名冲突。

定义2-3：属性冲突。Ci，Cj表示两个概念。

a）如果Ci?Cj，Ci.AttrName?Cj.AttrName，但Ci.AttrVal?Cj.AttrVal，

则为属性值冲突。 b）如果Ci?Cj，Ci.AttrVal?Cj.AttrVal，但Ci.AttrName?Cj.AttrName，

则为属性名冲突。

（2）层级结构冲突是在不同主题图中，对概念描述的层次结构不同引起的。

定义2-4：结构冲突。

Ci，Cj表示两个概念。如果Ci?Cj，

Ci.structure?Cj.structure ，为结构冲突。

2.4 语义相似度在扩展主题图融合中的使用

扩展主题图的元素来自于不同或相同的资源文件，即主题、知识元出自异构的封闭系统。融合过程中产生的冲突处理步骤是：检测语义冲突和消除语义冲突。消除语义冲突可以依靠元素的合并处理，而检测语义冲突的关键技术即是语义相似度度量。语义相似度计算可以判别在多个系统内是不同概念表示同一事物，还是同一概念表示的是不同事物，是扩展主题图融合的第一步。此后的元素合并、属性保留都是基于相似性计算的结果。相似性计算算法的关键技术是词语、句子间语义相似度计算算法。语义相似度计算的准确性直接影响到主题图最后融合的效果，因此语义相似性度量研究在主题图融合过程有着很重要的作用。

2.4.1 简单文本分类的应用

语义相似性度量的计算是将两个扩展主题图XTM文件中的元素两两对比计算，如XTM文件元素个数为n，则需计算的时间复杂度为O(n2)。为减少计算量，必须精简元素的比较计

算。文本分类就是根据预先定义的主题类别，按照一定的规则将文档集合中未知类别的文本自动确定一个类别，涉及数据挖掘、计算语义学、信息学、人工智能等个学科，是自然语言处理的一个重要应用领域。将文本分类技术应用到扩展主题图融合中的目的是根据文本分类的结果，如两个XTM文件属于同一类别，则进行N?N的元素计算，否则直接进行两个文

件的合并。

1）文本分类及文本分类技术

文本分类：按照事先定义的类别来决定一篇文本的归属的过程被称为文本分类。其类别可以通过概念进行定义，也可以通过标注学习得到,同样也可以通过预先认为设定。当前，随着信息存储技术的迅猛发展，大量的文字信息开始以计算机可读的形式存在，而且其数量每天仍在急剧增加。在这种情况下，基于机器学习的文本分类使用越来越广泛。贝叶斯分类器、支撑向量机(SVM)、自组织映射(SOM)、粗糙集、k近邻(KNN)、决策树、关联规则、分类器集成以及向量相似度等模型得到了广泛使用[24]。这些方法大致可以分为三大类：基于统计模型的方法(如贝叶斯分类器、KNN、向量相似度等)、基于连接的方法(如SOM)和基于规则的方法(如决策树、关联规则等)。

课题的知识资源主要指计算机学科资源，共有七个课程：计算机网络、计算机组成原理、数据结构、JAVA语言、平面几何、计算机系统结构和操作系统。本文的文本分类的目的是将指定的XTM文件划分到七个课程中某一具体课程。 2）

扩展主题图融合中的文本分类技术应用

扩展主题图XTM文件具有特定的结构，元素管理方便。本文采用基于Bayes公式和投票法相结合的综合文本分类技术。

朴素贝叶斯分类算法[25]是一种最常用的有指导意义的方法，它以贝叶斯理论为基础，是一种在已知先验概率与条件概率的情况下的模式识别方法。朴素贝叶斯分类算法基于独立性假设，即一个属性对给定类的影响独立于其它属性。算法的核心是贝叶斯公式(2-2)：

P(Ai|B)??P(B|Aj)P(Aj)j?1ni=1,2,…,n,且

nP(B|Ai)P(Ai) (2-2)

i?1?P(Ai)?1。

?描述。

贝叶斯分类器在文本分类经常使用。假设文本实例d可由n个属性值?w1,w2,...,wnL是目标属性集合(Ci,i?1,2,...,L)。则对于给定的类Ci，d属于类Ci的概率为P(Ci|d)。对于待分类样本d，我们使用贝叶斯分类器将其划分为最可能的类别(如公式2-3所示)：这里公式的给出与上面的不一致

HMAP?argmaxP(Ci|w1,w2,...,wn)?argmaxP(Ci)P(w1,w2,...,wn|Ci) (2-3)

i?Li?L在贝叶斯分类器中，P(Ci)为先验概率，很容易计算，但P(w1,w2,...,wn|Ci)的计算比较困难，特别是在特征项的数量n较大，且特征项之间相依程度较高时，其计算将是极其费时间的。为了简化计算，一般引入了条件概率独立假设，即假定各特征项之间是相互独立的，这就是朴素贝叶斯分类器。

假定对于给定的类Ci，任意的特征项wk(k?1,2,...,n)之间相互独立，则式2-3可转化为公式2-4：

HNB?argmaxP(Ci)?P(wk|Ci) (2-4)

i?Lk投票法又称为打分法，其核心思想是：将文档的特征与已有的类型特征相比，分别进行打分，分数最高的类型即为该文档的类型。投票算法常使用Bagging算法：训练R个分类器fi，i=1,2,…,R，分类器之间只是类型元素不同。其中fi是通过从训练集（N篇文档）中随机取（取后放回）N次文档构成的训练集合训练得到的。对于新文档D，用这R个分类器去打分，得到的分数最高的那个类别作为D的最终类别。

基于Bayes公式和投票法相结合的综合文本分类技术在扩展主题图融合过程中的具体应用步骤为：（1）输入的两个扩展主题图的XTM文件；（2）取出其各自的主题集(Topics)；（3）主题集与七大课程的概念集比较打分(Score)；（4）判断打分是否都为零；（5）如为零，则两个XTM文件都属于其他类；（6）否则计算各自打分最高者，得出其所属类别；（7）如类别不同则直接合并；否则两两相似度计算。单个XTM文件的分类流程如图2-6所示：

扩展主题图XTM文件主题(Topics)计算机系统结构score2计算机网络score1计算机组成原理score3JAVA数据结构score4语言score5操作系统score6平面几何score7Score(i)==0?(i=1,2,..,7)否是Max score(i)(i=1,2,..,7)特定类别其他类别图 2-6 XTM文件分类流程图

2.4.2 主题融合与词语语义相似度

扩展主题图中Topic元素的主要属性有baseNameString、instanceOf、scope，课题组为了减小扩展主题图XTM文件的容量，保证显示的质量，仅保留baseNameString子元素。故判断两个主题(Topic)是否可以融合，仅需比较两个主题的基名(baseNameString)。主题的基名表现为一个个学科术语，如图2-7所示，学科术语映射到自然语言上是词汇或短语。主题间基名的

比较即词汇间的语义相似度计算，根据计算结果的大小判定其隶属两个主题是否融合。词汇语义相似度度量在主题融合过程中的计算方法如下： a) b) c)

输入两个待融合的扩展主题图XTM文件XTMA和XTMB；取出XTM文件的主题集Settopics(XTMA)和Settopics(XTMB)；

对Settopics(XTMA)中主题topici(i?1,2,...,n)的基名与Settopics(XTMB)主题topicj(j?1,2,...,m)的基名两两进行语义相似度计算； d)

设定融合阈值Value(threshold)，如计算结果Value??Value(threshold)，则融

合为一个主题；否则直接合并两个主题； e)

输出融合处理后的扩展主题图文件XTMC。

图 2-7 XTM中主题(topic)的表示

主题融合后将主题的基名合并，指向同一个主题id，形成一个主题簇，如图2-8所示：

NewID001计算机网络NetWorks...NetWork网络图 2-8 主题簇示意图

2.4.3 知识元融合与句子语义相似度

课题组对知识元KnowledgeElement元素的主要属性scope、baseNameString和occurrence进行精简，保留了基名(baseNameString)、资源(occurrence)两个子元素。在XTM文件中基名展现为短语，资源为一个句子或指向句子的超链接，基名来源于资源，如图2-9所示。判决两个知识元的融合，要综合比较基名和资源句子。基名间的计算使用词汇语义相似度度量技术，资源句子的互计算使用句子语义相似度度量技术。综合二者的计算结果，判定其隶属的知识元是否要融合。

图 2-9 XTM中知识元(knowledgeElement)的表示上面这个图可能会看不清

语义相似度度量技术在知识元融合过程中的使用方法如下：取出两个XTM文件的知识元列表，对知识元两两进行基名的词汇语义相似度计算和资源句子的句子相似度计算，根据计算结果，判决融合。具体的计算流程如图2-10所示：

Value(baseName)Value(Sentence)词汇语义相似度计算句子相似度计算综合值Value>=阈值YSet1(knowledgeElement)XTM12.5 本章小结

本章首先详述了主题图和扩展主题图，并对扩展主题图融合过程中产生的语义冲突进行定义、分类。然后针对语义冲突的解决技术语义相似度度量进行概述，同时将文本分类技术应用到扩展主题图融合中。最后，详细介绍了词汇语义相似度计算在主题融合中的应用和句子相似度计算在知识元融合中的使用。

Set1(baseName)Set2(baseName)Set1(Sentences)Set2(knowledgeElement)XTM2图 2-10 知识元融合过程中语义相似度计算流程

Set2(Sentences)融合处理后的XTM3N直接合并

共8页:

长文档(4).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档