将上述XTM展示为图的模型,如图2-2所示:
图 2-2 主题图概念实例图同上
2.1.2 扩展主题图概念及描述
1)扩展主题图的概念
在《面向教育的海量知识资源组织、管理与服务系统》863课题中为了更好的进行教育领域的知识组织、知导航是“知导航”还是知识导航和学习,引出了知识元的概念。知识元是指具备完整知识表达的最小知识单位(如计算机网络的定义、局域网的组成、路由表的属性等),从资源文件内部抽取并以隐式方式与资源文件存在前序、整体、部分和上下位等依存关系。基于TAO结构的主题图仅支持概念—资源间的导航,粒度较大、层次单一,不能反映出知识元之间的关联关系,因而不能按照知识元之间的关联关系进行导航学习。
课题组提出一种扩展主题图结构(图2-3)这里的图2-3应该以这样的方式给出吧:如图2-3所示,核心思想为:在主题与资源出处之间,引入知识元及其关联关系,并建立“概念(主题)—知识元—资源实体”三者间的联系。这种扩展的主题图结构包括6种元素,除了传统TAO三元素外,还包括知识元、知识元关联关系、主题(概念)与知识元的联系,不仅能够支持主题导航,而且还支持基于知识元关联关系的导航。基于扩展主题图的知识资源组织模型可以更好的体现知识管理的灵活性、透明性和内在关联特性。该模型为海量知识资源组织管理、知识协同构建和多模式知识服务的研究奠定了基础。
T5T1T7T4T2T3T6主题层K7K1K5K6K2K2K8K3K9知识元层K4资源层
图 2-3 扩展主题图结构 2)扩展主题图的描述
在基于ISO13250标准的XTM语法定义中,课题组新增加了
扩展主题图XTM的全部标签及其各自的含义详见附录。 2.2 扩展主题图的融合
2.2.1 扩展主题图融合定义及原则
1)扩展主题图融合的定义
扩展主题图融合是将相同或者不同领域知识资源的局部扩展主题图按照一定的规 则进行合并,形成一个集中统一的全局扩展主题图,扩展主题图融合的定义如公式(2-1): ETMM:(ETMA?ETMB)?ETMC (2-1) 扩展主题图融合可以消除冗余的主题图结构,将同一或不同知识领域的局部扩展主题图合并为全局扩展主题图,形成具有众多主题的全局导航扩展主题图。另外可以将在分布式环境中的异构知识资源集中起来,发挥扩展主题图强大的导航、知识管理的优势。
主题图融合中,确定不同主题图中的合并项是难点问题。现有的主题图设计模型采用的是OASIS[20](Organization for the Advancement of Structured Information Standards)制订的公共项
目标识符(Published Subject indicators,PSI[21])作为主题的统一标识,PSI相同的主题均可合并[22]。但是PSI尚未完全形成规范,也没有完全覆盖主题图设计的应用领域,仅在某些非常通用的领域(如语言、国家和地区名称)中才定义了PSI。因此,基于PSI目前还无法完全实现主题图的融合。而综合使用相似性度量技术计算主题图的元素,根据计算结果实现主题图的融合。
2)扩展主题图融合原则
扩展主题图源于主题图,扩展主题图的融合原则也借鉴了主题图的融合原则。在 主题图的标准中,规定了主题图融合的方法及应该遵循的原则,如下所述: (1)相等原则
相等原则定义了一个完整的主题图处理程序必须保证主题图结构的一致性,其具体包括:字符串相等原则、主题名称相同原则、关联相同原则、作用范围(scope)相同原则、主题资源相同原则、URL相同原则,补充知识元名称相同原则和知识元资源相同原则。 (2)等价原则
等价原则用来识别主题图结构的等价语法描述,相同的主题或知识元由于描述方式的不同,其描述语法存在着不同,等价原则就是辨别、处理这些不同。 (3)变量处理原则
描述了主题图中主题间合并的原则,补充知识元的合并原则。 (5)重复处理原则
对主题图中主题指示符、主题资源和主题间的关联关系进行删除、精简去除重复的原则,补充知识元指示符、知识元资源和知识元间关联关系的删除、精简原则。
2.2.2 扩展主题图融合过程
为了减小扩展主题图XTM文件的容量,以适应课题展示的需要,课题组对扩展主题图的元素进行了删减。保留了主题、主题关系、知识元,知识元关系,主题与知识元关系五大元素,主题和知识元子元素中仅保留基本名、资源。扩展主题图的融合就是比较各主题及知识元间的基名及资源,判定是否需要合并;如合并,则需要对其各自对应的关联关系进行合并,否则直接将两个扩展主题图的XTM合并。合并后的XTM文件要符合标准DTD的定义,具有完备性。
扩展主题图的融合过程的步骤如下:1)对融合前的局部扩展主题图文档预处理,消除其不一致及冗余的元素;2)将预处理后的两个局部扩展主题图文档中的主题、知识元两两比较,确定合并项;3)将融合判决的元素进行融合,同时处理其各自对应的关联关系;4)对融合后的扩展主题图进行冲突检测,检查全局扩展主题图中冗余的元素,确保其一致性及准确性。融合流程如图2-4所示:
全局扩展主题图冲突检测知识融合主融题合图原标则准及融合处理相似度计算数据预处理匹配算法SOAP...局部扩展主题图1局部扩展主题图n
图 2-4 扩展主题图融合过程 2.3 语义冲突
2.3.1 语义异构的原因
数据的含义就是语义。简单的说,数据就是符号。数据本身没有任何意义,只有被赋予含义的数据才能够被使用,这时候数据就转化为了信息,而数据的含义就是语义。语义可以简单地看作是数据所对应的现实世界中的事物所代表的概念的含义,以及这些含义之间的关系,是数据在某个领域上的解释和逻辑表示。语义具有领域性特征,不属于任何领域的语义是不存在的。
由于信息概念具有很强的主观特征,目前还没有一个统一和明确的解释。我们可以将信息简单的定义为被赋予了含义的数据,如果该含义(语义)能够被计算机所 “理解”(指能够通过形式化系统解释、推理并判断),那么该信息就是能够被计算机所处理的信息。自然语言源于信息理论,自然语言是由语言、语法和语义构成的。生活中,语义往往由于信息的不确定性产生不一致性。计算机所处理的信息,由于领域、理解角度、表示方法的不同也会产生语义的不一致性。语义异构则是指对同一事物在解释上所存在不一致性,也就体现为同一事物在不同论域中理解的不一致性。同时同一数据在不同的数据源上的表示也存在着不同,产生语义异构。
导致语义异构的具体原因[23]如下: (1) (2) (3) (4)
不同的信息使用多种术语(词汇)表示同一概念; 同一概念在不同的信息中表达不同的含义; 各信息使用不同的结构来表示相同(或相似)的信息;
各信息中的概念之间是存在着各种联系,但因为各信息的分布自治性,
这种隐含的联系不能体现出来。
2.3.2 语义冲突的定义及类型
语义异构是语义冲突的前提与基础,语义冲突是指当描述同一现实世界事物时,两个对象在描述方式、结构上和content上的不同造成的语义不一致性。
在扩展主题图融合过程中,有很多方面的原因会产生语义冲突:扩展主题图各个元素是经过数据标注或者知识资源文档的自动抽取产生的,其中难免会产生冗余的信息,比如冗余的主题或知识元、冗余的关系等等;在标注过程中由于标注者的认知问题,可能对同一主题或知识元进行不同形式的标注,也可能会出现相同的主题、知识元间标注出自相矛盾的关系;同时由于中英文的差异,会出现中文术语与其英文翻译、英文简写的语义冲突。
本文根据扩展主题图的元素结构和语义冲突形式的不同,将融合中的冲突分为四大类:数据冲突、结构冲突、规则冲突和临时性冲突。冲突的具体分类如图2-5所示:
扩展主题图融合冲突数据冲突结构冲突规则冲突临时性冲突ID冲突命名冲突属性冲突层次结构冲突实例冲突包含冲突无引用冲突冗余冲突
图 2-5 扩展主题图融合中冲突分类图
其中数据冲突和结构冲突属于扩展主题图融合过程中的语义冲突,下面对其进行详细介绍: 1)数据冲突:是指对相同概念的不同感知所引起的冲突。具体又蕴含ID冲突和命名冲突。 (1)ID冲突是指两个局部扩展主题图中,相同元素的ID不同,或者相同ID对 应不同的元素。
定义2-1:ID冲突。Ci,Cj表示概念。 a)如果Cib)如果Ci?Cj,但Ci.id?Cj.id,则为ID冲突。 ?Cj,但Ci.id?Cj.id,则为ID冲突。
(2)命名冲突是指两个局部扩展主题图中,相同概念使用不同名字或者不同概念 使用相同的名字。
定义2-2:命名冲突。Ci,Cj表示概念。 a)如果Ci?Cj,但Ci.name?Cj.name,则为命名冲突。