通过对信息结构的揭示,可以认识到中文如何描述诸如万物、部件、属性等概念,或如何由简及繁地表达意义,进而揭示中文的语言结构的规律[10]。知网的中文信息结构库数据如表2所示。
HowNet基本组织单位是概念,概念由义原定义。概念与概念之间的关系、概念与义原之间的关系以及义原与义原之间的关系构成了知网的知识体系。义原之间存在复杂的关系,组成了复杂的网状结构。(以下关于HowNet的介绍是根据
http://www.keenage.com/zhiwang/e_zhiwang.html的内容进行的归纳总结。)在知网中共描述了义原之间的8种关系:上下位关系、同义关系、反义关系、对义关系、属性-宿主关系、部件-整体关系、材料-成品关系、事件-角色关系。这些关系主要体现在知网的词
典和各个特征文件描述中。而在各个特征文件中这些关系体现在特征的层次组织树、必要角色框架和共性特征描述项中。这就使得知网知识库对概念的描述必然是复杂性描述,知网中概念的描述既具有概括性、一般性的描述,又具有针对不同类别的细节性描述,由此而引发了概念描述的一致性和准确性问题。为确保概念描述的一致性和准确性,知网开发出一套知识描述规范体系——知网知识系统描述语言(Knowledge Database Mark-up Language,KDML)。
作为一个知识库,知网的知识结构与其说是知识树不如说是知识图表,它致力于展示概念的一般和特殊属性。例如,对于医生和病人,人是一个一般属性的概念,人的一般属性被记录在概念的主要性能中,作为治病的代理机构对于医生是一个特殊的属性,就像疾病对于病人一样是特有的属性。一个人就是一个一般的属性,但是又享有独有的特性——价值、名字、富有、贫穷、漂亮或者是丑陋。知网不遗余力地反映概念内部关系和属性内部关系的复杂性[11]。
从本质上来看,知网词库中虽然蕴含了大量的概念与概念、属性与属性之间的关系,但是系统仍然以词汇作为概念的基本单元,不具备本体系统的推理、知识发现等功能,所以知网本身也不是真正的基于本体的系统,它可以作为汉英机器翻译的语料库使用。
2.5 Biomedical Ontology(生物医学领域本体)
现存的生物医学领域的表征足够用于信息检索的目的,但是这些表征的知识组织不适用于计算机推理。计算机推理需要本体提供的有原则的、一致性的组织结构。因此生物医学领域使用各种方法来开发本体,可以从现有的资源中获得本体,也可以通过其他的知识资源获得。
(1)转化医学本体(Translational Medicine Ontology,TMO)
转化医学本体TMO(http://esw.w3.org/HCLSIG/PharmaOntology)的研究力量来源于World Wide Web联盟的医疗保健和生命科学利益集团,并且是生物医学本体国家中心的一部分。TMO是一个高级的、以患者为中心的本体,它架构了现存的开源领域本体,并为关联和集成全部转化机构以患者为中心的数据提供了框架。转化医学本体为架构转化医学的多个领域提供了术语,这些领域包括假说管理、探索研究、药物开发和规划、临床研究和临床实践。首先从使用案例进行设计,这个本体包含能够映射到其他本体的必要的术语。它作为一个全局的模式服务于数据集成,同时便于异质资源的复杂查询的规范化。
转化医学取决于综合的集成患者的全部数据以评估并促进药物的发展。本体在自动集成患者相关信息数据以促进探索研究、假说管理、规划、临床试验和临床研究方面发挥了重要的作用。语义Web技术能够确保使用明确的语义集成异质的数据、对于数据聚集提供丰富和定义明确的表达、在原始数据的基础上获得新知识的逻辑应用。知识表征的4个主要的语义Web标准是:RDF(Resource
Description Framework)、RDFS(RDF Schema)、OWL(Web Ontology Language)和作为查询语言的SPARQL。开发OWL本体支持药物、药物基因和临床试验,并逐渐应用于医疗保健和生命科学中。
TMO定义了横跨材料实体的75种类别(如分子、蛋白质、细胞系、药物制剂)、任务(如项目、目标、有效成分)、进程(如诊断、研究、干预)和信息实体(如剂量、作用机制、迹象\\症状、家族史)。TMO扩展了Basic Formal Ontology定义的基本类型和关系本体中的使用关系[12]。TMO能够使科研人员回答新问题,更快地回答现存的科学问题,也能够帮助制药公司塑造以患者为中心的信息模型,以明确药量和次佳安全的化合物的早期检查。
(2)UMLS Semantic Network(UMLS语义网络)
美国国家医学图书馆开发了一体化医学语言系统UMLS(Unified Medical Language
System)(http://www.nlm.nih.gov/research/umls/),它的目标是通过获得一体化生物医学资源的词表为大量的生物医学资源的集成提供解决方案。目前UMLS连接了生物医学领域的60个受控词表。UMLS覆盖范围十分广泛,不仅包括临床医学的很多概念,还包括大量的生命科学等扩展领域的概念。为提供一个全面的概念框架,UMLS开发了一个上层本体UMLS Semantic Network[13]。UMLS Semantic Network是UMLS开发的三个知识库资源之一,这个网络为UMLS词表的所有概念提供统一的分类。
UMLS Semantic Network(http://www.nlm.nih.gov/pubs/factsheets/umlssemn.html)包含:
①一套广的主题类别或语义类型,目的是为UMLS词表的所有概念提供统一的分类。
②一套有用的重要的存在于语义类型之间的关系或语义关系,这部分文档为语义网络提供概述,并且描述语义网络的文件。
语义类型的主要组群包括:有机体、解剖学结构、生物学功能、化学品、事件、物理对象的概念或观点。这个语义网络有134个语义类型,用UMLS为所有的概念表示提供了一个一致性的类别。语义类型之间的54个链接展示网络的结构并表现了生物医学领域的重要关系。语义类型中的主要链接是“is-a”链接,这种链接确立了网络类型的层次,用于决定有效地分配词表概念的最具体的语义类型。也有一套无层次的关系,主要分为5种类型:physically related to spatially related to、temporally related to、functionally related to和conceptually related to。UMLS Semantic Network对于所有请求者的查询都是有效的,并且是免费的[14]。
(3)Gene Ontology(基因本体)