GO(http://www.geneontology.org/)项目是2000年由基因本体联盟(The Gene Ontology Consortium,GOC)研发的。GOC的目的是要创建一套动态的受控词表。GO项目旨在定义出一套结构化的、定义精确的、通用受控词表,可用于描述任何有机生物体中基因和基因产物。GO项目开发了三个结构控制词表(本体)用来描述基因产物,这三个独立的词表本体是:生物学过程本体(Biological Processes)、分子功能本体(Molecular Functions)和细胞成分本体(Cellular Components)。这项工作有三个独立的方面:开发和维护自身本体;基因产物的注释,确保合作数据库中的本体、基因和基因产物相关联;开发创造、维护和使用本体的工具。
GO项目是一个合作项目,为解决不同数据库基因产物描述一致性的需要,它合并了三大模式生物数据库,包括:果蝇数据库(FlyBase,Drosophila)、老鼠基因组数据库(Mouse Genome Database,MGD)和酵母基因组数据库(Saccharomyces Genome Database,SGD)。
在GOC的官方网站上,对于GO有如下定义[15]:
①GO不是基因序列的数据库,不是基因产物的分类目录。GO描述的是基因产物如何在细胞环境中发挥作用。
②GO不是一个指令型标准,不是那种跨系统使用的术语或命名体系。基于参加研究的合作方各自的利益协商以达到一致。
③GO不是将生物信息数据库进行标准化统一的途径。GO提供的可共享词表只是迈向标准化的中间步骤,但仅有这一步是远远不够的。
目前GO存在如下缺陷:
①知识的变化与更新远远滞后。
②对各种不同的数据,要达成共同的评价或认识很困难。只有在合作方达成共识的基础上,才可以进行基因产物的比较研究,并确定它们之间是否有关联,是否相互作用。
③GO并没有打算去描述生物学的每一个方面。
2.6 企业领域本体(Enterprise Ontology,EO)
企业本体EO(http://www.aiai.ed.ac.uk/project/enterprise/enterprise/ontology.html)是与工商企业有关的术语和定义的集合。这个本体是在英国爱丁堡大学的人工智能应用研究学院和它的合作者IBM、Lloyd's Register、Logica UK Limited和Unilever开发的企业项目(Enterprise Project)的基础上发展起来的,得到英国政府工业与贸易部门的赞助,它是智能系统集成项目的子项目,项目编号是IED4/1/8032[16]。企业项目目的是通过合作产生一个企业模式化的框架,企业本体为此框架提供基础服务,包括方法和企业模式化的计算机工具箱。
企业本体可以被划分为以下几个主要部分:
(1)行动与过程(Activities and Processes)核心概念是行动。
(2)组织(Organization)核心概念是法律实体和有组织的单位。
(3)策略(Strategy)核心概念是目标。
(4)营销(Marketing)核心概念是销售。
企业的概念模型必须是连贯的、综合的、一致的、简洁的、必要的。
3 四种本体库的比较分析
3.1 通用本体库比较分析
(1)描述语言
WordNet词库是一种人机可读的ASCII格式,人们可以方便地获得并以自己的方式使用。Grinder是以C语言编辑的多途径编译器,它是一个通用的工具,首要的目的是以词库的格式编译编纂者的文件,能够促进WordNet信息的机器检索。它也可作为一个确认工具,当存档系统的还原命令返回时确保编纂者文件的语法完整。
DBpedia的描述语言是RDF,目前有两种不同的方法来提取语义关系:把关系型数据库中的关系映射成RDF;直接从文本和文章的信息盒模板中提取信息。
CycL是Cyc系统的描述语言,CycL是一种较好的本体表示语言。CycL的学习与应用都较为便捷,普通用户通过学习可较快掌握其语法结构,而且CycL后台有超大容量的Cyc知识库,前台有良好的应用界面和推理引擎的支持,这使CycL具有优越的应用背景。OpenCyc项目的目的是要将CycL逐渐推广,为用户所接受。它的缺点在于本身不是Web的推荐标准,难以作为所有网络资源的标引规范使用。
HowNet的描述语言KDML是知网知识系统语言。这是一套崭新的知识描述规范体系,经过对中英文两种语言各8万多概念的描述证明其:有很强的描述能力;便于对意义的计算;直观、有较好的可读性。它包含词汇近1 500个特征及动态角色;标识符号和标点;词序[17]。
本体库及其描述语言如表3所示。