图6 LODD关联数据集
图片来源于:http://www.w3.org/wiki/HCLSIG/LODD
(4)JISC的相关项目。JISC(Joint Information Systems Committee)是英国致力于研究信息和数字化技术在教育和科研领域应用的专业团队。目前,该团队的关键资源发现活动包含了元数据自动生成、信息抽取、文本标注、基于标签的语义资源发现等21个方案、85个项目、5项服务。SemTech项目就是其中之一,目标是在将各个高等教育机构之间的教育、教学资料和课程资料发布为关联数据进行共享,并构建教育类本体, 实现基于本体的数据分析和推理应用。CheTA是一个化学文本标注系统,该项目整合了剑桥大学的文本挖掘工具OSCAR和U-Compare的工作流程,期望增加化学知识到世界最大的支持公共互操作采集的文本挖掘工具中去。目前,基于UCC和RSC的研究和整合已经完成,项目下一步将会实现不同类型和出处的化学文档的索引功能,并对系统做出常规的科学评估,期望借助真实世界用户对元数据的需求研究以及所抽取的元数据实用性之间的对比研究而发展成为一个严格的标注研究评估框架。该系统最终会同时支持人工和机器的自动索引。目前该应用系统利用关联数据公开了部分信息源,并提供了专业的维护,自动和可持续的文本挖掘服务,将会很大程度上的增强我们的资源发现服务。
(5)语义搜索引擎项目。目前,关联数据在科研领域的应用主要是利用关联数据扩展已有数据源,填充和构建本体模型,最终实现语义搜索和查询。因而,语义搜索引擎的研究便首当其冲,成为专家和科研学者研究的热点之一。根据服务对象的不同,语义搜索引擎一般
[15][16][17]
又可分为两种。其一是,面向用户的关联数据搜索引擎,如Falcons、SWSE、Arnetminer、
[18]
Yovisto等,为用户提供基于关键词的检索服务,不仅返回相关的检索结果链接,还提供相关实体的概况。Falcons语义搜索引擎是中国东南大学开发的,提供对象、概念及文档的语索,它主要关联了DBpedia知识库的内容。Arnetminer是清华KEG实验室研制的关于学术研究网络的搜索和挖掘引擎,它使用了语义Web本体技术,扩展了FOAF,主要提供研究人员及其出版物的搜索,其中的数据主要来自DBLP(Digital Bibliography & Library Project)数据源。具体包括如下功能:检索学术研究人员或特定领域的专家,获得人员的详细情况和出版物;检索会议或出版物,获得更为详细的信息;检索两个研究人员之间的联系,如两个教授之间的可能联系路线,根据两个学术机构之间的路径长短进行联系加权。Yovisto是关于学术报告和会议视频的搜索引擎。它提供基于内容的演讲录音搜索,可以有效访问超过6200个来自于世界各地的大学和科研机构的演讲录音。Yovisto通过关联数据丰富了搜
11
[14]
索引擎的检索结果,来改善用户的使用体验,将Yovisto的内容与关联数据网连接起来,将外部的其他信息纳入到Yovisto中,同时还通过外部信息交叉连接再回到Yovisto自己的内
[19][20][21]
容中。其二是,面向应用的关联数据索引引擎,如Sindice、Swoogle、Waston等,提供关联数据的API接口,利用接口可以对包括实例数据的RDF文档进行访问。Swoogle和Waston提供本体的发现服务,返回与查询相关的概念。Sindice既支持用户的关键词检索服务,也支持机器的自动查询与结果分析利用,它由世界上最大的语义Web研究机构DERI (Digital Enterprise Research Institute)进行研制,对关联数据进行监测、采集、存储和整合。
总之,围绕关联数据世界各国都竞相展开了相关的研究,并促成了一系列相当前沿的国际会议。如LDOW、DC2009、ALA2009、ISWC2009、AAAI2010、ISWC2010、ISWC2011等国际会议都对关联数据的相关技术进行了研讨交流,研究内容涉及关联数据的出版、发布、浏览、的基础问题以及关联数据的应用架构、关联算法、语义互操作、如何与web数据进行合作和融合、如何与人工智能进行交互等高级应用层的问题。2011年3月,Andrew W.Mellon基金更是先后出资49500美元和50000美元分别赞助了美国图书馆信息资源委员
[22]
会(CLIR)和斯坦福大学进行关联数据的项目研究,主要通过研究关联数据的标准规范和实际需求,并在技术层面设计一个跨国、跨机构的原型系统以证明关联数据可以改善资源发现和资源导航的效果。
2.3与数字图书馆相关的典型应用案例分析
在过去的几年里,数字图书馆机构知识库主要通过主题标目和机读编目格式标准MARC(MAchine-Readable Cataloging)的记录数据去实现资源的发现服务,但浏览和精炼结果的深度具有相当大的局限性。传统的机构知识库数据结构是基于MARC的一维线性组织模式。MARC的优势在于结构化程度高,通过代码化的字段和子字段置标书目的内容特征和外在特征。缺点在于描述语言的通用性和语义性差,只有元数据描述,缺少从语义到语法结构到模型及著录规范和算法的完整体系。而一维和线性的组织方式,是以某一属性特征作为索引点和检索点,不区分信息对象的实体层次和相互的关联关系,在实际应用中,特别是数字环境下,存在很大的局限性,突出表现在缺少对于信息对象表现形式的多样性、生命周期的变化性、衍生性和复合对象的复杂性的关系描述和基于关系的序化,即语义化程度较低。关联数据的出现提高了资源发现的相关性和便捷性,为机构知识库的发展和优化带来了契机。有关资料表明,截止2010年10月,数字图书馆和科研教育领域发布的关联数据源已达到68个,RDF三
[23]
元组的数量占到关联数据云图总量的8.08%。可见,数字图书馆界在关联数据的创建和发布方面已经取得了初步的研究成果,而在关联数据的集成融合等高层次的技术应用方面也逐步进入了探索和实验阶段。
[24]
2008年,瑞典联合目录LIBRIS全球率先将国家图书馆级书目数据全部发布为关联数据,为大学图书馆、公共图书馆、博物馆以及档案馆提供在线编目服务。LIBRIS使用的词汇表并不仅仅局限于图书馆学领域,而是使用了FOAF(Friend of a Friend)、简单知识组织体系SKOS(Simple Knowledge Organization System)、Bibliontology的混合体,并以RDF实现了部分书目记录的功能需求FRBR(Functional Requirements of Bibliographic Records)算法。同时,为了加强和外部数据源间的关联,LIBRIS还创建了美国国会标题表LCSH(Library of Congress Subject Headings)和维基百科(DBpedia)之间的关联链接。
[25]
2008年11月,欧盟数字图书馆(European)项目在布鲁塞尔正式启动,它包括了来自欧盟27 国的书籍、手稿、音乐、绘画、地图、照片和电影等丰富多彩的信息和资料。它非常重视门户的互操作性,采用了SKOS编码,并引入了语义层,在各聚合对象之间建立语义连接,期望利用关联数据达到语义级别的检索。在同年的12月,英国的哈德斯菲尔德大学[26]
迈出了大胆的一步,在开放数据共享许可协议(Open Data Commons License)下共享跨
12
越13年的读者流通数据和数字图书馆读者荐购数据,为其他图书馆提供关于读者的借阅情况,如谁在何时借阅了什么等匿名信息集的下载。跨馆对比这类数据,可以发现不同区域的读者借阅趋势、评估馆藏的发展战略等。这种以数据优先的策略,重点关注了数据的效率和可用性,而不是数据本身的表达形式,为关联数据的应用提供了方向。
[27]
2009年5月,美国国会图书馆以SKOS格式将LCSH全部关联数据化并提供词表的开放下载,成为关联数据应用的成功范例。同年9月,联网计算机图书馆中心OCLC(Online Computer
[28]
Library Center)利用SRU服务为虚拟国际规范文档VIFA(Virtual International Authority File)项目提供关联数据,不仅很大的提高了机构知识库规范文档的利用率,而且还能降低服务器的负载量。此后,德国国家图书馆、英国国家图书馆、匈牙利国家图书馆、法国国家图书馆等都先后宣布,将其部分图书馆目录、叙词表、名称及主题规范数据发布为关联数据,将关联数据在图书馆机构知识库知识组织体系中的应用推向了高潮。
通过分析上述的案例,可以看出目前关联数据在数字图书馆领域的应用主要有以下几个方面:
(1)利用关联数据扩展数字图书馆知识库的资源规模。对数字图书馆知识库来说,资源就是它的生命和血液,资源的规模越大,数据量越多,相应就越能够提供丰富的服务。在关联数据云图中,有许多关联资源可以作为图书馆的资源库和知识库,可以利用云图中的关联开放数据进行图书馆资源的扩展和关联,为用户提供更丰富、更有意义的检索结果。 (2)利用关联数据增强图书馆和其他机构团体间的资源共享和知识重组。除了利用现有的关联数据,图书馆还可以自己的特色数据发布成关联数据,增加用户返回图书馆的途径。关联数据是结构化的,依靠提供相关资源的链接而丰富现有的知识库资源,但同时这种链接不仅是图书馆内部资源自身的上下位关系的显式链接,而且还可以是图书馆资源和非馆藏资源间的外部链接,有助于知识库在更大范围内提供开放扩展服务。如此的“一来一往”,最终会为图书馆和教育机构、科研团体以及其他机构团体之间提供更强的跨机构合作和共享数据的能力,也为第三方用户如机器用户等提供对底层数据更便捷的存取和进行知识重组,从根本上增强了图书馆自身的社会价值和社会凝聚力。
(3)利用关联数据构建数字图书馆综合科技资源的语义化描述组织的本体框架。目前,在数字图书馆领域,支持信息资源语义化表示、存储、索引、检索、查询和共享利用的方法与技术体系正在逐步完善和成型。而支持规模化信息资源的自动语义标注方法,无论是基于传统的信息抽取方法,或基于自然语言分析处理或理解的方法,还是基于领域知识本体的方法,都还存在工程化、实用化方面的局限。关联数据作为一种支持语义互操作的技术体系,通过采用描述性语言RDF以及以数据为中心的、可定制的XML标记语言和技术来支持基于多维情境关系如关联、层次、约束、等价等的构建,支持对Web文档和内容进行更加丰富和富有意义的机器可理解的描述。这些机器可处理的描述反过来允许设计更加智能的软件系统,对基于Web的信息进行自动分析和利用。其中,本体被认为是支撑语义互操作和集成数据和过程的关键技术。不论是一个组织、用户群组或用户,都面临所处信息环境包含的多种内外部信息系统,这些系统普遍存在的不同的主题层级结构、元数据模式、以及不同的元数据查询式构造语法等,都会为检索者带来相当大的困扰。因此,利用关联数据构建基于本体的语义化描述组织框架,最终建立语义驱动用户知识环境配置引擎服务的基础架构成为提供和满足新的集成应用场景和需求的主流解决方案。
3利用关联数据实现机构知识库的语义扩展方法研究 3.1机构知识库语义扩展的需求和关键技术定位
根据上述研究,再结合目前中国科学院机构知识库平台建设的实际情况,关联数据在机
13
构知识库方面应用的关键技术主要有以下几点: (1)可利用关联数据技术将机构知识库中的实体关系发布为能够进行语义揭示的关联数据格式。CASIR是围绕研究社群(即研究部门)来进行知识组织的,每个研究社群又可分为多个子社群(即子部门)和专题,其数量不受限制。专题可以根据论题、信息类型(如:研究手稿、数据库等)或其他任一有利于数字化条目组织的索引方法来进行组织。每个专题的内容类型又包含着中国科学院各个研究所存缴的会议论文、期刊论文、学位论文、专著、专利、演示报告等多种格式数据集,从长远的发展角度来考虑,为满足科研用户尤其是机器用户快速、明确地找到所需资源并获取其语义,机构知识库必须能够提供高质量的语义化访问服务,而不仅仅是普通HTML网页的信息描述。例如,机构知识库可以为不同的研究社群之间,以及同一个研究社群的不同子社群之间,提供动态的链接,描述其归属关系;同一个作者的不同科研成果之间,同一个科研成果的合作者之间,同一个资源所属学科主题的上下位关系之间,等都可以通过关联数据来关联扩展到这些资源的上下文信息,从而不仅能够让用户更快地获得更多更全面的相关知识,同时还可以增加用户回到机构知识库服务的途径,而且也方便外部关联数据源能够主动地关联到机构知识库。
(2)可利用关联数据技术将机构知识库中数字对象间的知识组织体系扩展到已有的关联词表。关联数据构建的基本原则之一就是尽可能地复用已有的关联词表或本体模型。一般我们最常用在数字图书馆领域的就是DC、FOAF、SKOS、LCSH,它们均已经实现了全面的关联数据化,搭建了知识组织系统(如分类表、词表)到关联数据之间的桥梁,意义深远。CASIR自身的知识组织体系虽然不是标准的关联数据组织模式,但是它在建立最初已复用了DC元数据的部分词表规范。因而,进一步的工作便显得十分可行,只需要为已有的类以及属性选择最合适的关联词表源,并明确建立两者之间的词汇映射关系,最终使得机构知识库能够在关联词表的帮助下支持基于SPARQL模式的语义查询和推理。 (3)可利用关联数据技术将机构知识库中的实体数据进行语义标注,并扩展到外部关联数据源。关联数据可以为机构知识库扩展资源信息提供结构化的数据基础,提供多个分布式异构数据源整合的关联访问,将来自不同数据源的同一个实体数据进行整合,返回给用户关于该实体的尽可能多的相关信息的统一视图,从而为用户提供资源发现和访问服务的新的视角。简单来说,就是关联数据允许机构知识库关联到更广泛的信息资源,并不局限于资源本身的信息,可以扩充科研人员、所属机构、科研成果以及其所属学科主题等其他信息到其他任何一个存在该信息描述的数据源。
以上三点关键技术形成了本文利用关联数据实现机构知识库的语义扩展的核心方法。
3.2应解决的关键问题和解决方案
(1)机构知识库实体对象的识别和实体关系的抽取。机构知识库中的实体对象很多,关系也很复杂。对同一实体对象和关系的识别和抽取是一个关键问题。在现实中,不同的关联数据源对同一个实体,如人名,地名等,采用了不同的URI来标识,会导致他们所标示对象的标签和实质的内容并不是完全匹配的。机构知识库为了解决这一个问题,设计了知识资产作者及作者排序确认程序,目的是为了借助于人工的甄别,去实现作者(人名)和对应作品(期刊文献、会议论文、研究报告等)的一一对应关系。该程序会在作者向机构知识库所提交的条目内容被接受和保存,并分配唯一的URI标示符后,自动向作者的邮箱发一封认领邮件,由作者本人来确认是否是属于自己的文献以及选择作者的排序。这种做法虽然效率可能会比较低,认领周期会有点长,但是对于目前的研究层次而言,是十分有效和且合理可行的,而且很大程度地提高了实体对象识别的准确率。与此同时,机构知识库还有自己的别名管理程序,可以为同一个人名实体添加多个形式的别名,解决了人名实体多样化的识别问题。有了前期的预处理工作,抽取机构知识库中自身的实体对象和关系可以按照机构知识库的元数
14
据描述字段以及关系类型进行解析和拆分。
(2)机构知识库关联数据源的选择和不同词表间的映射。机构知识库中的数据主要是期刊论文、会议论文、学术论文、专利、专著、研究报告等科研文献,要将机构知识库中的元数据扩展到外部的关联数据源,选择合适的关联数据源十分重要。目前web上得关联数据源有很多(见表3),但基本都是综合性的社会公共性质的数据集,相对而言能够适合于像机构知识库这样主要应用科研领域的数据进行关联又比较少。而不同的关联数据来源可能采用不同的关联词表,为了最大化的最有效的语义化机构知识库的元数据,从而为用户提供整合的清晰的数据视图,需要将不同的术语转换成统一的目标模式。转换工作主要依据词表将数据映射成本地的数据模式,另外还需要依据人工产生或者经过数据挖掘得到的映射规则进行转换。通过对关联数据源和关联词表的比较分析,加上对机构知识库核心元数据框架体系的了解,本项目主要选择DBpedia和DBLP作为机构知识库的关联数据源,DC、FOAF、SKOS、ISWC、VCARD作为其扩展的关联词表,具体会在实验设计模块做出详细说明。
表3 几种主要的关联数据源
数据源 DBpedia DBLP Freebase WordNet Flickr YAGO DrugBank MusicBranz GeoNames Revyu Book Mashup New York Times World Factbook
描述
基于Wikipedia抽取结构化数据并转换为关联数据格式进行发布和共享 以XML格式存储计算机领域期刊文献和会议论文的元数据信息 遵循知识共享CC(Creative Commons)协议,元数据严格结构化 包含了20多万个基于认知语言学方面词汇的英语词表集
含有超过40亿的图片数据,并提供图片的分类、存储、检索等功能 基于Wikipedia和WordNet的语义知识库,约含有1700多万个实体 含有约4800种药物元数据信息的生物化学资源集 由个人用户负责添加和管理的音乐元数据集合
包含超过1000万个地名和550万个地理别名的地理信息数据集 允许用户自由标注实体和投票打分的数据集 提供了书籍的相关信息,包含了大约7000个链接 提供了NYT标题词和DBpedia概念之间的关联链接 包含了200个国家信息的数据集
(3)机构知识库关联数据的访问和查询。查询关联数据和语义web需要有一种能够将RDF作为基本语法的语言。基于这一点以及纯RDF的角度来看,查询基于RDF的语言并不需要特殊
[29]
的过程或语言特征。目前主要有三种查询语言:SPARQL(SPARQL Protocol and RDF Query Language)、RDQL(RDF Data Query Language)和SeRQL(Sesame RDF Query Language)。其中,SPARQL即是一门查询语言又是一种协议,它是SPARQL协议与RDF查询语言的递归缩写形式,是W3C的推荐标准,已经得到了广泛的支持和应用,并且有大量可用的公共端点。如前文所说的DBpedia的查询端点。本项目同样选择SPARQL作为机构知识库关联数据服务端的查询语言。简单来说,查询一般有两个主要组成部分:SELECT子句和WHERE子句。SELECT子句用于确定查询中返回哪些变量和这些变量的值。而WHERE子句定义了所有匹配机构知识库中RDF库的数据的图模式(graph pattern)。默认情况下,该查询会返回一个包含结果集的HTML表,该结果集会将一个变量集和一个RDF术语集映射起来提供给用户。同时还提供了将结果集定制为XML、XML+XSLT、JSON多种格式的web服务。
(4)机构知识库关联数据质量的评估和保证。随着关联数据的增多和更新的需求,关联数据源中的数据可能会被修改、删除或者移位,有时对应的链接也会随之改变,这就会造成已有关联数据的链接失效和出现错误。RDF链接是关联数据的根本,因而链接的准确性和有效性成为了制约和评估关联数据质量的决定性因素。机构知识库中的关联数据链接主要有两种,一种是机构知识库内部实体元数据之间关联关系的链接数据,一种是和外部词表或关联
15