差别较大,则表明现有的站点包装器失效了。在这种情况下,需要对最新的页面进行重新标注并学习新的模式,从而构建更新的包装器。 c) 知识图谱的更新频率
加入到知识图谱中的数据不是一成不变的。Type对应的实例往往是动态变化的。例如,美国总统,随着时间的推移,可能对应不同的人。由于数据层的规模和更新频度都远超schema层,搜索引擎公司利用其强大的计算保证图谱每天的更新都能在3个小时内完成,而实时的热点也能保证在事件发生6个小时内在搜索结果中反映出来。 d) 众包(Crowdsourcing)反馈机制
除了搜索引擎公司内部的专业团队对构建的知识图谱进行审核和维护,它们还依赖用户来帮助改善图谱。具体来说,用户可以对搜索结果中展现的知识卡片所列出的实体相关的事实进行纠错。当很多用户都指出某个错误时,搜索引擎将采纳并修正。这种利用群体智慧的协同式知识编辑是对专业团队集中式管理的互补。
知识图谱在搜索中的应用
1. 查询理解
搜索引擎借助知识图谱来识别查询中涉及到的实体(概念)及其属性等,并根据实体的重要性展现相应的知识卡片。搜索引擎并非展现实体的全部属性,而是根据当前输入的查询自动选择最相关的属性及属性值来显示。此外,搜索引擎仅当知识卡片所涉及的知识的正确性很高(通常超过95%,甚至达到99%)时,才会展现。当要展现的实体被选中之后,利用相关实体挖掘来推荐其他用户可能感兴趣的实体供进一步浏览。 2. 问题回答
除了展现与查询相关的知识卡片,知识图谱对于搜索所带来的另一个革新是:直接返回答案,而不仅仅是排序的文档列表。要实现自动问答系统,搜索引擎不仅要理解查询中涉及到的实体及其属性,更需要理解查询所对应的语义信息。搜索引擎通过高效的图搜索,在知识图谱中查找连接这些实体及属性的子图并转换为相应的图查询(如SPARQL13)。这些翻译过的图查询
13
http://www.w3.org/TR/rdf-sparql-query/
被进一步提交给图数据库进行回答返回相应的答案。
总结
这篇文章比较系统地介绍了知识图谱的表示、构建、挖掘以及在搜索中的应用。通过上述介绍,大家可以看出:1)目前知识图谱还处于初期阶段;2)人工干预很重要;3)结构化数据在知识图谱的构建中起到决定性作用;4)各大搜索引擎公司为了保证知识图谱的质量多半采用成熟的算法;5)知识卡片的给出相对比较谨慎;6)更复杂的自然语言查询将崭露头角(如Google的蜂鸟算法)。
此外,知识图谱的构建是多学科的结合,需要知识库、自然语言理解,机器学习和数据挖掘等多方面知识的融合。有很多开放性问题需要学术界和业界一起解决。我们有理由相信学术界在上述方面的突破将会极大地促进知识图谱的发展。
致谢
感谢来自谷歌的王栋博士、来自搜狗的张坤以及来自百度的吴华博士和赵士奇博士分别介绍了Google知识图谱、搜狗知立方和百度知心系统的工作。他们精彩的报告是本篇技术文章的基础。
撰稿人简介:
王昊奋,上海交通大学计算机应用专业博士,对语义搜索、图数据库以及Web挖掘与信息抽取有浓厚的兴趣。在博士就读期间发表了30余篇国际顶级会议和期刊论文,长期在WWW、ISWC等顶级会议担任程序委员会委员。作为Apex数据与知识管理实验室语义组负责人,他主持并参与了多项相关项目的研发,长期与IBM、百度等知名IT企业进行合作,在知识图谱相关的研究领域积累了丰富的经验。