关于网络标注的主要方法概述(2)

2012-08-21 20:24


  大众标注法分为宽(Broad)大众标注法、窄(Narrow)大众标注法。宽大众标注法指许多用户可以标注同一事物,而窄大众标注法指只有一少部分用户能够标注同一事物。
  在大众标注法中,非受控词汇有着与生俱来的限制性和缺点:标签“一词多义”的现象就造成了标签的不确定性;同义词的不可控性使得相同的概念用不同的标签标注,这种“一义多词”的现象又造成协作的不便性;单词的不同格式,单复数,也经常用作不同的标签,这种情况在闪亮书签上尤为突出(中文中不存在这种单复数的问题);美味书签和闪亮书签最初设计时只是针对单个词汇的,都不允许标签中出现空格。用户就用多个不含空格的单词组成单个的标签,比如闪亮书签中的“vertigovideostlllsbbc”,有时用户在单个标签中融入层次,比如美味书签中的“deslgn/css”。这两个系统忽略了字母的大小写,这可能导致具有不同含义的标签相同,尤其是在首字母缩写时。这些都是传统分类法中应用受控词汇的原因,但是在像美味书签、闪亮书签这种语境体系中应用受控词汇是不太现实的。
  检索完整性的要求需要词表对词间关系给予全面揭示,具体包括等同关系、等级关系、相关关系等。本体能够表达概念间关系的这一特点可以补偿大众标注的缺憾。
  1.3 语义标注
  语义Web被称为Web3.0,是Web上数据的一种表示,它基于资源描述框架RDF来集成以XML为语法、统一资源标识符URI为命名机制的各种应用。语义Web是对当前Web的一种扩充,并不是一个全新的Web,其研究重点就是如何将信息表示为计算机能够理解和处理的形式,即带有语义,使计算机和人能协同工作。

  实现语义web目标的一个重要前提是利用本体词汇标注Web资源(如Web页、服务等)。本体在TimBemes-Lee提出的语义Web的七层体系结构中位于第四层,其目的是为捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并给出这些词汇(术语)和词汇间相互关系的明确定义,通过概念之间的关系来描述概念的语义。基于本体的语义标注利用由专家定义好的本体支持内容创建者在Web页中添加语义元数据,使其内容能被人和机器所理解,与大众标注相比较这是一种自顶向下的分类法。利用语义标注工具对现有的大量Web信息进行标注,将使得Web页的内容成为机器可识别的数据,从而构成语义Web的基础。
  OgeMarques等认为语义网的成功在于能够在Web页面及其构成上作语义标记,且是以低成本的、采用一致性结构和本体的方式。他们着力于图像语义标注的智能方式,并提出三层结构。底层组织是从原图像内容中抽取的信息,这些信息映射中间层有语义的关键词,而这些关键词又联系着顶层的结构和本体。他利用机器学习算法作用户自助的、半自动的图像标注,可以加快相同领域本体图像的标注,并且改善标注图像以后的查询和检索。
  在Web服务方面,下一代网络语义标注下的软件代理能比目前的软件代理更快地抽取和翻译Web内容。Web服务中的语义标注能够促进服务发现,也能够促进服务组合转化为工作流。但目前仅有少量的服务标注被广泛应用,这就使得这种语义标注仍然受限。Khalid Belhajjame等基于操作参数之间的联系,在工作流中反复试验,推断关于操作参数的相关语义信息。虽在开放的上下文环境中只能推断参数语义的约束,但这些松散的标注在工作流、标注、本体中检测错误仍然有价值,在简化手工标注的任务中也很有价值。
  
  2 比较分析
  
  专业人员创建元数据最主要的问题是内容扩展时的可扩性和可行性问题,尤其是在万维网中。并且专业的编目系绩工具对于没有专门培训和知识的人来说太复杂;作者创建元数据也有问题,经常出现不恰当、不准确的标注,或者完全是虚假标注。
  采用聚类分析方法对用关键词或自由词标引的检索系统中的词表建立词间关系,可以形成语义网提高系统检索效率,达到语义控制的目的。但汉语词条高达数百万条使得待聚类的Web文档特征词条一权重矩阵的维数过高,增加了聚类算法的复杂度,因此空间维数较高或词与词间呈现较强的相关性时聚类质量和算法的性能会明显下降。目前有许多人从事该方面的研究,其中戚涌等人提出了基于潜在语义标注(LatentSemanticIndexing—LSI)的Web文档自动分类,即对Web文档采用最优聚类准则进行聚类,使得获得的特征向量具有较低的维数和更好的分类特征。

关于网络标注的主要方法概述(2).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:论人工智能的研究与发展

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: