基于主题的Web信息采集技术研究(4)

2019-05-17 16:16

3.6 迁移的信息采集

这种信息采集器也叫Relocatable Web Crawler。在采集时，它并不像其他采集器在本地向Web站点服务器发页面请求，而是将自己上载到它所要采集的服务器中，在当地进行采集，并将采集结果压缩后，回传到本地。这样做的一个明显优点是大量的节省了Web资源，大量的剪裁工作将在被采集对象的服务器上完成。但明显的一个不利是采集器可能并不被被采集对象所信任，因为这样被采集站点会由于给访问者权限太大而易遭到病毒攻击。解决的办法是建立一种信任机制，采集器由权威的信任机构评估并授权。还有另一种方法，采集器先迁移到离被采集站点很近的地方实施采集，这种方法是迁移到被采集站点方法和不迁移方法的折衷。SPHINX 信息采集器就是这种思路的尝试[Miller&Bharat 1998]。

3.7 基于元搜索的信息采集:

元搜索引擎（Metasearch）的研究一直是搜索引擎研究的一个热点。它是这样一种搜索引擎系统，对用户提交的查询请求通过多个领域或门户搜索引擎搜索，并将结果整合后以统一的界面提交个用户。一般元搜索引擎并不保存Web页面的索引文件，但对于一些复杂的元搜索引擎,它要保存为它服务的每个搜索引擎的信息特征，以便能够在用户查询到来后做出好的搜索引擎选择。作为搜索引擎先头部队的信息采集器，在元搜索引擎中有相当的退化，但仍为Web采集的一个方向,叫做基于元搜索的信息采集(MetaCrawler)。

美国Binghamton大学的研究者围绕一个元搜索引擎技术的难点：数据库选择问题进行了研究[Zonghuan Wu 2001]，并提出了一个解决上述问题的新方法。因为要借用其它搜索引擎的索引数据，所以叫做数据库选择。他们的方法是：就每个有代表性的问题对大量的领域搜索引擎排序，这有点像建立索引时的倒排表。当一个检索词来了后，通过相似度比较选择一个最接近的代表性问题，进而确定了要选用的搜索引擎。

美国华盛顿大学在Metasearch方面的研究在[Selberg&Etzioni 1997]有详细的说明。作者认为，大多数搜索引擎对于同一个查询要求返回的结果很不相同，质量也参差不齐。试验发现，使用单独一个搜索引擎错过大约77%的相关页面[Selberg&Etzioni 1995]。所以，他们力图在提高查全率的同时，也力争利用单个搜索引擎在某一领域的优势提高平均查准率。

3.8 小结

随着人们对Web服务的种类和质量要求越来越强烈，各种各样的信息采集系统也应运而生，并朝前不断发展。最初，人们希望能够设计出既大而全又质量好的信息采集系统(即基于整个Web的信息采集)，这显然是一个非常困难的问题，因为两方面都要求必然造成两方面都不能做得很好。人们经过不断的努力和探索，从最初的Web Worm到现在的Google,从基于词的语义信息理解到Web链接结构信息挖掘，发展到了今天已经取得了令人瞩目的进步，优秀的基于整个Web的采集器以及相关的搜索引擎，已经在很多方面为人们利用Web信息提供了大量帮助。然而，随着人们对Web服务的种类和质量要求越来越高，基于整个Web的信息采集也越来越显得力不从心，一方面它们不得不为越来越庞大的数据提高采集速度、增加存储空间、优化采集算法，而一方面又越来越不能满足用户对个性化数据的需求，人们需要寻找新的出路。目前采用的基于词的语义信息理解显然不能准确把握整个文章的语义，而要上升到对句子甚至段落信息的理解却还有待于自然语言理解的大发展，现在这一方面困难重重；基于已有结构信息的挖掘(例如Google的Pagerank算法)也已基本达到饱和，很难有新的算法达到较大突破；而对于纷乱的Web制定新的标准，减少不确定性以提高性能，这一方面的发展也不能寄予过高的期望；随着Web服务逐渐向基于主题以及用户个性化的方向迈进、Agent的技术发展、迁移式思想的出现，单纯的为了检索的信息采集技术必将向着基于主题以及个性化主动信息采集服务方向全方位拓展。因此，有必要开展基于主题的Web信息采集技术的研究。

第四章基于主题的Web 信息采集基本问题研究

在本章里，我们主要围绕基于主题的Web信息采集基本问题展开了研究，这主要包括主题的Web信息采集的定义、优点、分类，主题页面在Web上的分布特征以及相关性判别算法，后两者是本章的重点。它们为在下一章中提出我们设计的基于主题的Web信息采集结构模型提供了必要的准备。

4.1 基于主题的Web信息采集的定义

在Web信息采集的大家庭中，有一类非常重要，它就是基于主题的Web信息采集，在国外也叫做Focused Crawling。它主要是指选择性的搜寻那些与预先定义好的主题集相关的页面的采集行为。

4.2 基于主题的Web信息采集的优点

和传统的基于整个Web的信息采集相比，基于主题的Web信息采集是一个新兴的领域，主要有以下几个优点：第一，从很大程度上，它缓解了信息采集开放性难题刷新问题所带来的弊端。整个Web的实时性使得数据在采集到的同时就面临着过时的风险，为了降低这种风险，信息采集器必须不停的对采集过的信息重新采集已达到对数据的刷新。刷新问题就是指在对页面数据的刷新过程中，这种风险只能降低，不能消除。随着Web的急速膨胀，传统的基于整个Web的信息采集的刷新问题变得异常地尖锐。尽管人们不断的提高单机的性能，通过分布式增加并行能力，通过算法优化刷新策略，但是刷新问题还远不能令人满意。许多门户搜索引擎查新一次需要数周甚至数月的时间。Selberg和Etzioni在1995年的调查发现，通过Internet中最常用的一些搜索引擎查询到的结果URL中，14.9%的目标页面已经失效了[Selberg &Etzioni 1995]。而对于基于主题的信息采集，这个问题好处理的多。随着采集页面数量的极大降低，页面的刷新周期极大的变短，因此数据过时的风险也就极大的减小了。

第二，它极大的节省了资源和提高了资源的利用率。整个Web上的信息是十分浩大的，想对Web整个采集或完全镜像的采集器，先不说它们能否做到这一点，就其在采集过程中所使用的硬件资源和网络资源来说，花费是十分巨大的。事实上，许多采集到的页面信息很少被使用，这是一个极大的浪费。而基于主题的Web信息采集就是在采集过程中对URL根据需要有所剪枝。这种采集剪枝，不仅使剪枝掉的URL数目远大于被采集的URL数目，甚至差别是几个量级的，还使得剪枝后采集到的页面有较高的利用率。因此，这极大的节省了硬件和网络等资源以及提高了资源的利用率。

第三，它更灵活，更利于为用户服务。采集的目的就是为了服务于用户，对于每个用户来说，他们根本不关心整个Web上的数据，而只是其中很小的一部分。事实上，这部分数据往往集中在很小的几个或者一个主题领域内。基于主题的Web信息采集恰恰可以满足这些用户的需求，而且，由于采集的页面数量少，页面内容也更有针对性，所以能够更好的针对需要为用户提供服务。也正是由于采集的页面数量少，系统更加灵活。

第四，通过各个基于主题的Web信息采集器的协作和共同努力，它可以提高整个Web的页面采集覆盖率。随着WWW信息的爆炸性增长，信息采集的速度越来越不能满足实际应用的需要。最近的试验表明，即使大型的信息采集系统，它对Web的覆盖率也只有30-40%。解决这一问题的直接办法是升级信息采集器的硬件，采用处理能力更强的计算机系统，然而这种方法的扩展性有限，性价比也不高。一个更好的解决放法是采用分布式方法来提高并行能力，但是并行不但增加了系统的开销和设计的复杂性，并且并行换来的效益随着并行采集器数目的增加而显著的减小。而基于主题的采集，由于采集的页面总数少，并且对于这个主题内的页面挖掘能力更强，

所以和传统的基于整个Web的信息采集器相比，它在这个主题内往往采集到更多更全面质量更好的页面。当多个主题采集器按照主题分类目录对主题页面进行分类采集和协同工作后，他们的综合采集页面对Web的覆盖率也就更高了。

4.3 基于主题的Web信息采集的分类

4.3.1 广泛主题和具体主题的Web信息采集

按照采集主题的范围和规模，基于主题的Web信息采集可分为广泛主题的Web信息采集和具体主题的Web信息采集。

广泛主题是指那些涵盖面较宽，并且和其他主题相比有较强的独立性的一类主题。广泛主题的Web信息采集也称作领域Web信息采集。用户在采集这类主题时，往往并没有太具体的要求。一般这类信息采集所需要采集的页面数量较多，为了达到较高的召回率，在进行URL过滤的时候所设定的阈值较低、限制较宽，因此它的页面的内容相对于其它基于主题的Web信息采集来说也相对较杂，采集页面与主题的平均相关度也较低。

与之相对应，具体的主题涵盖面较窄，因此意义也比较明确，采集页面的规模也较小。这类采集一般可直接服务于用户，为此，它在进行URL过滤的时候所设定的阈值较高、限制较严。这类信息采集对用户来说，更加灵活，对每个用户有更强的针对性。在操作方式上，此类信息采集的设置有点像给搜索引擎提交查询词。

如果按照主题分类目录来划分它们二者的话，广泛主题往往集中在主题树的根结点附近，而具主题则集中在主题树的叶子节点附近。

4.3.2 固定主题和可变主题的Web信息采集

按照采集时能否指定主题，基于主题的Web信息采集分为固定主题的Web信息采集和可变主题的Web信息采集。

顾名思义，固定主题的Web信息采集在采集前和采集的过程中都不能进行主题的变更。它一般是针对比较广泛的主题，并且这类主题要有较强的代表性和采集价值。，这类采集一般服务于领域搜索引擎，不直接服务于用户。通过领域搜索引擎的标引和加工，以类似于门户搜索引擎的服务方式提供给用户。它的页面内容比基于整个Web信息采集的页面内容有强得多的主题特性，因此领域搜索引擎要比门户搜索引擎有更好的检索效果。

可变主题的Web信息采集是指用户在采集前可设定采集主题、在采集过程中可改变主题的一种采集方式。这类采集往往设定的主题较具体，采集页面的规模也较小，提供给用户的操作方式比

较灵活。另外，多个此类信息采集器进行合作，分别采集不同的主题，能够完成一些更高级和复杂的服务。

4.4 主题页面在Web上的分布特征

整个Web上的页面分布是杂乱无章的，但透过这个杂乱无章的表面，我们能否找到同一个主题在Web上分布的一些规律呢？答案是肯定的。我们将这些分布规律总结为四个特性：Hub特性、Sibling/Linkage Locality特性、站点主题特性、Tunnel特性。通过对它们的研究，我们希望能够发现一些在基于主题的采集过程中对无关URL和页面过滤有用的规律。

4.4.1 Hub特性

美国康奈尔大学的教授Jon M. Kleinberg发现Web上存在大量的Hub页面，这种页面不但含有许多outlink链接(指出链接)，并且这些链接趋向于相关同一个主题。也就是说，Hub页面是指向相关主题页面的一个中心。另外，他还定义了权威页面(authority)的概念,即其它许多页面都认为相关于这一主题有价值的好页面。好的Hub页面一般指向多个Authority的页面，并且所指向的Authority页面越权威Hub页面的质量也越好；反过来，Hub页面的质量越好，它所指向的每个页面也趋向于越权威。根据这个思想，他还提出了Hub/Authority 算法，这个算法我们将在后面的章节中介绍。这个算法对于计算广泛的和概念模糊的主题效果不错，但由于算法会产生概念扩散现象，使得计算后的中心页面和权威页面不太适合具体主题。

4.4.2 Sibling/Linkage Locality特性

在Hub特性的基础上，人们又提出了Sibling/Linkage Locality特性[Aggarwal et al. 2001]。1).Linkage Locality,即页面趋向于拥有链接到它的页面的页面主题；2).Sibling Locality,对于链接到某主题页面的页面，它所链接到的其它页面也趋向于拥有这个主题。这实际上是Hub特性的变形，主要是从页面的设计者设计的角度考虑的。一个页面的设计者趋向于把本页面指向于与本页面相关的其他页面。

4.4.3 站点主题特性

我们发现，一个站点趋向于说明一个或几个主题，并且那些说明每个主题的页面较紧密地在此站点内部链接成团，而各个主题团之间却链接较少。我们认为，这主要与网站的设计者的设计思路有关。每个网站在设计时都有目标，而这种目标往往就集中在一个或几个主题中。而网站的浏览者往往也有一定的目的性，这个目的性一般体现在用户趋向于浏览同一主题的页面。为了满足浏览者的这一需求,网站设计者需要将相关内容紧密地链接在一起。

共8页:

基于主题的Web信息采集技术研究(4).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档