基于主题的Web信息采集技术研究(6)

2019-05-17 16:16

OnMouseover Src Title Image Text Map & Area Text Frame Text 图4.2 扩展元数据类型在Web中的分布在图4.2中，列出了几种有代表性的HTML扩展元数据类型，它既有超链接的属性，也有超链接标记的文字。链接比例主要是指在所有的链接中，含某种HTML扩展元数据类型的比重(即用所有含此扩展元数据类型的链接数比上所有的链接数)，链接比例实际刻画的是一个链接中含某种扩展元数据类型的可能性。页面比例是指在所有的页面中，含某种HTML扩展元数据类型的比重(即用所有含此扩展元数据类型的页面数比上所有的页面数)，页面比例实际刻画的是一个页面中含某种扩展元数据类型的可能性。因为一个链接或者一个页面并不只含有一种HTML扩展元数据类型，所以，所有类型的链接比例和页面比例分别加起来都超过了100% 。另外，由于一个页面中通常包含多个链接，所以页面比例一般都要比链接比例高。试验数据显示，对于链接比例和页面比例来说，类型都是按HREF，AnchorText，Surrounding Text，Name，OnMouseover，Src，Title，Image Text，Map & Area Text和Frame Text降序排列的。这个排列顺序说明了整个Web中的页面和链接中HTML扩展元数据类 0 0 0.1% 0.3% 0.5% 1.4% 0.8% 2.3% 1.7% 4.2% 5.3% 9.6% 型使用的比例。因此，我们在下面的算法中只要关注几个比例较高的扩展元数据类型，就能够把握整个扩展元数据对本这面中链接所指向的页面主题的预测。

4.5.2.4 基于HTML扩展元数据类型的判定算法

这些算法是利用链接的扩展元数据来为每一个链接计算权值，在进行基于主题的信息采集时，优先采集权值高的链接，并对权值较低的链接进行剔除。整个扩展元数据类型可以分为3个大类：1).URL（包括HREF，OnMouseover，Src等）；2).Text(包括Anchor Text，Image Text，Map&Area Text，Frame Text和Surrounding Text等)；3)Title(包括Title，Name等)。根据这3个大类，我们设计了算法。这些算法包含URL启发式算法(URL Heuristics or UH)、Text启发式算法(Text Heuristics or TeH)、Title启发式算法(Title Heuristics or TiH)、扩展元数据启发式算法(All Metadata Heuristics or AMH)、相关性权重算法(Relevance Weighting or RW)和有提升的相关性权重算法(Relevance Weighting with Boosting or RWB)[YSH 2000]。

4.5.2.4.1 URL启发式算法(URL Heuristics or UH)

在Web中，如果一个URL中包含某个主题词，则这个URL所指向的页面很可能是跟这个主题词密切相关的。比如http://dmoz.org/Sports/Basketball这个URL包含的内容就很可能是关于Basketball的。因此我们定义计算公式：公式4.1

直觉上，根据这个公式计算的值如果为1，则这个链接所指向的页面与主题相关的准确性很高，但算的值如果为0，这个链接所指向的页面与主题无关的准确性并不高。也就是说此算法给许多实际相关的页面并没有赋权值1。

4.5.2.4.2 Text启发式算法(Text Heuristics or TeH)

在Web中，如果Anchor Text，Image Text，Map&Area Text，Frame Text或Surrounding Text等中包含某个主题词，则这个URL所指向的页面很可能是跟这个主题词密切相关的。比如科研包含的内容就很可能是关于“科研”。因此我们定义计算公式：公式4.2

URL的Text指的就是此链接的Anchor Text，Image Text，Map&Area Text，Frame Text或Surrounding Text，显然，在一个链接中，这些Text是不可能同时出现的。直觉上，同URL启发式算法类似，根据这个公式计算的值如果为1，则这个链接所指向的页面与主题相

关的准确性很高，但算的值如果为0，这个链接所指向的页面与主题无关的准确性并不高。不过与URL启发式算法相比，它没有赋权值1的相关与主题的页面要少一些。

4.5.2.4.3 Title启发式算法(Title Heuristics or TiH)

在Web中，如果一个链接中的Title包含某个主题词，则这个URL所指向的页面很可能是跟这个主题词密切相关的。比如这个URL中，title包含的内容me scuba diving就很可能是关于这个URL所指向的页面的内容。因此我们定义计算公式：公式4.3

4.5.2.4.4 扩展元数据启发式算法(All Metadata Heuristics or AMH)

将所有的扩展元数据综合在一起，就得到扩展元数据启发式算法公式：公式4.4

其中A，B，C为3个大于等于零小于等于一的常数，用于控制每类扩展元数据在整体中的权重。显然，0 1。

4.5.2.4.5 相关性权重算法(Relevance Weighting or RW)

另一种综合所有的扩展元数据来计算权重的公式如下：公式4.5

其中，M(url)指与此URL相关的所有扩展元数据集合，是指扩展元数据中的一个词与主题的相关度。c为用户设定的相关性阈值。此方法与AMH算法最大的不同在于相关度的计算。AMH方法是看扩展元数据中是否包含主题词或者主题词的同义词，这样会漏掉许多相关页面；而RW方法则是看扩展元数据中词与主题词之间的相似度，同义词之间的相似度100%，近义词之间的相似度50%~100%,远义词之间的相似度0%~50%，这样大大降低了漏判相关页面的可能性，同时也增加了错判相关页面(不相关的页面判断为相关页面)的可能性，它的相关与否是通过阈值来决定的(大于等于阈值为相关，小于阈值为不相关)。另外，RW算法需要增加一个词语相关性词库。

4.5.2.4.6 有提升的相关性权重算法(RWB)

公式4.6

在Web中，有时在某两个相关于主题的页面之间会有若干个不相关于主题的页面存在，我们把这种现象称为“隧道现象”。这样在采集到前面一个相关于主题的页面时，根据RW算法很容

易将隧道及隧道后面的相关于主题的页面抛弃掉。为了减少这种因为“隧道现象”而漏采相关于主题页面的损失，对RW算法进行扩展，产生了有提升的相关性权重算法RWB公式4.6。其中T(url)表示包含这个URL的文本，t指文本中的每个词，c与前面一样，为用户设定的相关性阈值，d为用户设定的提升阈值。P1，P2为随机变量，它们在0和1之间变化。

它的原理就是当一个链接URL的值小于相关性阈值c时，随机产生一个提升因子P1，当P1大于等于提升阈值d时，此URL就获得了一个重新评判相关性的机会，这次评判不只是用扩展元数据，而是用包含此url的整个页面内容。当重新评判的值大于相关性阈值c时，则用此值，表明这个URL链接到的页面是相关的。如果重新评判的值仍然小于相关性阈值c，则给第三次机会，其值等于随机产生的变量P2，由于P2可能大于相关性阈值c，所以此URL链接到的页面仍有可能被判断为相关的。这两次机会减少了RW算法的漏判(相关的页面被判断为不相关)和对“隧道现象”的错判，但同时也增加了相关性页面的误判(不相关的页面被判断为相关)。RWB算法的另一大优点就是解决了“停滞现象”。它总能找到相关页页面，而不因为没有相关页面采集停滞。

4.5.3 根据页面间链接分析的判断

Web是基于Internet的超文本（hypertext）系统，超文本系统与普通文档信息库的最大区别就在于前者中存在着大量的超链接。研究表明，利用Web中丰富的超链接（hyperlink）信息，可以挖掘出Web中许多重要的信息，这些信息对进一步理解超文本语义以及提供给用户更优质的服务有相当大的帮助。我们把这些研究超链接的工作称为链接分析，或叫做结构分析（structure analysis）。

链接分析的研究思路基于这样一个假设：即把超链接看作是对它所指向的页面的赞许[Chakrabarti 1999]。在这样的假设之下，当页面A通过超链接指向页面B时说明两点：1).页面B与页面A的主题是有关的；2).页面B是质量较好值得关注的页面。单个链接并不是完全可靠可价值判断，因为超链接中也有纯粹起导航作用的（如“主页”，“下一页”），或者是广告链接，或表示不赞同（“我不同意这个观点”），或者是为了某种目的的欺骗性链接。不过，从宏观总体上来看，Web上整个链接集合所反映的情况则是比较可靠和准确的，因为不良链接的整体效应远没有重要链接的整体效应强。当然，为了有效和准确的评估链接，在进行具体的算法分析之前需要识别和去除 “噪音”链接，这也是许多链接分析算法的共同特点。

如果将页面看作顶点，链接看作有向边，整个Web就可以看作是一个有向图，称为Web图（Web graph），可以用复杂网络理论来进行研究和分析。在上述背景下，通过链接对Web的研

究可以分为以下三种类型：1).对Web宏观性质的研究，比如说通过每个页面的出度和入度数来研究Web中团的直径和Web的宏观结构。这类研究往往用生态学（ecology）和社会学（sociology）的规律来来揭示Web的发展。2).对Web中单个页面的性质的研究。就像经济社会一样，有宏观问题，也有微观问题，Web中的每个页面的作用是不相同的，有些页面非常重要和非常有权威，很多人都关注它，而有些页面则是垃圾，除了浪费被骗人的时间外，几乎没有任何存在的意义。现在比较好的计算页面重要程度的方法为PageRank算法和Authorities/Hubs算法，我们将在下面的章节中详细介绍。事实上，对Web中单个页面的性质的研究非常使用，许多搜索引擎都采用了PageRank算法和Authorities/Hubs算法，以提高检索结果的准确性。3).对Web隐藏信息的挖掘。现在，仍然有许多可用的Web信息没有被挖掘出来，比如说有关共同话题的页面“社区”的问题[Kumar (1) 1999] [Kumar(2) 1999] [Mendelzon 1995] [Mendelzon 1997]，这些问题的解决有待于对Web隐藏信息的进一步挖掘。

4.5.3.1 相关度和重要度

4.5.3.1.1 相关度

在搜索引擎技术中，相关度是个重要的概念。它描述了检索结果和检索请求之间的相关程度。相关度的计算方法有很多，但每一种方法基本上都是定量地计算检索请求与检索结果之间的语义关联程度，并且根据这种关联程度的数值高低排列搜索引擎返回给用户的结果。与之类似，基于主题的Web信息采集的相关度是指页面或链接和主题之间在语义上的相互关联程度。

事实上，搜索引擎的这种排序后的返回结果并不令人满意。原因除了由于相关度计算方法的误差导致的排序错误外，还主要有一点：相关度不太高的页面不一定质量不高，相关度很高的页面不一定有高的质量。比如，一个文本对于一个主题来说，可能并太相关，但却出自一个权威作家之手，它有相当高的有用信息量；而另一个文本对于这个主题可能是非常相关的，因为它讨论的确实是这个主题，但是，这个文本由于出自一个初学者之手，只包含很少的有用信息量；更有甚者，一个质量较差的网页的作者，由于了解搜索引擎的工作方式，利用在网页中大量重复重要关键字的做法，提高它在搜索引擎检索中的相关度。实际上，用户需要的不只是语义上最相关的页面，而且是用途上质量高的页面，也就是说，是相关度和质量因素综合较高的页面。为此，信息检索的研究者们提出了另一个重要的衡量指标——重要度。

与信息检索情况类似，基于主题的Web信息采集在进行主题相关性判定时也面临两个衡量指标。需要最先采集的链接，一方面，要在语义上与主题十分相关，另一方面，它要有较高的权威性和质量。这种权威性和质量往往能够使得采集到页面具有较大的有用性和较高的发现其它高相关度

共8页:

基于主题的Web信息采集技术研究(6).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档