为了发现和研究站点内页面的主题团特性,余智华对站点结构进行了分析[余智华 1999],他通过基于关键词的向量空间模型算法为每个页面分类,并在站点内部结构特征的基础上,对站点页面树按照自底向上进行主题聚类,这样一个站点所要说明的一个主题或多个主题就确定了(如果聚为一个类,说明站点只有一个主题,如果聚为多个类,则说明站点有多个主题)。显然,聚的每一个类就是站点内页面的一个主题团。在聚类过程中,他要区别每个链接和页面对页面树结构的贡献,为此他为站点定义了两种结构(物理结构合逻辑结构),并且把站点内的链接分为六类(下行链、上行链、水平链、交叉链、外向链、框架链),把站点内的页面分为四类(主页、索引页面、内容页面、参考页面),他为每一类链接和页面在聚类过程中赋予不同的权重。我们的试验也证明了站点中存在着许多主题页面团,或者说许多中心页面。
4.4.4 Tunnel特性
在Web中还有一类现象,就是尽管存在很多主题页面团,但是在这些页面团之间,往往需要经过较多的无关链接才能够到达。这些无关链接就想一个长长的隧道一样,连接着两个主题团,因此我们也把这种现象叫做“隧道现象”。在基于主题的页面采集过程中,Tunnel的存在极大地影响着采集的质量。为了提高采集页面的准确率,我们需要提高URL与主题相关性判定以及页面与主题相关性判定的阈值,而阈值的提高将过滤掉大量的Tunnel,使得采集系统很可能丢失Tunnel另一端的主题团,进而影响了查全率(或者说资源发现率)。反过来,为了提高查全率,就得大量发现Tunnel,就得降低URL与主题相关性判定以及页面与主题相关性判定的阈值,但是阈值的降低使得在得到Tunnel的同时,也混进了大量的其它无关页面,从而大大降低了页面的准确率。这是一个两难问题,但关键还是不能有效地区别Tunnel和其它大量无关页面,事实上两个主题团之间的隧道数也较少。为此,我们这样设计算法:判断某个链接和页面与主题的相关性低于阈值时,给它一个概率P不被剪枝,为了提高Tunnel的发现率,这个概率P值一般要大于Tunnel出现的估计概率值;另一方面,我们对链接和页面相关性判定的阈值进行动态的调整,当目前采集页面的准确率较高时,将阈值变低,而当目前采集页面的准确率较低时,将阈值变高,以使得能够有效的在查全率和查准率之间有一个有效的折衷。详细的算法在URL与主题的性关性判定那一章里介绍。
4.4.5 四个特性的关系
Web中的页面对于主题来说是杂乱的,但也存在一些规律。Hub特性说明了主题容易成团出现的现象,Linkage/Sibling Locality特性进一步对成团的特征有所扩展,站点主题特性说明了
主题团所在的位置(即大部分分布于站点的内部),而Tunnel特征说明了主题团在Web 上的分布并不稠密,并且由较少的链接和Tunnel连接。
4.5 相关性判别算法研究
基于主题的Web采集系统最大的特点就是在采集的同时要对待采集的URL进行剪枝、对已经采集的页面进行过滤,而做这些事情的核心问题就是页面、URL与主题的相关性判别问题,为此,我们在这里对于相关性判别算法进行了详细的研究,它主要分为以下四个大类:1).根据元数据的判定;2).根据扩展元数据的判定;3)根据链接分析的判定;4).根据页面内容语义判定。
4.5.1 根据元数据的判定(元数据演算) 4.5.1.1 元数据演算基本概念
元数据(Metadata)是指关于数据的数据,关于信息的信息 [Marchiori 1998]。人们在研究Web信息检索的早期就发现,利用元数据(Metadata)来增加HTML的结构特征对Web信息检索有帮助。因此,HTML 规范从2.0版本开始引入了这一Tag [HTML30 1995][HTML32 1997],用于为Web页面标注Metadata,一般形式为:。 例如:
< meta name =”description” content =”I love basketball game”> < meta name =”keyword” content =”basketball,game”>
…图4.1 HTML中的元信息标注
图4.1表示该页面的作者为Li Shengtao,关键词是basketball和game,而对本页面的描述是”I love basketball game”。这种元数据显然对本页面的主题有相当大的说明作用。
4.5.1.2 演算机制
元数据演算(又称为Meta演算)最初是海量信息、多媒体数据IR等中的技术, 今天日益成为Web研究中的重要一支,并成为基于主题的Web信息采集时剪枝的一个依据。Meta演算的核心思想是构造一个比原始被标引数据结构化程度更好、更便于计算的中间层次(元信息层次),在此基础上提供各种更加优化智能的服务。Meta演算以Web的异构性作为突破口,试图借助元信息引入结构性和有序性,从而提供更优质的检索服务。它的机制主要是标引和演算,两部分相互配合共同发挥作用。[冯国珍 2001]
4.5.1.3 标引
标引的目的是为演算提供比原始数据更加结构化的标引数据。标引工作的前提是制定一套标引标准,分为表现方式和标引工作方法两部分。表现方式包括标引数据的格式、属性、取值范围、标准值、存放规范等;标引方法体现为对标引属性和标准用值的含义解释,取值规定,和具体流程等。
标引工作的进行过程是为被标引对象即原始数据确定适用的标引属性并给出具体取值。这必须在理解的基础上进行,是理解归纳的工作。在Web这一应用环境中,标引的目的具体地包括消减自然语言的模糊性、歧意性,以及降维等,总之是在自然语言的基础上改善规范化和形式化程度。
4.5.1.4 演算
Metadata演算的目的是为了提供各种服务,因而随着需求的不同具体计算方法千差万别,但我们可以将Metadata演算的基本模式抽象为:以结构化程度更高的标引数据为对象,结合用户信息进行深度演算。Metadata演算一般不是工程或科学计算,而是智能领域的服务,如主动推送信息,信息自动分类,信息检索,主题制导采集等,强调对原始数据的归纳理解和人机交互的方式[冯国珍 2001]。
4.5.1.5 元数据的层次标准
标引的目的是构造比原始数据更加结构化、更加有序,便于计算的中间层,因此标引必须遵循一致标准。标准的制定是有关Meta演算的国际组织的一项重要工作内容。Meta标准可以分为以下三个层次:
l 元信息格式。即元信息书写格式。HTML和XML都支持在页面中直接标注元信息, XML对元信息的页面标注支持方式结合RDF标注定义。[[RDF10 1999]]
l 元信息标准取值。这定义的是有哪些属性的元信息,各属性的标准命名;每个属性有那些有效取值,每个取值用什么标准符号表示。
l 演算模型。即基于元信息这一中间层次向上提供服务的计算模型。
为Web页面制定元信息标准是一项十分困难的任务,因为Web所涉及的学科领域,语种,国家地域,文体都非常多,目前Meta标准在第一层次基本取得成功,HTML和XML页面中标注元信息的格式得到了各方的承认和执行。再向上,在第二层次,只就各种页面都共有的最基本属性的确定和命名制定了比较广泛接受的标准,即Doublin Core(简称DC)[DC],该标准定义了15个辅助Web IR的标准属性,如“author”, “abstract”, “date”等。进一步,虽然各学科专有属性的确定以及各属性有效范围的确定存在不少提案,但没有获得普遍接受形式的标准。至于Meta演算,由于应用于不同目的时相应采用不同的算法和技术,因此无法抽象出统一的演算模型[冯国珍 2001]。
4.5.1.6 基于主题的信息采集对Metadata 演算的利用
通过以上分析我们发现,Metadata演算的一套思路和方法,都是为了更加有效地支持Web检索而产生的,基于主题的信息采集的本质就是将搜索引擎技术里原来放在采集数据之后的一些检索技术应用到了采集数据的过程中,因此Metadata演算对于基于主题的信息采集时的URL过滤和页面过滤是有用的。事实上,已经有一些系统尝试使用Meta数据来进行URL预测。但是,元数据演算却有一个致命的病源:这种减轻Web上信息的弱结构性和异构性的方法,需要人们事先按照标准书写HTML页面,这增加了人们的页面写作代价,而人们在习惯了原来简洁的方式后,很难遵从元数据标准。同时,对于不同的领域,Ontology标准的制定也有所不同,实施起来也困难重重。因此,像许多搜索引擎甚至领域搜索引擎一样,它在主题采集领域内应用并不多。因此,在我们的系统中,并没有利用任何的元数据。当然,这并不说明此类方法没有前途,随着Web的新一代语言XML的发展,Meta演算也逐渐有了新的发展空间,但是,它需要人们对增加页面结构信息的渴望付诸行动,也就是共同遵守Metadata书写协议,这需要时间。
4.5.2 根据扩展元数据的判定 4.5.2.1 基本概念
尽管目前元数据演算并不理想,人们却发现利用其它HTML标记anchor等信息能够有效的指导检索和基于主题的信息采集。我们把这些标记信息统称为HTML扩展元数据,相应的计算叫做扩展元数据演算。 4.5.2.2 HTML扩展元数据 在HTML页面中,主要有4种超链接:1).Anchor() tags;2).Image() tags;3).Map and Area tags;4). Frame and iFrame tags。 Archor标记是最常用的,主要包括name,title,alt,on-mouse-over和href等几种属性。而Image标记则包括name,alt,src,dynsrc,lowsrc,onabort,onload和onerror等几种属性。对于Map和Area标记,它们的属性与Anchor标记基本相同。Frame和iFrame一般与Frameset一起使用,共同对网页进行分割。它们主要包括accesskey,align,application,bgcolor,frameborder,language,marginwidth,name,scrolling,src,style和title等属性。 如果把页面看作点,这些超链接看作边,则Web构成一个有向图。直觉上,这些链接所含的信息对页面的语义有重要的解释作用。因此,我们对主要的链接属性作了分析。 4.5.2.3 HTML扩展元数据类型在Web中的分布 我们研究了一个超过10000页的页面集,目的是了解在Web中,各个扩展元数据类型所占的比例。这个页面集合是通过天罗信息采集系统按照随机给定的种子页面集采集的。所有的页面共包含了超过90000个超链接,这些链接中即包含内部链接(此链接所指向的页面仍然在这个页面集中)又包含外部页面(此链接所指向的页面不在这个页面集中)。 分布 类型 HREF Anchor Text Surrounding Text Name 12% 19% 35% 52% 74% 78% 86% 89% 链接比例 页面比例