2、学科信息门户的小世界现象分析
学科信息门户(Subject Based Information Gateways,简称SBIGs)通过对某一学科领域的资源进行收集、分析、鉴别、标引和组织,实现学科网络资源内容的高度组织集成,为用户提供访问某一学科资源与服务的单一入口和统一协作的学术交流环境[8]。作为互联网的一部分,它自然具有了小世界特征,不仅如此,由于学科知识网络、用户信息行为及自身建设的一些特点,学科信息门户的小世界现象表现更为明显。
首先,学科知识网络中存在小世界现象。数学界的“艾尔德数”最早反映了数学领域合作网络的小世界现象,此后多项研究表明,在生物医学、计算机科学、物理学、生物学、图书情报与文献学等领域的研究者合作网络中也都存在小世界现象[9-10]。文本层面的小世界现象也有发现,石晶等人证明了由文本形成的词汇共现图呈现短路径、高聚集度的特性[11]。从专类网站的链接分析来看,Lada Adamic分别分析了64 826个web网站和11 000个.edu网站,发现两者的集聚程度分别为0.081和0.156,特征路径长度分别为4.228和4.062[12],说明后者具有更高的集聚程度和更短的特征路径长度,这与后者主题集中性更强有关。当然,由于同一学科的地区发展差异以及不同学科的发展差异,小世界现象也存在差异,如同是“艾尔德数”,欧美作者就比亚非等地作者的数值普遍偏小。
其次,从用户信息行为方面来看,也显示出可获取信息很多,但实际获取信息有限的小世界现象。从获取数量上看,Spink在
1997-2002年对Excite搜索引擎的Web日志统计发现,大多数用户只查看返回结果的前十条,每页10个记录的话,平均查看结果的数量是2.35页[13]。从获取过程来看,用户当超出了一定页数仍对结果不满意,则选择其他方式途径或放弃。即使是较令人满意的检索,也常表现出“适可而止”的行为,通常不甚追求结果的“全面无遗漏”[14]。这就意味着个体用户会在自身可承受的知识负荷与信息获取成本的前提下,主动的在小范围内获取信息,因而用户信息获取的集聚程度很高。另外,论文引用体现着用户对信息的主动利用,研究发现其中同样存在着小世界现象[15]。
第三,学科信息门户的建设特点有利于形成小世界现象。从资源选择的角度来看,学科信息门户中的资源都是围绕某一学科主题进行集中的,相互之间具有天然的关联性,被链接的信息之间往往又互相链接;从信息组织的角度来看,分类法和主题法提供了学科知识之间有序和多重链接的基础;从用户角度来看,学科信息门户主要针对专业用户,他们希望在信息门户中获得一站式的信息服务,因此建立多个信息点之间的链接必不可少;从技术的角度来看,超链接技术既实现了信息集成和有序组织的功能,也定义了超文本的非线性结构,可以快速实现不同网页和信息点之间的切换,提供信息获取的捷径。
综上所述,学科信息门户的小世界现象实质是学科信息、用户需求和知识组织共同作用的结果,超链接则是重要的实现手段。链接具有数量、结构、集聚度、距离、可达性等多维属性,考察链接状况可以获取整体网络的发展状况。
3、学科信息门户的链接现状分析
我国的学科信息门户建设大约始于1999年上海图书馆的“数字图书馆资源总汇表”和2000年CALLS组织的学科导航库[16]。目前已有国家科学数字图书馆(CSDL)、中国科技图书文献中心(NSTL)、中国林业科学研究院、武汉大学、武汉理工大学等多个主体参与,建设的学科信息门户涉及生命科学、化学、数学物理、资源环境、图书情报、林业、交通运通等多个领域。其中,CSDL自2001年启动以来先后建立了5个学科信息门户,建设比较规范,在国内学科信息门户中具有很强的代表性。因此,本文重点对这5个网站的链接情况进行调查分析。运用链接获取工具SocSciBot 3分别爬取5个网站,但因生命科学学科信息门户无法爬取,最终仅获得了4个学科信息门户的链接数据。随后,采用社会网络分析工具Pajek和Ucinet 6进行测量,内容包括网络密度、节点数量、链接数量、网络集聚度、特征路径长度等小世界度量常用指标(见表1)。
分析发现,这4个学科信息门户的节点数量和链接数量都较多,说明门户纳入的资源数量较多,学科资源较丰富。网络的特征路径长度都是较小的常数,说明门户确实存在小世界现象。但网络中链接的关联性并不乐观。网络集聚度的数值位于0和1之间,值越大说明节点之间越紧密,Ucinet提供了两种集聚度[17]:一种是基于局部密度的集聚度,有3个门户的数值都偏小,说明网络链接结构是较疏松的;另一种是基于传递性的加权集聚度,发现在第一种计算中值较大的图书情报学科信息门户此时也变得非常小,说明它虽然局部密度高,但可传递性差。可达网络密度等于关联度,各个点之间越相关,密度就越大,可以看出这一数值也是非常之小的,
与之相对的是在网站中还存在大量不能互相抵达的节点对,其数量级甚至到亿。不可达节点对的存在有一定的合理性,但如此巨大的数量说明信息门户在关联链接和深层链接上的表现较弱。
点度中心度反映了一个节点与其他节点的直接联系,各门户网站的点入度和出度均值相同,但从标准偏差来看情况并不相同,出度的标准偏差值较小,说明点出度差异较小,而入度的标准偏差值较大,说明各节点的入度差异明显。从详细列表中能发现更多问题。在点入度列表中发现网站首页入度很高,这符合网站一般情形,但多数网页的入度很低,说明指向各节点的链接少,如果一旦去掉进入链接,那么多数页面就无法获取。