新加坡等华语地区以及北美,欧洲的部分站点。百度搜索引擎拥有目前世界上最大的中文信息库,总量达到6000万页以上,并且还在以每天几十万页的速度快速增长。由于后台应用了高效的信息索引算法,大大提高了检索时的响应速度和承受大访问量时的稳定性,百度搜索引擎对超过6000万网页检索一次的本地平均响应时间小于0.5秒[2]。
它主要具有以下的特点和功能:(1)基于字词结合的信息处理方式;(2)支持主流的中文编码标准;(3)智能相关度算法;
(4)检索结果能标示丰富的网页属性(如标题、网址、时间、大小、编码、摘要等),并突出用户的查询串,便于用户判断是否阅读原文;
(5)百度搜索支持二次检索(又称渐进检索或逼进检索);
(6)相关检索词智能推荐技术;
(7)运用多线程技术、高效的搜索算法、稳定的
2搜索引擎分类
搜索引擎按其工作方式主要可分为三种,分别是:全文搜索引擎、目录索引类搜索引擎和元搜索引擎。
2.1全文搜索引擎
全文搜索引擎是名副其实的搜索引擎,国外具代
表性的有Google、Fast/AllTheWeb、AltaVista、Inkto-
mi、Teoma、WiseNuti等,国内著名的有百度。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。
从搜索结果来源的角度,全文搜索引擎又可细分为两种:一种是拥有自己的检索程序,俗称”蜘蛛”程序或”机器人”程序,并自建网页数据库,搜索结果直接从自身的数据库中调用,如上面提到的引擎;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎。
2.2目录索引
目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词查询,仅靠分类目录也可找到需要的信息。目录索引中最具代表性的莫过于大名鼎鼎的雅虎(Yahoo),其他著名的还有OpenDirectoryProject,LookSmart,About等。国内的搜狐、新浪、网易搜索也都属于这一类。
UNIX平台和本地化的服务器,保证了最快的响应速度;
(8)可以提供1周,2周,4周等多种服务方式,可以在7天之内完成网页的更新,是目前更新时间最快,数据量最大的中文搜索引擎;
(9)检索结果输出支持内容类聚、网站类聚、内容类聚+网站类聚等多种方式;
(10)智能性,可扩展的搜索技术保证最快最多的收集互联网信息;
(11)分布式结构,精心设计的优化算法,容错设计保证系统在大访问量下的高可用性、高扩展性,高性能和高稳定性;
(12)高可配置性使得搜索服务能够满足不同用户的需求;
(13)先进的网页动态摘要显示技术;(14)独有百度快照;
(15)支持多种高级检索语法,使用户查询效率更高,结果更准。
2.3元搜索引擎
元搜索引擎在接受用户查询请求时,同时在其他
多个引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等。中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如
Dogpile;有的则按自定的规则将结果重新排列组合,如Vivisimo。
除上述三大类引擎外,还有集合式搜索引擎、门户搜索引擎、免费链接列表等几种非主流形式。
3
3.1
几种主要搜索引擎的特点
百度搜索引擎的特点
百度搜索引擎使用了高性能的”网络蜘蛛”程序
3.2Google搜索引擎特点
Google搜索引擎是一个利用蜘蛛程序自动地在互联网中搜集和发现信息,并由索引器为搜集到的信息建立索引,从而为用户提供面向网页的全文检索服务的互联网信息查询系统[3]。
它主要具有以下的特点和功能:
(1)采用了先进的网页级别(PageRankTM)技术;
自动地在互联网中搜索信息,可定制,高扩展性的调度算法使得搜索器能在极短的时间内收集到最大数量的互联网信息,百度在中国各地和美国均设有服务器,搜索范围涵盖了中国大陆、香港、台湾、澳门及