再者,在搜索引擎的智能化研究方面,通过前端抓取网页时采用多个CRAWLER并行协作,能够自动识别网页的内容是否满足作为目标的条件,自动进行网页内容降噪和无效网页剔除;在后端制定索引时采用更先进的网页权值算法,制定全文索引。并且引进自然语言理解技术,可以支持基于中文自然语言、语句的查询请求。目前,国内的主要研究着手点在前端主要有基于WEB本体的搜索,元搜索技术的改进和多AGENT协作的智能搜索思想。在后端主要是对已经抓取的网页建立全中文索引(如通过LUCENE JAVA软件包)然后在交互中通过用户输入的中文语句的自然切词来达成查询的智能化。
1.3 当前其他搜索引擎技术介绍
元搜索引擎技术也日益得到人们的重视。元搜索引擎是一种集成化搜索引擎,它是多个独立型搜索引擎的集合体,没有自己的数据库,是通过一个统一的用户界面帮助用户在多个搜索引擎中选择和利用,甚至是同时利用多个搜索引擎实现检索操作。元搜索引擎有代表性的是:国外的 Profusion、Mamma 以及国内的万纬搜索等,而离线式桌面搜索引擎 Webseeker、Echosearch、飓风搜索等也属于元搜索引擎,与上述不同的是,这些搜索引擎需在本机安装客户端方可使用,其中功能最完善的当属Webseeker,安装后你可以任意添加删除其中的搜索引擎。元搜索引擎技术是一种基于多引擎协同搜索的搜索引擎技术。因而,它的研究侧重点应主要在于解决好以下三个问题:用户查询需求的分解、查询的派发和返回结果的过滤(消重)、综合(相关度排序)其总的发展趋势是达成搜索操作的个性化。
再者,还有能支持多信息类型的搜索引擎和基于对等模式的检索思想的出现,前者着眼于网络上不仅有文本类型的信息,而且还有音频文件、视频文件、图像文件等信息类型。将来,实用的搜索引擎必将具备对多种信息类型文件的检索功能;后者是基于P2P(Peeto Peer)J技术发展起来的,因为相距万里的用户可以通过P2P 共享硬盘上的文件、目录甚至整个硬盘。如果把这一理念具体运用到搜索引擎技术上来:P2P将使户能够深度搜索文档,而且这种搜索无须通过Web服务器,可以不受信息文档格式和宿主设备的限制,因此可达到传统目录式搜索引擎无可比拟的深度[1]。
二、智能搜索引擎的系统结构组成和工作流程
2.1 智能搜索引擎系统的系统结构组成
智能搜索引擎系统主要由6部分组成:网页内容搜索器CRWALER、初始页面内容存储器 REPOSITORY、主索引器INDEXER、有序内容存储桶BARREL、检索器SERACHER以及人机交互界面 UI(UserInterface)[2 ]。
(智能搜索引擎系统的主要系统结构图)
(1)网页内容搜索器CRWALER:实际是一组分布式自动运行的网络爬虫程序,负责从浩瀚的INTERNET网页中抓取遍历到的网页信息。并将内容压缩(实际为把网页文件分解,抽取文本、图象、多媒体实际内容,去除控制标签)后存入初始页面存储器。
(2)初始页面内容存储器 REPOSITORY:存储内容搜索器抓取到的网页内容。
(3)主索引器INDEXER:是整个系统的核心部分,它将页面存储器中的网页内容分解,按照特定的用户词典把网页进行归类、主关键词语索引甚至是全文索引,排序后然后存入存储桶中。
(4)存储桶BARREL:存储经过索引器索引、排序的网页内容信息。供检索器调用。
(5)检索器SEARCHER:根据UI输入的查询语句和关键词语以及它们间的逻辑关系在存储桶中查找相关内容,并按照特定的网页相关度计算已查得各网页的信息内容相关度,以此排序后向UI输出。
(6)人机交互界面UI:提供用户输入查询词语的界面,并提供词语间逻辑关系(.and . .or . not .)或关键词语限制条件(如时间、大小、类型等信息文件属性)的选项。
三、智能搜索技术的相关重要思想与应用算法介绍
3.1内容相关度的向量空间模型算法
多数系统都是采用向量空间模型算法,把查询关键词的个数N作为向量空间的维数,衡量每一维的权值Wi(i=1,2,3.....n),设α=(α1, α2,…. αn) , αi=wi 然后统计关键词在页面内出现的频率,并求出频率比,以出现频率最高的关键词作为基准,设X =1表示,通过频率比,依次求出其他关键词频率 Xi,则该页面对应向量的每一维分量为XiWi 。则总的页面主题相关度为 β=(x1w1,x2w2,…..xnwn)i= 1,2,…..,n 取页面主题相关度用两个向量夹角的余弦表示[3]: