基于WEB的智能搜索应用技术探讨(4)

2012-08-28 21:58

词库分词被认为是理想的分词方式。其实质为用一个事先建立好的词库中的词的集合按照某种算法去匹配目标语句。当词库中存在这个语句中所包含的词汇时，就将其切分出来。毋庸质疑，词库分词的效果是比较理想的，但需要事先建立一个成熟的词库。词库的建立需要统计大量的内容，然后根据各种词语的出现频率、概率再筛选。最终决定放入词库的词语。切词后建立全文索引。来有效、快速地支持用户输入的中文关键词或中文语句的查询请求。下面介绍的中文分词工具ICTCLAS就是基于词库分词的中文分析系统。
中科院计算技术研究所在2002年研制了的基于多层隐马模型的汉语词法分析系统ICTCLAS（Institute of Computing Technology, Chinese Lexical Analysis System）系统。

（ICTCLAS系统工作示意图）
该系统具有中文分词、词性标注、未登录词语识别等功能，经专家组评侧，该系统词性标注处理速度接近32KB/S，分词正确率高达97.58%，中国人名字的识别召回率接近98%[4]。同时，中科院也公布了该系统的基于C++语言的开发接口。使得中文搜索引擎的开发获得了非常有效的中文语句分解工具。
研究智能检索技术的目的是为了解决丰富的信息资源和低效的信息获取手段之间的矛盾，目标是从关键词的智能化选择、检索范围的确定到检索结果的精炼逐一求精，尽可能提高WEB搜索的查全率和查准率。对于提高网络信息资源利用率、增强网络建设的经济效益和社会效益有着非常积极的意义，正因于此，基于WEB的主题搜索技术的发展和演进，已成为有效开启互联网络知识宝库的关键之匙。
参考文献:
[1] 崔维梅.范荣鹏.搜索引擎的技术现状和热点[J].青年记者2005,（15）:116～117
[2] 刘平冰电子电子科技大学硕士学位论文[A]. 2005（5）:7～9
[3] Yatin Chawathe,Eric A Brewer.System support for saclabel and fault tolerant Internet
service.Distributed Systems Engineering [M] 2001.7
[4] 杨德仁.顾君忠一种知识型网络爬虫的设计与实现[J].华东师范大学学报 2006,（3）:93～94
[5] 彭曙蓉.王耀南针对小文本的WEB数据挖掘技术及其应用[J].微计算机信息 2006,（22）:73～75
[6] 李刚.宋伟.邱哲 Ajax+Lucece 构建搜索引擎 [M].2006.4

共4页:

基于WEB的智能搜索应用技术探讨(4).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档