基于WEB的智能搜索应用技术探讨(4)

2012-08-28 21:58


词库分词被认为是理想的分词方式。其实质为用一个事先建立好的词库中的词的集合按照某种算法去匹配目标语句。当词库中存在这个语句中所包含的词汇时,就将其切分出来。毋庸质疑,词库分词的效果是比较理想的,但需要事先建立一个成熟的词库。词库的建立需要统计大量的内容,然后根据各种词语的出现频率、概率再筛选。最终决定放入词库的词语。切词后建立全文索引。来有效、快速地支持用户输入的中文关键词或中文语句的查询请求。下面介绍的中文分词工具ICTCLAS就是基于词库分词的中文分析系统。
  中科院计算技术研究所在2002年研制了的基于多层隐马模型的汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)系统。

(ICTCLAS系统工作示意图)
该系统具有中文分词、词性标注、未登录词语识别等功能,经专家组评侧,该系统词性标注处理速度接近32KB/S,分词正确率高达97.58%,中国人名字的识别召回率接近98%[4]。同时,中科院也公布了该系统的基于C++语言的开发接口。使得中文搜索引擎的开发获得了非常有效的中文语句分解工具。
研究智能检索技术的目的是为了解决丰富的信息资源和低效的信息获取手段之间的矛盾,目标是从关键词的智能化选择、检索范围的确定到检索结果的精炼逐一求精,尽可能提高WEB搜索的查全率和查准率。对于提高网络信息资源利用率、增强网络建设的经济效益和社会效益有着非常积极的意义,正因于此,基于WEB的主题搜索技术的发展和演进,已成为有效开启互联网络知识宝库的关键之匙。
参考文献:
[1] 崔维梅.范荣鹏.搜索引擎的技术现状和热点[J].青年记者2005,(15):116~117
[2] 刘平冰 电子电子科技大学硕士学位论文[A]. 2005(5):7~9
[3] Yatin Chawathe,Eric A Brewer.System support for saclabel and fault tolerant Internet
service.Distributed Systems Engineering [M] 2001.7
[4] 杨德仁.顾君忠 一种知识型网络爬虫的设计与实现[J].华东师范大学学报 2006,(3):93~94
[5] 彭曙蓉.王耀南 针对小文本的WEB数据挖掘技术及其应用[J].微计算机信息 2006,(22):73~75
[6] 李刚.宋伟.邱哲 Ajax+Lucece 构建搜索引擎 [M].2006.4


基于WEB的智能搜索应用技术探讨(4).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:论应用CAD技术的现代机械设计

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: