基于WEB的智能搜索应用技术探讨(3)

2012-08-28 21:58

cos ( α,β)= =
3．2 基于知识陈述句的内容相关度的计算模型
由于网页信息大都是说明或介绍性的文档，因此可以运用基于陈述句的语法分解来建立相关度权重系数的配比模型。陈述句由Subject主语、Verb谓语、Object宾语组成，显然如果相关关键词语出现在主语中的频率比较高，则相关权重系数WS也应大于其出现在谓语和宾语的权重系数WV、WO。另考虑陈述句在整个文挡中出现的位置设置位置权重系数WL，显然在标题<title>出现的位置权重系数要比在〈h1〉…..<h6>甚至是<p>中大，位置权重系数应从标题到结尾呈递减趋势[3]。则某陈述语句相关某关键词语总的知识权重为：
K=（WS + WV + WO ）WL
则该陈述知识所在页面P的总的页面知识相关性为： [4]（N为页面某关键词语出现的次数。）
3．3 基于距离测度的近似网页聚类
在3.1所述的向量空间模型中，文本文件由词条序列（t1,t2,t3,….,tn）构成，现在
对每一个词条赋予权重W I ,从而文本可用词条特征向量（W1,W2,W3,….,Wn）来表示。假如存在一个目标文件I和一个未知文件J，那么这两个文件的近似程度就可通过对应的词条特征向量的夹角来度量。夹角度的大小表明两文件的近似程度。因此有公式：
SIM=
该计算公式求得的近似度值SIM能同时兼顾向量夹角和长度两个因素，当两个网页内容迥异时，向量Wi与Wj 垂直，SIM值为1。同理，当两个网页内容相同时，Wi与Wj 重合SIM值为0，内容部分相关的两个网页SIM值∈ (1,0)[5] 综上所述，SIM值可以成为判断两个网页是否为内容雷同或为不相关的标准。
四、全文索引系统的建立
笔者认为，应用JAVA JDK开发智能WEB检索系统，特别是应用基于JAVA的 Lucene软件包建立基于内容的全文索引，以及检索系统的构建是比较理想的选择。JAVA语言具有稳定性、鲁棒性、安全性、类库丰富和一次编译，到处运行的优点，而Lucene是Apache软件基金会Jakarta项目组的一个子项目，是一个开放源代码的全文检索引擎工具包，由资深检索专家Doug Cutting编写。它的开发目的是为了方便地在目标系统中实现全文检索功能，
Lucene可以方便的嵌入到各种应用中实现针对应用的全文索引/检索功能。已经有很多 Java 项目都使用了 Lucene 作为其后台的全文索引引擎，比较著名的有：WEB 论坛系统 Eyebrows；Eclipse:基于 Java 的开放开发平台，帮助部分的全文索引使用了 Lucene。
Lucene 的 API 接口设计的比较通用，输入输出结构都很像数据库的表==>记录==>字段，所以很多传统的应用的文件、数据库等都可以比较方便的映射到 Lucene的存储结构/接口中。总体上看：可以先把 Lucene 当成一个支持全文索引的数据库系统[4]。Lucene 最核心的特征是通过特殊的索引结构实现了传统数据库不擅长的全文索引机制，并提供了扩展接口，以方便针对不同应用的定制。Lucene 在索引更新过程中不是维护一个索引文件，而是在扩展索引的时候不断创建新的索引文件，然后定期的把这些新的小索引文件合并到原先的大索引中，这样在不影响检索的效率的前提下，提高了索引的效率[6]。
lucene 软件包的检索过程分为4个步骤，即文本信息获取、构建DOCUMENT、分析以及建立索引四部分。LUCENE的逻辑结构如图所示：

在整个检索过程中，语言分析器，查询分析器，甚至搜索器都提供了抽象的接口，都可以根据需要进行定制。但是，LUCENE的提供的分析器ANALYZER对中文语句的支持度不够理想，因此，有必要选择一个良好的中文自然语言、语句分析（切词）工具。和Lucene整合。来达成对中文查询语句的理解。
由于对中文信息语句进行分析处理，要远比英文复杂（英文单词之间的空格，成为天然的分词依据），而中文查询语句的科学分析（切分词语）、关键词语提取又是构建智能WEB搜索系统不可逾越的步骤。因此，笔者推荐使用基于词库匹配形式的中文分词工具。

共4页:

基于WEB的智能搜索应用技术探讨(3).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档