基于模糊集的信息检索方法(3)

2020-12-22 08:29

第2期

汪小珍等：基于模糊集的信息检索方法

3 9

({(Pd、 2 t e ld中检索词 f权重均大于等于 Q中 ) i

为 0被检索出来的可能性为 0即不被检索出来。,,由此及上例可知，其检索出来的结果是符合实际给出的查询需要的。 33与布尔模型的比较 .比较结果分析：

检索词权重 )

Q是完全包含于文档集 d、 2此时， ld的，时从 d到 d,索词 t的权重增大或减小 (持 1 2检 i保Q￡ ( )以 t )但是相对于查询 Q, (i, )其包含度是不变的，始终为 1。 ( ) S Q, 3、 ( d ) 2从 ( d ) S Q, 4可知：当查询 Q中的

由表 3可知，基于布尔模型的检索，文档与查询的

所有检索词 t均在 d、 4中，且满足 o t f 3d并 ( )>d .、

匹配过于严格 -从而导致其检索的查全率不够高， 2, 2 J且检索词的重要程度无法区分，检索结果无法进行排序。

(i( d, 4 t即 sd中检索词 t权重均小于 Q中检索 ) i

词权重),时由公式计算其包含度得出， d到 d,从随着检索词 t的权重不断增大 (持 o )>保 (,、

也正是其严格的匹配条件，使得查准率较高，检索出的文档都是有用的文档。而基于文中方法的检索中，引进了检索词的重要性，能够区分检索词的重要程从而度，并且根据它对检索结构进行排序，其查全率比布尔检索要高，且检索出来的文档也都是有用的文档。表 3比较结果查询结果布尔模受 d d2、、 j ds d、

d t )包含度也是不断增大的。。i, () ( ) S Q, 5、 ( d ) 3从 ( d ) S Q, 6可知：当查询 Q中的

检索词有的在 d、 6有的不在 d、 6 5d中， 5d中时，并且

满足 Q z P 6f ( d, ( ) d d 即 sd中检索词权重均 s ),( 6大于等于 Q中检索词权重)从 d到 d可知：时，同时包含在查询 Q、 5d的检索词在 d、 6不管权重 d、6 5d中，是增大还是减小(持口 )保 (s.

查全率 4 99 9

查准率 4 49 9

d t 6 i

( ), )但是相对

基于模糊集的 d— d一幽一 d一幽 l 2 4方法一 d一 d一 d一幽 6 7 8

于查询 Q,其包含度是不变的；时若减小查询 Q中此不包含在 d、 6 5d中的检索词的权重，其包含度就会增大。

4结束语模糊集理论作为处理不确定数据的有效方法，在数据挖掘领域发挥了重要作用，具有很大的应用前景。文中基于模糊集合间的包含度定理，出了一种新的提信息检索方法。文档的信息检索过程实际上涉

及文档集的表示、用户查询的表示、相似性匹配及其排序三部分…。文中通过以下方法实现了文档的信息检索过程：首先通过用户输入检索词对每个检索词的兴趣度或权重，从而得出用户查询的表示；再通过对文档集抽

( ) S Q, 7、 ( d )S( d ) 4从 ( d ) S Q, 8、 Q, 9可知：当查询 Q中的检索词 f有的在d、 8d中， f 7d、 9有的不在 d、 7 d, 9中时，且满足 Q )> sd并 ( , d(i( Pd7 d 9t e )、s,

d、9 8d中检索词权重均小于Q中检索词权重),时从d到 d可知： 7 9同时包含在查询 Q、 7d的检索词在 d、9

d, 9随着权重的增大( Td中，保持 (f>t、 (i ) t ) a以 t, d ),

包含度也是增加的； d到 d可知，增加包含在从 7 8若 d、8 7d中但不包含在查询 Q中的检索词的权重，其包含度不变化；此时若减小查询 Q中不包含在d、 8d 7d、 9中的检索词的权重，其包含度就会增大。( ) S Q, l、 ( d 1可知： 5从 ( d o S Q, 1 ) )查询 Q中所有检索词均不在 d 0d l l、 l中时，尽管改变 d0d l l l中检索、词的权重，其包含度始终是 0。

取若干标引词，利用其在文档集中出现的频率作为其权重，从而得到文档集的表示；相似性匹配是文中的研

究重点，文中采取的是基于主导隶属度函数关系，只要查询中的检索词隶属度小于文档中的检索词隶属度，那么查询检索词集就包含于文档集，通过这一点就能

由上述结论可知：当文档中的检索词始终包含查询中的检索词，并且检索词在文档中的权重比较大，么该文档被检索那

找出包含某一查询检索词集的所有文档，这就是文档和查询的匹配过程。并通过该包含度大小对检索匹配

结果进行排序输出。文中给出了实例，并在实例中给出了符合多种情况的文档集，针对每种情况给了说明，并与布尔检索模型进行了比较，分析结果表明该检索

出来的可能性就增大，当文档检索词权重增加到一定程度( ( (f)其包含度就保持为 l即始终 Q t )= t, ),都是包含查询的。即包含被检索出来的概率是 1当文；档中的某些检索词包含查询中的某些检索词，同理，当这些检索词在文档中的权重较大

时，被检索出来的可能性就增大，当文档检索词权重增加到一定程度，包含度就不再增加；当文档中的所有检索词均不在查询中，即表示该文档与该查询无关，此时该文档的包含度就

方法是一种有效可行的方法。参考文献：[]黄治国， 1王加阳.基于粗糙集的信息检索研究[]长沙： D.中南大学，07 20 . [] D s ut P R uhStadIfmao ervl]/ 2 a—G p . og e o t nR tea C/ a sn n r i i[

(下转第 4 3页)

共4页:

基于模糊集的信息检索方法(3).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档