基于模糊集的信息检索方法(3)

2020-12-22 08:29

第2期

汪小珍等:基于模糊集的信息检索方法

3 9

d

.

({(Pd、 2 t e ld中检索词 f权重均大于等于 Q中 ) i

为 0被检索出来的可能性为 0即不被检索出来。,,由此及上例可知,其检索出来的结果是符合实际给出的查询需要的。 33与布尔模型的比较 .比较结果分析:

检索词权重 )

Q是完全包含于文档集 d、 2此时, ld的,时从 d到 d,索词 t的权重增大或减小 (持 1 2检 i保Q£ ( )以 t )但是相对于查询 Q, (i, )其包含度是不变的,始终为 1。 ( ) S Q, 3、 ( d ) 2从 ( d ) S Q, 4可知:当查询 Q中的

由表 3可知,基于布尔模型的检索,文档与查询的

所有检索词 t均在 d、 4中,且满足 o t f 3d并 ( )>d .、

匹配过于严格 -从而导致其检索的查全率不够高, 2, 2 J且检索词的重要程度无法区分,检索结果无法进行排序。

(i( d, 4 t即 sd中检索词 t权重均小于 Q中检索 ) i

词权重),时由公式计算其包含度得出, d到 d,从 随着检索词 t的权重不断增大 (持 o )>保 (,、

也正是其严格的匹配条件,使得查准率较高,检索出的文档都是有用的文档。而基于文中方法的检索中, 引进了检索词的重要性,能够区分检索词的重要程从而度,并且根据它对检索结构进行排序,其查全率比布尔检索要高,且检索出来的文档也都是有用的文档。表 3比较结果查询结果布尔模受 d d2、、 j ds d、

d t )包含度也是不断增大的。。i, () ( ) S Q, 5、 ( d ) 3从 ( d ) S Q, 6可知:当查询 Q中的

检索词有的在 d、 6有的不在 d、 6 5d中, 5d中时,并且

满足 Q z P 6f ( d, ( ) d d 即 sd中检索词权重均 s ),( 6大于等于 Q中检索词权重)从 d到 d可知:时, 同时包含在查询 Q、 5d的检索词在 d、 6不管权重 d、6 5d中,是增大还是减小(持口 )保 (s.

查全率 4 99 9

查准率 4 49 9

d t 6 i

( ), )但是相对

基于模糊集的 d— d一幽一 d一幽 l 2 4方法一 d一 d一 d一幽 6 7 8

于查询 Q,其包含度是不变的;时若减小查询 Q中此不包含在 d、 6 5d中的检索词的权重,其包含度就会增大。

4结束语模糊集理论作为处理不确定数据的有效方法,在数据挖掘领域发挥了重要作用,具有很大的应用前景。 文中基于模糊集合间的包含度定理,出了一种新的提信息检索方法。文档的信息检索过程实际上涉

及文档集的表示、用户查询的表示、相似性匹配及其排序三部分…。文中通过以下方法实现了文档的信息检索过程:首先通过用户输入检索词对每个检索词的兴趣度或权重,从而得出用户查询的表示;再通过对文档集抽

( ) S Q, 7、 ( d )S( d ) 4从 ( d ) S Q, 8、 Q, 9可知:当查询 Q中的检索词 f有的在d、 8d中, f 7d、 9有的不在 d、 7 d, 9中时,且满足 Q )> sd并 ( , d(i( Pd7 d 9t e )、s,

d、9 8d中检索词权重均小于Q中检索词权重),时从d到 d可知: 7 9同时包含在查询 Q、 7d的检索词在 d、9

d, 9随着权重的增大( Td中,保持 (f>t、 (i ) t ) a以 t, d ),

包含度也是增加的; d到 d可知,增加包含在从 7 8若 d、8 7d中但不包含在查询 Q中的检索词的权重,其包含度不变化;此时若减小查询 Q中不包含在d、 8d 7d、 9中的检索词的权重,其包含度就会增大。( ) S Q, l、 ( d 1可知: 5从 ( d o S Q, 1 ) )查询 Q中所有检索词均不在 d 0d l l、 l中时,尽管改变 d0d l l l中检索、词的权重,其包含度始终是 0。

取若干标引词,利用其在文档集中出现的频率作为其权重,从而得到文档集的表示;相似性匹配是文中的研

究重点,文中采取的是基于主导隶属度函数关系,只要查询中的检索词隶属度小于文档中的检索词隶属度, 那么查询检索词集就包含于文档集,通过这一点就能

由上述结论可知: 当文档中的检索词始终包含查询中的检索词,并且检索词在文档中的权重比较大,么该文档被检索那

找出包含某一查询检索词集的所有文档,这就是文档和查询的匹配过程。并通过该包含度大小对检索匹配

结果进行排序输出。文中给出了实例,并在实例中给出了符合多种情况的文档集,针对每种情况给了说明,并与布尔检索模型进行了比较,分析结果表明该检索

出来的可能性就增大,当文档检索词权重增加到一定程度( ( (f)其包含度就保持为 l即始终 Q t )= t, ),都是包含查询的。即包含被检索出来的概率是 1当文;档中的某些检索词包含查询中的某些检索词,同理,当这些检索词在文档中的权重较大

时,被检索出来的可能性就增大,当文档检索词权重增加到一定程度,包含度就不再增加;当文档中的所有检索词均不在查询中,即表示该文档与该查询无关,此时该文档的包含度就

方法是一种有效可行的方法。参考文献:[]黄治国, 1王加阳.基于粗糙集的信息检索研究[]长沙: D.中南大学,07 20 . [] D s ut P R uhStadIfmao ervl]/ 2 a—G p . og e o t nR tea C/ a sn n r i i[

(下转第 4 3页)


基于模糊集的信息检索方法(3).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:移动运营商集采流程

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: