3 8
计算机技术与发展
第2 0卷
用 A ) (表示 )表示元素隶属于模糊集合 A的程度。一般地,如果论域 U是有限集合或可数集合,那么一
权重或兴趣度,而得到用户查询 Q的表示形式。从 第二步: D中所有d( i对 1 )文档抽取若干
个模糊集A可以表示为:=: CA x)。 A 3 (f i/[定义 2主导隶属度函数关系: B当且仅当 A c () z (对于所有 z )。
标引词,用这些标引词的集合来代表原文档,并将标引词在文档中出现的频率作为其权重,从而得到所有文档的表示形式I。 s J第三步:初始化空集合 S用于存
放查询结果。
定义 3根据定义 2考虑到集合 A属于F( B的, 2)不同程度,通过抽象隶属度函数来定义包含度:S A, ( B)=D ge( B): F ([ er A c e ( A)] ) 定义 4超集: A不包含于B的程度,即S P R】} 0 A, )= 1一 S A, )= U ES I _ C B ( B m ̄0/ ( ) ( ) a (,A X一 2 ) M( A)
第四步:根据公式计算 Q和d( i 1≤ )的包含度 S Q,。 ( d)
第五步:如果 S Q,为 0则去除该文档; ( d),如果不为 0则比较文档集的包含度 S Q,,, ( d)按从大到小的顺序排列这些文档集,并放入 S 。第六步:出 S 输。
其中M( ) A=∑ ()由 ,此可知: A包含予B 3实例分析 t =1
的包含度是:
31实 .
例
∑ mx, () () aO z一 B ) ( zS A, ( B)=——— 一
假设用户查询 Q={ ./10 3 t,./s 0 5 t, ./20 2 t,0 5 t}文档集如表 1 ./9,所示。 表 l文档集
2基于模糊集的信息检索2 1基本思想 .1 d 2
t 1
f 2
f 3
“
妇
%
t 7
, 8
幻
0 6 O. . 5 0 7 0. . 6
O 0
O 0
O7 . O8 .
O 0
0 O
O 0
O. 7 0. 9
文档的信息检索过程实际上涉及文档集的表示、用户查询的表示、相似性匹配及其排序三部分[。首川先,文中用户查询和文档集的表示均采用下列方式表示:={ A妨 ( i,i U}对于文档集中的 z为 z) X∈,
d 3d 4
0 4 O. . 1O 3 O. . I
0.O
O0
O1 .01 .
OO
OO
00
O. 3O. 1
5 d6d7
O 6 O. . 5 0 5 O. . 403 O 1 . .
O 00
0. 6 O. 20. 6
0 O0
0. 3 O. 10. 3
0 O0
0 OO
0 00
从检索词论域【中提取出来的能够代表整个文档意,,思的检索词集, ( i为提取出来的检索词属于该集 S) C合的隶属度,可以理解为每个检索词墨的权重。对于用户查询中的
的解释同文档集中的 X,中的 其≈)同样可以理解为权重,或者是该检索词的兴趣 A(
03 0 1 . .d9 dl 0 d1 1 02 . 0. 1 0 0 0 O
00 O1 . 0
0. 90. 6 0 O. 5
0O O 0
O. 5O. 3 0. 4 O. 2
OO
00
00 O O
0 5 O. . 2 O 6 O. . 3
度。其次,于上述给出的主导隶属度函数关系可知,基只要查询中的检索词隶属度小于文档中的检索词隶属
表 l出的文档集中的文档包括了所有的情况:给
有完全包含查询 Q的,也有部分包含 Q的,也有不包含 Q的。计算结果如表 2所示。 表 2查询结果 S( d ) dI Q, Q l
度,那么查询检索词集就包含于文档集,通过这一点就能找出包含某一查询检索词集的所有文档。这就是文档和查询的匹配。也就是说当给出了某查询检索词集, 通过包含度定理计算其包含于文档的程度,根据这个包含度的大小来对检索出来的文档进行排序。 2 2基本算法 .
2l
d 391 5
d 461 5
ds8l 5
d 681 5
S Q, d ( d) 1Q 41 5
84l 5
d 9ll 5
d0 lO
dI lO
由上述基于包含度的信息检索,以得到其基本可算法如下:
输入:用户查询条件 Q文档集 D: f 1d, 3…, d, 2d, d} 输出:按照用户查询的权重排序的查询结果文档集 S。6—
由表 2得到文档序列: 1 d一 d一 d一 5 d一 2 3 4一7— 8—' . 9。
3 2结果分析 .
( ) S Q, 1、 ( d )可知: 1从 ( d ) S Q, 2当查询 Q中的所有检索词 t均在 d、 2中,且满足 Q t ld并 ( )N
第一步:用户输入其查询条件 Q中每个检索词的