基于模糊集的信息检索方法(2)

2020-12-22 08:29

3 8

计算机技术与发展

第2 0卷

用 A ) (表示 )表示元素隶属于模糊集合 A的程度。一般地，如果论域 U是有限集合或可数集合，那么一

权重或兴趣度，而得到用户查询 Q的表示形式。从第二步： D中所有d( i对 1 )文档抽取若干

个模糊集A可以表示为：=: CA x)。 A 3 (f i/[定义 2主导隶属度函数关系： B当且仅当 A c () z (对于所有 z )。

标引词，用这些标引词的集合来代表原文档，并将标引词在文档中出现的频率作为其权重，从而得到所有文档的表示形式I。 s J第三步：初始化空集合 S用于存

放查询结果。

定义 3根据定义 2考虑到集合 A属于F( B的， 2)不同程度，通过抽象隶属度函数来定义包含度：S A, ( B)=D ge( B): F ([ er A c e ( A)] ) 定义 4超集： A不包含于B的程度，即S P R】} 0 A, )= 1一 S A, )= U ES I _ C B ( B m￣0/ ( ) ( ) a (,A X一 2 ) M( A)

第四步：根据公式计算 Q和d( i 1≤ )的包含度 S Q,。 ( d)

第五步：如果 S Q,为 0则去除该文档； ( d),如果不为 0则比较文档集的包含度 S Q,,, ( d)按从大到小的顺序排列这些文档集，并放入 S 。第六步：出 S 输。

其中M( ) A=∑ ()由 ,此可知： A包含予B 3实例分析 t =1

的包含度是：

31实 .

例

∑ mx, () () aO z一 B ) ( zS A, ( B)=——— 一

假设用户查询 Q={ ./10 3 t,./s 0 5 t, ./20 2 t,0 5 t}文档集如表 1 ./9,所示。表 l文档集

2基于模糊集的信息检索2 1基本思想 .1 d 2

t 1

f 2

f 3

“

妇

t 7

, 8

幻

0 6 O. . 5 0 7 0. . 6

O 0

O7 . O8 .

O 0

0 O

O 0

O. 7 0. 9

文档的信息检索过程实际上涉及文档集的表示、用户查询的表示、相似性匹配及其排序三部分[。首川先，文中用户查询和文档集的表示均采用下列方式表示：={ A妨 ( i,i U}对于文档集中的 z为 z) X∈,

d 3d 4

0 4 O. . 1O 3 O. . I

0.O

O1 .01 .

O. 3O. 1

5 d6d7

O 6 O. . 5 0 5 O. . 403 O 1 . .

O 00

0. 6 O. 20. 6

0 O0

0. 3 O. 10. 3

0 O0

0 OO

0 00

从检索词论域【中提取出来的能够代表整个文档意，,思的检索词集， ( i为提取出来的检索词属于该集 S) C合的隶属度，可以理解为每个检索词墨的权重。对于用户查询中的

的解释同文档集中的 X,中的其≈)同样可以理解为权重，或者是该检索词的兴趣 A(

03 0 1 . .d9 dl 0 d1 1 02 . 0. 1 0 0 0 O

00 O1 . 0

0. 90. 6 0 O. 5

0O O 0

O. 5O. 3 0. 4 O. 2

00 O O

0 5 O. . 2 O 6 O. . 3

度。其次，于上述给出的主导隶属度函数关系可知，基只要查询中的检索词隶属度小于文档中的检索词隶属

表 l出的文档集中的文档包括了所有的情况：给

有完全包含查询 Q的，也有部分包含 Q的，也有不包含 Q的。计算结果如表 2所示。表 2查询结果 S( d ) dI Q, Q l

度，那么查询检索词集就包含于文档集，通过这一点就能找出包含某一查询检索词集的所有文档。这就是文档和查询的匹配。也就是说当给出了某查询检索词集，通过包含度定理计算其包含于文档的程度，根据这个包含度的大小来对检索出来的文档进行排序。 2 2基本算法 .

d 391 5

d 461 5

ds8l 5

d 681 5

S Q, d ( d) 1Q 41 5

84l 5

d 9ll 5

d0 lO

dI lO

由上述基于包含度的信息检索，以得到其基本可算法如下：

输入：用户查询条件 Q文档集 D: f 1d, 3…, d, 2d, d} 输出：按照用户查询的权重排序的查询结果文档集 S。6—

由表 2得到文档序列： 1 d一 d一 d一 5 d一 2 3 4一7— 8—' . 9。

3 2结果分析 .

( ) S Q, 1、 ( d )可知： 1从 ( d ) S Q, 2当查询 Q中的所有检索词 t均在 d、 2中，且满足 Q t ld并 ( )N

第一步：用户输入其查询条件 Q中每个检索词的

共4页:

基于模糊集的信息检索方法(2).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档