无线网络技术课程(论文)
题 目:模糊理论在信息检索中的应用 学生姓名 1: 孟朋朋学 号:130101062
学生姓名 2: 王磊 学 号:130101063
所在系院: 计算机工程学院 专业班级: 13计科2班 指导教师姓名:裴培职称/学位:助教 硕士
完成时间: 2016 年 6 月
计算机工程学院 制
安徽三联学院课程论文
摘要:模糊理论是为了解决真实世界中普遍存在的模糊现象而发展的一门学问。
模糊理论以模糊集合为基础 ,基本精神是接受模糊性现象存在的事实 ,而以处理概念模糊不确定的事物为其研究目标 ,并积极地将其严密量化成计算机可以处理的信息。本文首先简介模糊理论 ,而后将模糊理论在信息检索上的应用做一探讨。希望通过本文 ,使大学对模糊理论有更深入的了解 ,并且思考如何将之更广泛地应用于图书信息学上。
关键词:模糊理论 模糊集合 信息检索
1.对模糊理论的一般解释
基于康托经典集合论的精确数学要求: 一个元素 a 和一个集合 A 的关系只存在 a∈A 和 aA 两种情况 。集合可以通过特征函数描述,每个集合 A 都有一个特征函数 C A ( a) ,其定义用下式表示 : 1 当 a ∈A C A ( a) = 0 当 a A
该式表明, 经典集合论容不得模糊概念。这对现实世界存在的大量模糊现象的解释造成困难。针对这一情况, 美国自动控制专家查德( L. A. Zaden) 于 60 年代初提出了“模糊集合”( Fuzzy set) 概念。其基本出发点是用“隶属函数”概念来描述差异的中间过渡。这是首次从精确性向模糊性的逼进 。通过隶属函数对经典集合论中的特征函数加以推广 ,并由此引入了“模糊子集”概念。模糊子集定义如下 :
设给定论域 u,u 到闭区间[ 0 ,1] 的任一映射 μ A 为: μ A : u → [ 0 ,1]
确定 u 的一个模糊子集 ~ A ,μ A 为 ~ A 的隶属度 。正如经典集合论是传统精确数学的基础一样, 模糊子集论也正是模糊理论的基础 ,同样也可以定义模糊子集上的运算。总之, 模糊理论可以将传统的二值逻辑{ 0, 1} ,推广至可取[ 0,1] 闭区间任意值即无穷多个值的连续值逻辑。
安徽三联学院课程论文
2. 信息检索中引入模糊理论的必要性
2..1传统信息检索方法存在的问题
2.11通过检索语与索引语的精确匹配来进行检索, 只能检索到二者完全相同的信息。 传统的信息检索以精确数学、普通的集合理论为基础, 检索系统主要基于三种经典检索模型:布尔模型、 向量空间模型和概率模型。 这三种模型的检索过程是通过检索者输入的关键词 ( 或称检索语) 与信息所登录的关键字 ( 或称索引语)之间的精确匹配来完成的, 只能检索到检索语与索引语完全相同的信息, 而对于二者在一定程度上一致或意义相近、 相关的信息却无法查询。 2.12传统的检索方式中检索者虽然可以利用检索语之间的逻辑运算及其组合来表达检索要求, 但却无法描述检索者对检索语的重视程度以及检索语对信息是否贴切等许多问题。
2.13 只能对一些具有确定含义的信息进行访问和处理。在客观世界中, 许多事物都表现出其不完全或不精确的一面, 例如, 我们常说的 “ 高与矮”、“ 胖与瘦” 、 “ 美与丑”,这些词都是属于模糊概念, 既难以准确地加以度量, 也难以明确地划分界限。 在检索此类信息时传统的检索方法无法进行。
2.2信息发展的模糊性
2.21 信息的模糊性
现代科学技术的发展及其渗透, 许多新兴学科、 边缘学科、 交叉学科不断涌现, 使学科的分类呈现出模糊性。如 “ 生物电子学”, 它既涉及到生物学范畴, 又与电子学有关, 在对文献进行学科分类时, 只能根据文献对这两门学科的侧重点多少来大概划分是属于生物学还是属于电子学方面。 在情报学范畴, 学科分类的模糊性必将反映到分类法和叙词表中, 使分类类目和叙词表达范围变得模糊。 因此, 随着科学技术的发展, 信息也呈现出模糊性。 2.22 信息检索结果评判的模糊性
我们经常用 “ 文献是否相关”、 “ 文献是否切题” 来对信息检索的结果进行评判, 相应的 “ 相关性” 、 “ 切题性”也就成了评判信息检索结果的两个重要指标。“相关性” 是指信息检索时检索系统中被命中文献与用户需求文
安徽三联学院课程论文
献相吻合的程度。文献的相关与不相关不是绝对的, 它本身就是模糊的, 且它们之间没有明确的界限。对用户来说, 由于受多种因素 ( 比如表达信息要求不完整, 或表达不够明确,或在检索过程中对所需信息有所调整等)的影响, 检索出的文献与实际需求只有一定程度的主题相关。 而用户检索出的相关文献并不一定意味着所检文献与用户的需求相吻 合。 信息需求与文献相符的性质称为切题性。 切题性体现了用户在作判定时, 文献满足用户需求的程度, 是否切题 只有在用户阅读后才能确定。 其原因在于 :提问一般是固定不变的, 而信息需求是不稳定的、 可变的。 在检索过程中, 用户阅读已获文献可能会影响他原来的信息需求, 从而影响他对后来检索出文献的切题性判断。 因此, 判断文献是否切题也没有严格的界限, 它更具模糊性、 主观性。
3.模糊理论在信息检索中的应用
针对传统信息检索方法存在的问题和现代信息发展的特点, 许多学者对如何利用模糊集合理论来完善和改进信息检索方法做了大量的研究, 使检索效果更理想, 检索过程更具人性化。
3.1对信息检索结果进行模糊聚类分析
该分析方法建立在下述假设基础上:
( 1)信息集合中任一单元都可以用若干标引词 t i (i =1, 2, ?, n)表示; ( 2)一篇文献中抽取的各个标引词对原文内容的揭示程度存在差异; ( 3)一篇文献中所使用的标引词个数和各标引词的数值, 可以作为反映文献信息主要内容的有用数据。 具体步骤如下:
( 1)确定相似系数。 确定相似系数的方法有多种, 一般常用的有贴近度法、 绝对值减数法和余弦计算法。
( 2)利用相似系数, 建立模糊相似矩阵 R。 所建立的模糊相似矩阵 R , 一般具有自反性、 对称性。
( 3)模糊聚类分析。 有两种方法:
①利用模糊等价关系进行模糊聚类分析将模糊相似矩阵 R 根据传递闭包法改造成模糊等价矩阵t( R), 然后进行分类。 使用模糊集的 λ水平截集来实现模糊集与普通集之间的相互转化。 对于任意给定的置信水平 λ ∈[ 0, 1] , 则模
安徽三联学院课程论文
糊等价矩阵的 λ截矩阵t( R) λ 只有 0 和1 两种结果 ( 当相似系数大于或等于 λ时结果为 1, 反之当相似系数小于 λ时结果为 0) 。 因此, 对不同的置信水平,可以得到不同的水平截集, 从而得到不同的 λ截矩阵。 当λ从 1 降至 0时, 按 λ所得的分类结果将由细变粗, 逐步归并 , 从而形成一个动态的聚类图。 这样, 就可根据实际情况和置信水平来鉴别文献之间的接近程度, 并把彼此接近的文献归为一类。
②利用最大树方法进行模糊聚类分析将相似系数从大到小排列, 以所有文档作为顶点, 将相似系数相同的顶点连接, 并在相应的线段上注明该相似系数作为该边的权( 不能出现相交线)。若在连接某两个顶点时出现回路, 则不连接此边, 直到全部对象连通为止,从而得到了最大树( 此树不一定惟一)。通过这种方法得到的树, 其边的权最大, 所以称为最大树。 取 λ∈ [ 0, 1] ,去掉线段上值小于 λ的连线, 就可得到一个不连通的图,而剩下互相连接的连通分支就在水平 λ上聚于一类。 根据不同的 λ, 可以得到结果不同的聚类图, 再根据实际情形,分析得到聚类结果。
3.2对自然语言的加权标引
自然语言表示中带有大量含有模糊性的词汇, 为了描述这些模糊词汇, 首先需要为之建立表现其含义的隶属函数, 在具体运用中, 由于事物本身具有的不确定性和人们认识事物的局限性, 所以只能建立近似的隶属函数表示。隶属函数的确定方法有多种, 其中利用模糊分布函数去逼近隶属函数的方法使用最为广泛, 常用的几种最主要的模糊函数分布为: ( 1)左大右小的偏小型下降函数 1X ≤C μ (x)=
[ 1+a(x-c)b ] -1X >C
其中:C 是论域U 中任意一点, a 和 b 是两个参数, 且 a>0, b>0。
( 2)右大左小的偏小型上升函数