基于VSM模型的文本相似度的比较(4)

2019-03-06 08:27

毕业设计（论文）专用纸

在某个一共有一千词的网页中“原子能”、“的”和“应用”分别出现了2 次、35 次和 5 次，那么它们的词频就分别是 0.002、0.035 和 0.005。我们将这三个数相加，其和 0.042 就是相应网页和查询“原子能的应用” 相关性的一个简单的度量。概括地讲，如果一个查询包含关键词 w1,w2,...,wN，它们在一篇特定网页中的词频分别是: TF1，TF2，...，TFN。（TF: term frequency)。那么，这个查询和该网页的相关性就是:TF1 + TF2 + ... + TFN。

2.2.4.4TF-IDF算法深度剖析

在上面的例子中，词“的”站了总词频的 80% 以上，而它对确定网页的主题几乎没有用。我们称这种词叫“应删除词”（Stopwords)，也就是说在度量相关性是不应考虑它们的频率。在汉语中，应删除词还有“是”、“和”、“中”、“地”、“得”等等几十个。忽略这些应删除词后，上述网页的相似度就变成了0.007，其中“原子能”贡献了 0.002，“应用”贡献了 0.005。细心的读者可能还会发现另一个小的漏洞。在汉语中，“应用”是个很通用的词，而“原子能”是个很专业的词，后者在相关性排名中比前者重要。因此我们需要给汉语中的每一个词给一个权重，这个权重的设定必须满足下面两个条件：

(1)一个词预测主题能力越强，权重就越大，反之，权重就越小。

我们在网页中看到“原子能”这个词，或多或少地能了解网页的主题。我们看到“应用”一次，对主题基本上还是一无所知。因此，“原子能“的权重就应该比应用大。

(2)应删除词的权重应该是零。

我们很容易发现，如果一个关键词只在很少的网页中出现，我们通过它就容易锁定搜索目标，它的权重也就应该大。反之如果一个词在大量网页中出现，我们看到它仍然不很清楚要找什么内容，因此它应该小。概括地讲，假定一个关键词w在Dw个网页中出现过，那么Dw越大，w的权重越小，反之亦然。

在信息检索中，使用最多的权重是“逆文本频率指数” （Inverse document frequency 缩写为IDF），它的公式为log（D/Dw）其中D是全部网页数。比如，我们假定中文网页数是D＝10亿，应删除词“的”在所有的网页中都出现，即Dw＝10亿,那么它的IDF＝log(10亿/10亿）= log (1) =0。假如专用词“原子能”在两百万个网页中出现，即Dw＝100万，则它的权重IDF＝log(500) =6.2。又假定通用词“应用”，出现在五亿个网页中，它的权重IDF = log(2)则只有 0.7。也就只说，在网页中找到一个“原子能”的比配相当于找到九个“应用”的匹配。

利用IDF,上述相关性计算个公式就由词频的简单求和变成了加权求和，即 TF1*IDF1+TF2*IDF2+...+TFN*IDFN。在上面的例子中，该网页和“原子能的应用”的相关性为 0.0161，其中“原子能”贡献了 0.0126，而“应用”只贡献了0.0035。这个比例和我们的直觉比较一致了。

毕业设计（论文）专用纸

2.2.5数据降维

数据降维，是词频统计中所要考虑的一个因素。当文档中的词条数目很多，即向量的维度较高，那么为了提高效率，我们需要降低维度，即去除一些无关紧要的词语，减少词语的数量。而且采取降维的策略在一定程度上，还可以提高精度。

文本特征向量降维主要有如下的两类：

(1)特征选择：是指代去除那些不能表示信息或者表示的信息量很小的词(从广义上说：不存在不能表示信息或者意义的词，否则它就没有了存在的必要，自然这个词就无法存在)，以提高文本相似度计算的效率并且减少复杂度，基本上可以被分为如下几种方法：

①根据单词的IDF值来进行判断：当单词的IDF值小于一个阈值或者大于另一个阈值的时候都要去除；

②根据单词的文本频度TF值来判断：当单词的TF值小于或者大于某个给定的阙值也要去除；

③根据X2统计量进行判断：其值越大，单词与文本之间的独立性越小，相关性越大，所以要去除X2小的词； ·

④根据互信息MI来进行判断：(MI)越大，两个单词之问的关系就越强。其中第一种方法效果较好。

(2)特征重构：是通过合并或转化特征项来构造新的特征项，以达到降维的目的，一些文献中使用的奇异值分解方法就是这种思想的一种实现。

2.2.6相似度计算方法

基于向量空间模型，我们将两篇文档理解为两个向量，将它们之间的相似度理解为这两个向量在空间上的接近程度，即它们之间的夹角。我们通过计算余弦系数来比较两篇文章的相似度，余弦系数计算方法为，向量内积/各个向量的模的乘积，如图2-2所示。

Sim(T,T?)?Ti?t?1n?Ti?*?Ti?t?1n2Ti?t?1n2图2-2 两个向量余弦值的计算

毕业设计（论文）专用纸

其中，T、T?分别为待比较的两个文本的特征向量，Ti、Ti?分别为向量的第i维，n为特征向量的维数。余弦计算的好处是其值正好是一个介于0到1的数，如果向量一致就是1，如果正交就是0，符合相似度百分比的特性。

为了让过程更加的简洁明了，下面举例说明：

假设共有十个词：W1,W2，......，W10，而共有三篇文章，d1,d2,d3。统计出文章的词频表，如图2-3所示。文档 d1 d2 d3 W1 1 10 W2 2 3 W3 11 W4 5 4 W5 12 W6 7 6 W7 8 W8 9 13 W9 14 W10 15 图2-3 词频表的统计结果

假设计算d1和d2的文本相似度，根据图2-2公式可得结论，如图2-4所示。

Sim(d1,d2)?Sim(T,T?)?Ti?t?1n?Ti?t?1?Ti*n2t?1?Ti?n2图2-4 向量余弦值的示例计算

2.3系统实现思想

我们将两篇文档当作两个向量，通过计算相似度来宏观的表现它们的接近程度。本系统主要按如下的思路进行：

根据2.2节相关技术的介绍，本系统采用向量空间模型，主要流程可以细分为如下模块进行，分词处理，词频统计，选择关键字调用百度搜索查询，下载网页并解析，相似度计算。

注释：分词处理主要利用IKAnalyzer分词器（下面统一简称为IK分词器）IK Analyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始， IKAnalyzer已经推出了4个大版本。最初，它是以开源项目Luence为应用主体的，结合词典分词和文法分析算法的中文分词组件。从3.0版本开始，IK发展为面向Java

毕业设计（论文）专用纸

的公用分词组件，独立于Lucene项目，同时提供了对Lucene的默认优化实现。在2012版本中，IK实现了简单的分词歧义排除算法，标志着IK分词器从单纯的词典分词向模拟语义分词衍化。

其相关特性如下：

(1)采用了特有的“正向迭代最细粒度切分算法”，具有60万字/秒的高速处理能力。 (2)采用了多子处理器分析模式，支持：英文字母（IP地址、Email、URL）、数字（日期，常用中文数量词，罗马数字，科学计数法），中文词汇（姓名、地名处理）等分词处理。对中英联合支持不是很好,在这方面的处理比较麻烦.需再做一次查询,同时是支持个人词条的

(3)优化的词典存储，更小的内存占用。支持用户词典扩展定义

(4)针对Lucene全文检索优化的查询分析器IKQueryParser；采用歧义分析算法优化查询关键字的搜索排列组合，能极大的提高Lucene检索的命中率。

毕业设计（论文）专用纸

第三章系统分析与设计

3.1系统需求分析

随着计算机的普及和网络的飞速发展，互联网上以及各种电子文档的数量以空前的速度增长，人们获取知识的途径也发生了深刻的变化。面对如此巨大的知识海洋，如何快速查找相关信息变得非常重要。如果没有有效的组织和提取方式，普通用户查找自己想要的信息所用的时间可能比了解信息本身所花费的时间还长，这是人们无法容忍的。文本相似度是表示两个或多个文本之间匹配程度的一个度量参数，相似度大，说明文本相似程度高，反之文本相似度低。对于文本聚类、信息检索、问答系统、网页去重、文本分类等很多领域，文本相似度的有效计算问题是其进行信息处理的关键。

论文抄袭是一种严重的造假行为。当前出现的各种学术造假、论文抄袭现象，已严重的影响到整个高校的学术氛围。大学是一个要求学生独立自主学习的地方，而现在越来越多的学生放慢自己的行为，对老师布置的作业抄抄了事。这样老师既不能对学生的学习情况得到一个真实的掌握，学生学习的积极性也慢慢下降。这牵涉到的是一个诚信问题。诚信是社会道德的一道防线，也是大学生诚信责任的一道防线。现在这道防线岌岌可危，我们应采取积极地措施加以保护。

本课题就在网上搜索与已经存在的TXT文件相似的内容做了一个系统设计。系统一方面在理论方面进行了一定的探究，了解了文档相似度相关方面的知识，另一方面在实际的应用上也有一定的价值。本系统只是简单实现了基本功能，有些地方还需进一步完善优化，用户可用此系统较为方便的搜索与自己已有文档相似的网页内容，老师也可以将此作为检查学生抄袭情况的工具，尽量减少学生抄袭的念头。

3.2系统功能概述 3.2.1系统流程

首先，用户选择一个要查询的TXT文件，确定TXT文件所在的文件夹，然后是进行文档分词，统计词频，得到一个HashMap；排序后，选择所需数量的关键词后调用Baidu搜索相关的网页并下载；整理并去掉网页标签得到纯文本内容，提取内容存入到电脑；最后计算得到两篇文章的相似度。比较各个网页与原TXT文件的相似度，相似度越接近1则表

共7页:

基于VSM模型的文本相似度的比较(4).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档