基于VSM模型的文本相似度的比较(2)

2019-03-06 08:27

毕业设计(论文)专用纸

6.1总结 ··············································································································· 31 6.2展望 ··············································································································· 31

致 谢 ·························································································································· 33 参考文献 ···················································································································· 34 附录Ⅰ中文 ··············································································································· 33 附录Ⅱ译文 ··············································································································· 33

5

毕业设计(论文)专用纸

第一章 绪论

1.1选题背景

随着internet的迅猛发展,人们的生活越来越离不开网络。www(world wide web)技术以其使用直观、高效、简单等优点逐步成为Internet上最为重要的信息发布与交互方式,据美国因特网监制公司Netcraft发布的数据表明,截止2008年2月底,全球互联网网站数量超过1.6亿,达162662053,较前一个月增加了450万。网页数量也达到百亿级别。

1.2研究意义

由于WWW的迅猛发展,越来越多的信息可供用户在网上查询,但是信息膨胀和丰富的同时,加大了用户寻求自己最需要信息的负担,特别是目前用户对查询信息提出了新的需求,除了需要高效率,高准确性等要求外,用户有时需要在互联网上搜索与一篇文档(例如txt文件、word文档等)或一张图片最相关、最相似的信息,这就给目前的技术提出了新的挑战,而与文本相似度有关的算法应运而生。

同时,我国学术论文抄袭现象频频发生,非法复制等文档侵权问题也比较严重。在如今的高校中,学生的论文抄袭、作业抄袭现象更是屡见不鲜。学生日益对自己的作业马虎了事,随便抄抄了事。尤其是对于有些枯燥的专业课程通常要进行实验并撰写电子实验报告,这就给不想动手动脑的同学以可乘之机。这种现象长此发展下去,不仅老师不能把握学生专业课程学习的情况,而且学生学习的积极性也会严重下降,抄袭的风气将影响到整个高校的学术氛围。那么文本进行相似度检测应用就成了眼下一个现实的需求。

1.3国内外研究现状

1.3.1国外文本相似度基本研究状况

目前,国内外有很多学者在研究文本相似度计算问题并且已经有很多文本相似度模型被提出并得到广泛应用,如字符串相似度,文档结构相似度以及统计相似度等模型。

字符串相似度模型将文档构成的基本单位视为字符串,通过将一个字符串转换为另一

6

毕业设计(论文)专用纸

个字符串的替换、插入和删除操作次数或最大匹配字符串来计算相似度,如Levenshtein距离和Likelt方法。Nirenberg等也提出了两种串匹配的方法,即更规范的“切块+匹配+重组”方法和整句级匹配的方法。这两种方法所采用的相似度衡量机制都是词组合法。该系统的相似度计算采用罚分制,两个句子匹配所得到的总罚分值由句子中每个对应单词对的比较所得的罚分组合而成。

文档结构相似度模型通过文档结构上的相似程度来计算文档的相似度,如:Lambros等提出同时依据句子的表层结构和内容计算相似度的方法。在计算相似度时,系统使用了两级动态规划技术,应用动态规划算法允许在两个长度不同的句子之间计算语句相似度。 统计相似度模型:如Gerard Salton和McGill于早期提出的向量空间模型,他的思想是把文档简化为以特征项的权重为分量的向量表示,通过词频统计与向量降维处理来计算相似度。基于向量的文本相似度计算方法是目前主流的文本相似度计算方法,该方法将要比较相似度的文本根据文本中的词语将文本映射为n维空间向量,然后通过比较向量间的关系来确定文本间的相似度,其中最常见的方式是计算空间向量间的余弦值,但传统向量空间模型就利用文本而不是用词来表示词语之间的关系。现在研究的主流方向就是基于空间向量模型。

除了以上的模型以后还有一些其他方法被提出和发展。如:挪威Agdcr大学的Vladimir Oleshchuk等人提出基于本体的文本相似度比较方法,将本体论引入了文本相似度计算,它能计算文本的语义相似度。此外还有学者在研究句子间相似度的计算,如哥伦比亚大学的Carbon ell J.等人的最大边缘相关的MMR方法。

1.3.2国内文本相似度研究情况

在国内,国内学者盘谦红、王炬提出利用属性论计算文本相似度,建立了文本属性重心剖分模型,通过坐标点与坐标点的距离计算关键字与关键字的相关性,通过坐标点与单纯形的关系计算关键词与文本的相关度。张焕炯、王国胜、钟义信(2001)提出了基于汉明距离的文本相似度计算,该方法提出了汉明码的概念。与其他的文本相似度计算公式相比较,因为该方法只是利用模2加等运算,其方便性是不言而喻的,他完全避开了诸如在欧式空间中求相似度的大量乘法运算,因此,可以较大的提高速度。其次,它跳出了传统的借用空间的理念,而是用码字的方式来表征文本信息的特征,可以不仅限于关键字等孤立的信息,这为联合的描述文本的信息提供了可能。

7

毕业设计(论文)专用纸

1.4开发语言

JAVA语言。JAVA是一种可以撰写跨平台应用软件的面向对象的程序设计语言,是由Sun Microsystems公司于1995年5月推出的Java程序设计语言和Java平台(即JavaEE,JavaME,JavaSE)的总称。Java自面世后就非常流行,发展迅速,对C++语言形成了有力冲击。Java 技术具有卓越的通用性、高效性、平台移植性和安全性,广泛应用于个人PC、数据中心、游戏控制台、科学超级计算机、移动电话和互联网,同时拥有全球最大的开发者专业社群。

选择JAVA作为开发语言,一方面是因为自己对这种语言比较熟知,另一方面是因为它的确有着一些优于其他语言的特点:

(1)Java是简单的

Java与C++极为相似,但却简单得多。高级编程语言的所有特性中,不是绝对需要的都已删去了。例如,Java没有算符过载、标题文件、预处理、指针运算、结构、联合、多维数组、模板及隐式类型变换。

(2)Java是编译型的

当运行Java程序时,它首先被编译成字节代码。字节代码非常类似于机器指令,所以Java程序非常高效。然而,字节代码并不专对一种特定的机器,所以Java程序无需重新编译便可在众多不同的计算机上执行。

(3)Java是可移植的

Java程序是一次编译,处处运行。所以Java的移植却很容易,而且不需要进行重新编译。

(4)Java是健全的

Java程序不可能造成计算机崩溃。Java系统仔细检测对内存的每次访问,确认它是合法的,而且不致引起任何问题。不过,即使Java程序也可能有错误。如果出现某种出乎意料之事,程序不会崩溃,而把该例外抛弃。

1.5本文的主要工作和论文结构 1.5.1主要工作

本文先介绍空间向量模型以及中文分词的相关基本知识,在此基础上,利用Java语言对某篇TXT文档进行分词、词频统计、选出关键词、调用Baidu搜索网页相关内容、下载网页页面、网页去标签获取主题内容、计算余弦值得出相似度,通过上述过程完成基于WEB的相似网页检测。

本文的研究内容体现在以下四个方面:

8

毕业设计(论文)专用纸

(1)VSM空间向量模型 (2)中文分词策略 (3)HTML解析策略 (4)计算文本相似度

1.5.2论文结构

本文共分为六个章节,具体章节内容安排如下:

第一章:绪论,介绍了选题背景和研究意义,然后粗略的讲述了国内外相关研究情况,最后介绍了本文的研究内容和文章结构。

第二章:系统原理介绍,主要介绍了系统需要用到的相关知识点,例如向量空间模型、中文分词技术、相似度的计算方式、下载网页内容并进行解析等。

第三章:系统分析与设计,主要阐述了基于WEB相似检测的需求和项目设计的思想和流程。

第四章:系统实现,系统的核心代码和算法抽取出来进行详细的讲解和阐述。 第五章:系统测试,抽取一个TXT文件进行测试,查看结果是否符合预期要求。 第六章:总结与展望,总结做毕业设计过程的经验,吸取教训,展望未来的生活。 最后是参考文献和致谢。

9


基于VSM模型的文本相似度的比较(2).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:英语基本作业2阅读理解题(已交)2013

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: