基于VSM模型的文本相似度的比较(7)

2019-03-06 08:27

毕业设计（论文）专用纸

5.3抓取网页内容测试

利用5.2中获取的关键字“作用市场政府决定性”调用Baidu搜索，下载网页内容去标签后，将纯文本内容保存，抓取结果如图5-3所示。

图5-3 网页抓取测试结果

5.4计算文本相似度

获取两个文本内容将其转换成了向量空间，此时可以计算两个向量的余弦值，这里我们只是模块测试，所以用两个简单的字符串来进行测试，测试结果如图5-4所示。

图5-4 计算相似度测试结果

字符串1内容：关于王立军，有几个基本事实。首先，1月28日我是初次听到此事，并不相信谷开来会杀人，我跟11·15杀人案无关，我不是谷开来11·15杀人罪的共犯，这个大家都认可。

字符串2内容：实际上王立军是有这些原因的，绝不只是一个谷开来的原因。这是多因一果。

文本相似度=0.6301

毕业设计（论文）专用纸

第六章总结与展望

6.1总结

经过几个月的努力，我的毕业设计终于可以完整的画上一个句号了。

三月初接到毕业设计的课题——基于WEB的相似网页检测，当时其实并不是很想选择这个课题，毕竟自己从来没有接触过与网页检索相关的知识和技术，但是还是想挑战一下自己，希望自己能够知识面更广一点。

开始的时候是艰难的，由于相关知识不太熟悉，查资料都有些不知道如何入手，找老师聊天过几次后，开始阅读相关文献。但是网上有关VSM模型、TF-IDF算法的详细讲解比较少，弄懂这些着实花了一些时间。

编码过程遇到的问题也不少。相关算法明白后，自己用Java语言来实现也是一个挑战，其实我感觉最麻烦的是有关网页编码的获取，目前本系统都还是做的不好，因为网页的格式并不都是按照标准格式来编写的，这使得在获取Charset字段的时候显得非常不方便。不过正因为这样，我了解了很多的解决方法，让我的知识面变得更加宽广。

当然，头一次做这种理论性较强的系统，由于时间关系以及自己的专业水平和技术水平有限，还是存在许多不完善的地方。比如如何更精确的分词，采取科学的数据降维方法等，这些都是我以后需要改进的地方。做一个系统，要考虑很多方面的问题，所以可以和别人适当的进行交流，以使自己的系统功能更加强大。我想不论一件事情有多难，只要花心思，动脑筋，一定会有结果的。

此次毕业设计是对我两年来所学知识的一个综合检测，让我对专业课知识有了进一步的巩固，对今后步入社会工作更多一点自信，这是我大学生涯难忘的经历。

6.2展望

本系统侧重对文档相似度进行一个理论的研究，其中涉及很多关键技术，比如分词技术，词频统计技术。这些国内外学者都有过比较深入的研究。我要做的是在以后的学习中进一步对这些技术加以理解和研究，以期使系统功能更加强大，真正成熟的运用到教学工作中。就现在的系统而言，还有一些需要进一步改进的地方：

(1)本系统可以实现对句子的语意相似性进行判断以及对其结构上的相似性进行分析说明。

(2)对文档进行更精确的分词。

毕业设计（论文）专用纸

(3)网页编码的获取方式还需要进一步加强，希望能找到万能的获取方式。这些需要改进的地方，我会在以后的学习中进一步加以完善。

毕业设计（论文）专用纸

致谢

在此非常感谢我的导师XXX，在论文撰写的过程中，他给予了我很大的帮助和支持。除此以外也非常感谢班级同学，在我代码有问题或不太明白的时候，帮我讲解，一起讨论，相互学习，共同进步。在毕业设计这段时间以来，XXX老师在多方面对我们进行指导和帮助，感谢XXX老师对人对事都兢兢业业，一丝不苟。对我们严格要求，定期的检查我们的毕业设计的进度状况，平易近人的与我们讨论毕业设计中存在的问题和毛病，在我们的学习及生活方面都倾注了很多的精力和心血。在这里，衷心的感谢XXX老师对我们的教导和培养。谢谢！

毕业设计（论文）专用纸

参考文献

[1] V.I Levenshtein Binary codes capable of correcting spurious insertions and

deletions of ones (orginal in Russian).Russian Problemy Peredachi informatsii 1,1965:12-25

[2] Qinglin Guo. The similarity computing of documents based on VSM. IEEE

International Computer Software and Applications Conference. 2008:585-586. [3] A IRASM, ALKU P. Emotion s in short vowel segments: effects of the glottal

flow as reflected by the normalized amplitude quotient [ C ] / / Proc of Tutorial and Research Work shop, Affective Dialogue Systems. 2004: 13- 24.

[4] 潘谦红,王炬,史忠植.基于属性论的文本相似度计算[N].计算机学

报,1999,22(6):652-655.

[5] 张焕炯,王国胜,钟义信.基于汉明距离的文本相似度计算[J].计算机工程与应

用.2001,37(19):21-22.

[6] 沈斌.基于分词的中文文本相似度计算研究[D].天津:天津财经大学, 2006.

[7] 宋玲,马军,连莉.文档相似度综合计算[J].计算机工程与应用,2006, 42(1):

160-163.

[8] 王秀娟.文本检索中若干问题的研究[ D].北京: 北京邮电大学,2006. [9] 肖磊，李中尉.Java实用教程[M].人民邮电出版社，2009.

[10]李峰,李芳.中文词语语义相似度计算——基于《知网》2000[J].中文信息学

报,2007,21(3):99-105.

共7页:

基于VSM模型的文本相似度的比较(7).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档