本科毕业论文 搜索引擎F - 图文

2019-05-18 18:27

本科生毕业论文

题目:基于PARADISE平台的论文检索系统 Literature Search Design and Implementation based on PARADISE

姓 名: 学 号: 院 系: 信息科学技术学院 专 业: 计算机科学与技术系 指导教师:

二〇一三年四月十七日

摘要:

本文基于天网实验室的Platform for Applying, Researching And Developing Intelligent Search Engine (PARADISE)搜索引擎平台,通过以从portal.acm.org抓取的计算机网络方向的2500多篇论文为数据,搭建成一个论文搜索系统,最终目的是通过论文之间的引用关系,获得其他引用这篇论文的作者对这篇论文的评价,形成一个小的评价段落,以及Impact-based Summaries,从而使得我们能够从专业级的角度获得这篇论文的内容以及优劣。我们首先从portal.acm.org上面抓取了文章之间的引用关系,然后通过一个算法获得对一篇文章评价的候选句子集,根据这些句子的重要程度进行排序,获得一个评价短文。并且构建了一个语言模型,通过这些候选句子集对原文的句子进行评分,取得分最高的几个句子,获得原文基于影响的概括。

关键词

搜索引擎, 论文评价, 语言模型, KL-divergence算法, 基于影响的概括

Abstract

In this paper, based on the PARADISE (Platform for Applying, Researching and Developing Intelligent Search Engine) and the data of 2500 papers in area of computer network, we construct a search engine of papers. Our goal is to get the comment and impact-based summaries of one paper based on the reference relations between the papers. We firstly get candidate sentences which comment on the previous paper and generate a citation context. Then we construct a Language Model, through the citation context, we can score the sentence in the previous paper, and get the impact-based summaries.

Key words

Search Engine, Paper Comment, Language Model, KL-divergence Scoring, Impact-based Summaries

3

目录

第1章 引言 .................................................................................................................... 5

1.1研究背景 ............................................................................................................ 5 1.2工作内容 ............................................................................................................ 2

1.2.1抓取所需要的论文数据 ............................................................................. 2 1.2.2获得一篇论文的评价并较好的显示出来 .................................................... 2 1.2.3获得一篇论文基于影响的总结段落 ........................................................... 3 1.2.4基于PARADISE平台搭建搜索平台 ............................................................. 3 1.3实验的意义 ......................................................................................................... 3 第2章 数据的收集 .......................................................................................................... 5

2.1如何提取数据 ..................................................................................................... 5

2.2数据抓取的过程 .................................................................................................. 6 2.3数据的存储及解析 .............................................................................................. 7 第3章 生成评论集 ........................................................................................................ 10

3.1获得评价的候选句子集 ..................................................................................... 10 3.2获得评论段落 ................................................................................................... 11 第4章 建立模型并生成基于影响的概括 ........................................................................ 13

4.1建模之前我们所有的数据 .................................................................................. 13 4.2建模算法 .......................................................................................................... 13 4.3算法的实现 ....................................................................................................... 14 4.4获得基于影响的概括 ......................................................................................... 15 第5章 搭建搜索引擎 .................................................................................................... 16

5.1 PARADISE结构简介........................................................................................... 16 5.2修改索引部分 ................................................................................................... 17 5.3修改前台部分 ................................................................................................... 18 5.4系统示意图 ....................................................................................................... 19

5.4.1主界面 ................................................................................................... 19 5.4.2搜索结果界面 ......................................................................................... 20 5.4.3评论界面 ................................................................................................ 21

第6章 实验结果与分析 ................................................................................................. 22

6.1实验结果 .......................................................................................................... 22 6.2具体分析 .......................................................................................................... 22 第7章 后续工作 ........................................................................................................... 26 第8章 致谢 .................................................................................................................. 27 参考文献........................................................................................................................ 28

4

第1章 引言

1.1研究背景

如今,全世界范围内学术活动日益积极,所产生的论文也在不断增多,因此,如何搜索到自己所需要的论文,以及自动获取一些关于论文的信息,是客观需要的。学术检索,绝不简简单单的检索出所要查找的论文,这样就和普通的通用搜索引擎如Google等一样了。学术检索,应该更侧重于深层次的内容挖掘。

例如,可以通过一篇论文所引用的文章以及所属领域,寻找出这个文章所在领域的主要论文,这对了解一篇论文的背景知识以及理解一个领域的发展非常重要。在[Nie, et al.,2007, Volkert,2005] 中提到了文献检索现在主要的发展方向,有以下几点:1.提高检索的质量,这是从语言模型的角度,让人们更加准确的找到所需要的论文。2.找到相关领域的最主要论文,以及一些较权威的作者,帮助读者了解相关知识。3.从reference和citation角度,挖掘出一些知识,最常见的,就是通过一篇论文的被引用次数确定它的排名以及影响力。

我们知道,国外的PHD学生在第一年的学习之后都是要通过QE考试的,考试的形式一般是先读几十篇论文,然后根据这些论文的内容进行答辩。这时候,他们往往很想知道别人是如何评价这篇论文的,这篇论文有什么优点和缺点,有什么后续的研究等等。这就像我们准备去一个地方旅游,不仅需要该景点本身的介绍(有点类似于摘要),往往更想知道去过这个地方的人都是如何评价这些地方的。通过对这篇论文的评价,我们可以从更专业并且更加广阔的角度获得这篇论文的一些信息,并且可以知道在这篇论文工作之后可以做哪些事情。

基于上面的观点,我们就准备做出这样一个知识提取系统,通过这个系统,可以自动获得别人对这篇论文的评价[Nanba and Okumura,1999 ],以及论文中的一些较有影响力的信息,从而帮助人们更好的理解这篇论文。整体流程如图表 1所示。

在 [Mei and Zhai,2008]中,作者利用KL-divergence算法建立了一个模型,生成了一篇论文基于影响的概括,但是它并没有强调评论的重要性(这里的评论,是指别的作者对它引用的一篇文章的评论),它只讲评论当成一个中间状态,当成一个求得基于影响的概括的手段。实际上,这些评论和最终经过KL算法形成的概括是同等重要的,有时候,它甚至比后者更加清晰易懂。本文相对于[Mei and Zhai,2008]的优点是,赋予评论以及概括同等重要的意义,并且形成了一个实际的系统供人使用,而不仅仅是用于研究。

5


本科毕业论文 搜索引擎F - 图文.doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:第2章 MCS-51单片机结构及原理题解

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: