第6章 实验结果与分析
6.1实验结果
在我们的实验数据里,总共抓取了2500篇论文,其中在我们的论文集里被
其他论文引用的文章个数为1686篇,总共被引用72471次,平均每个论文被42论文引用。这些论文中,总共能找到的评论句子个数为160046个。平均每个论文有个95评论句子,每个论文在被另外一篇论文引用时,平均约被评论2.2次
根据上面的比率,可以看出,如果我们最终显示在界面上的评论个数需要是5个,那么一篇论文,它被1到2篇论文引用时,就会获得足够的评论集。如果被5篇论文引用时,就会获得效果很好的评论集了。
6.2具体分析
为了更好的说明我们所做的这个系统的效果,下面随机选取一篇评论较多论文为例,来说明我们获得的这些评论以及概括的作用[Elkiss, et al.,2008]。 Paper Name: Three-level caching for efficient query processing in large Web search engines
从题目可以看出,这篇论文是用三级缓存来处理搜索引擎中大规模的请求的。
Abstract: Large web search engines have to answer thousands of queries per second with interactive response times. Due to the sizes of the data sets involved, often in the range of multiple terabytes, a single query may require the processing of hundreds of megabytes or more of index data. To keep up with this immense workload, large search engines employ clusters of hundreds or thousands of machines, and a number of techniques such as catching, index compression, and index and query pruning are used to improve scalability. In particular, two-level caching techniques cache results of repeated identical queries at the frontend, while index data for frequently used query terms are cached in each node at a lower level. We propose and evaluate a three-level caching scheme that adds an intermediate level of caching for additional performance gains. This 22
intermediate level attempts to exploit frequently occurring pairs of terms by caching intersections or projections of the corresponding inverted lists. We propose and study several offline and online algorithms for the resulting weighted caching problem, which turns out to be surprisingly rich in structure. Our experimental evaluation based on a large web crawl and real search engine query log shows significant performance gains for the best schemes, both in isolation and in combination with the other caching levels. We also observe that a careful selection of cache admission and eviction policies is crucial for best overall performance. 摘要部分,先说了搜索引擎的负载很重的概况;然后介绍现有的两级catch有一定的缺点,而作者完成了一个三级缓存,在原有的缓存加入了一个中间层;最后说本文用到了一些算法,并且最终实验结果的性能也很好。 通过阅读摘要,我们就知道这篇论文的概况以及来龙去脉。 Comment: (1)They may be considered separate and complementary to a cache-based approach. Raghavan and Sever [the cited paper], in one of the first papers on exploiting user query history, propose using a query base, built upon a set of persistent “optimal” queries submitted in the past, to improve the retrieval effectiveness for similar future queries. Markatos [10] shows the existence of temporal locality in queries, and compares the performance of different catching policies. (2)Our results show that even under the fairly general framework adopted in this paper, geographic search queries can be evaluated in a highly efficient manner and in some cases as fast as the corresponding text-only queries. The query processor that we use and adapt to geographic search queries was built by Xiaohui Long, and earlier versions were used in [26, 27]. It supports variants of all the optimizations described in Subsection 1. (3)the survey by Gaede and G¨ nther in [17]. In particular, our u algorithms employ spatial data organizations based on R? -tree [5], grid files [the cited paper], and space-filling curves - see [17, 36] and the references therein. A geographic search engine may appear similar to a Geographic Information System (GIS) [20] where documents are objects in space with additional non-spatial attributes (the words they contain).
下面我们来逐条分析上面获得的评论。
从(1)中可以看出,该条评论并没有谈到源论文的三级缓存结构,而是比
较看重其中的一个方法:利用用户请求的历史记录,基于以前所获得的比较理想
23
的查询词,建立一个用户请求库,来提高搜索引擎的中相似请求的处理速度。这句话就很好的告诉了我们源论文中三级缓存的一个方法,并且可以看出,这个方法并不仅仅可以用在三级缓存中,也可以用在个性化搜索等方面。
从(2)中可以看出,该条评论说明了它利用了源论文中的请求处理器,来搭建了一个地理搜索引擎。通过这一条评论我们可以看出源论文的后续工作,有什么用处。源论文并不仅仅在三级缓存结构上有研究,其请求处理模型很可能用处更大。
从(3)中可以看出,源论文中使用了一种grid files的系统或者算法,它和R*-tree、空间填充曲线这些算法结合,能够形成一种特殊的数据结构。这也代表了源论文后续工作的一种,方便了读者以更加广阔的视野来看待该论文。
Impact-based Summary: (1)This motivates the search for new techniques that can increase the number of queries per second that can be sustained on a given set of machines, and in addition to index compression and query pruning, caching techniques have been widely studied and deployed. (2)Our experimental evaluation based on a large web crawl and real search engine query log shows significant performance gains for the best schemes, both in isolation and in combination with the other caching levels. (3)To do so, the engine traverses the inverted list of each query term, and uses the information embedded in the inverted lists, about the number of occurrences of the terms in a document, their positions, and context, to compute a score for each document containing the search terms. (4)Query characteristics: We first look at the distribution of the ratios and total costs for queries with various numbers of terms, by issuing these queries to our query processor with caching completely turned off. (5)Thus, recent queries are analyzed by the greedy algorithm to allocate space in the cache for projections likely to be encountered in the future, and only these projections are allowed into the cache. 最后我们来分析获得的基于影响的概括,这里,为了节省篇幅,只取了前5句来进行分析。
从(1)中可以看出,该论文缓存不仅仅是为了提高每秒钟处理的请求量,还能够进行索引压缩以及请求的删减等工作。这些工作可能研究点更多,后续工作较多,影响较大,因此排在了前面。
从(2)中可以看出,这篇论文是基于网页抓取以及真实得搜索引擎请求的日志来进行评测的,在单独处理以及与其他的结合方面都很好,这是这篇论文的成果。
(3)主要介绍了这篇论文的一个技术细节。
24
从(4)中可以看出,这篇论文为了实现缓存结构,需要对请求的性质进行
描述,并计算出一些概率方面的知识。
从(5)中可以看出,这里提到了一个贪婪算法,用于为缓存分配空间,以便于未来搜索的数据的增大,缓存也不断增大所带来的空间需求。
综上所述,我们在对这篇文章完全没有了解的情况下,通过阅读摘要,知道
了它的大体内容是做三级缓存的。知道了它被别的文章经常引用的地方在于三级缓存中的记录用户日志的方法,以及这篇文章的实际用途。我们还了解到这篇文章的重点部分,包括完成缓存之后的后续工作,与搜索引擎结合,记录用户日志等等。这样,我们在阅读一篇论文时,就可以带着一定的目的性去阅读它。如果我们是在阅读了这篇文章之后,再阅读以上的这些信息,那么可能更加有助于我们对这篇文章的理解,除了站在作者的角度考虑他对自己的文章中哪些部分比较侧重,还可以从别的专家对这篇文章的评论中获得这篇文章还有哪些更加值得我们注意的和学习的地方。
25
第7章 后续工作
在获得了别人对一篇论文的评论以及这篇论文基于影响力的概括之后,我们可以对这两段话做更多的分析,获得更好的效果。
例如,可以对基于影响力的概括进行分类[Nanba, et al.,2004],分成定义和实现这两大类,这样,可以更加清晰的了解一篇论文的重点。我们还可以对获得的这些评论进行聚类。获得的这些评论中,会有一些意思相近的句子,如果最终都出现在我们的评论段落里,那肯定不利于了解源论文更多的信息。在[Qazvinian and Radev,2008 ]这篇文章里,就是给定了一些评论句子之后,从中找出一些子句集,以更简短的语句更好的将评论表达出来。
还有,我们获得的这些评论以及概括,都是对于一些相对于老的论文比较有效,而对于较新的论文,显然易见,它的被引用次数会很少,很难获得评论,似乎这个系统对这些论文就没有什么作用 了。但是实际上,我们可以利用自己的系统,对这些新来的论文进行评价。如,一篇会议刚刚接收了一篇新论文A,它引用了一个老论文B,我们可以获得B的评论 以及概括commentB和
impact-basedsummaryB,而A中如果有一句话s对B进行了评论,那么,就可以通过s与commentB以及 impact-basedsummaryB之间的关系,判断s这句话是好是坏。对A的每一个引用都进行上述过程,那么,最终,可以自动判断这篇新论文A的质量如何。
在对获得的那些评论以及基于影响的概括进行打分排序时,可以利用到一些那些评论的作者以及发表的会议等先验知识。显然,当一篇论文的作者较有知名度,发表的会议等级较高时,那么引用它的论文的评论要更加具有专业性。 此外,关于论文的检索部分,学术检索有其自己的特点。和Web search不一样,学术检索一篇文本的长度非常之长,因此文献页很多,一个查询词来了,可能第一个词在第一页,第二个词在最后一页,实际不相关,却作为相关结果返回了,因此,可以利用基于对象的语言模型[Nie, et al.,2007],来改进搜索的效果。
26