针对PageRank算法缺乏与用户交互导致用户体验感差、对新网页的歧视、主题漂移以及单机模式下计算效率低等问题,本文首先添加用户点击率、网页发布时间以及主题内容相关度这三个影响因子改进PageRank算法,提高用户查询满意度,利用基于hadoop的MapReduce技术实现改进的PageRank算法,提高计算效率,实验结果数据发现,集群环境下PageRank算法的计算效率提高了39.94%,网页的检索效率提高了11.11%,用户的查询准确度提高了20.35%。
基于Hadoop的Nutch网页排序算法的改进
施磊磊,施化吉
(江苏大学 计算机科学与通信工程学院,江苏镇江212013)
摘 要:针对Nutch网页排序算法的不足,本文添加并改进了PageRank算法,将用户点击、时间反馈与主题内容这个三个影响因子加入到PageRank 网页评分中,然后搭建Hadoop分布式集群,引入MapReduce来实现PageRank改进算法。实验结果表明,在Nutch中实现了该改进算法后,大大地提高了用户的查询满意度。
关键词:Hadoop集群 ;MapReduce ;Nutch;PageRank
Improved Nutch webpage ranking algorithm based
on Hadoop
SHI Lei-lei , SHI Hua-ji
(School of Computer Science and Telecommunication Engineering, Jiangsu University, Zhenjiang
212013, China)
Abstract: Aiming at the deficiency of Nutch webpage ranking algorithm, this paper added and improved PageRank algorithm, the user clicks, time feedback and the effects of three factors subject content is added to the PageRank webpage score, then setting up a Hadoop distributed cluster, MapReduce is used to implement PageRank algorithm. The experimental results show that, Nutch achieved in the improved algorithm, greatly improves the user query satisfaction. Keywords: Hadoop Cluster; MapReduce ; Nutch;PageRank 统HDFS,都可以让我们用户可以快速
高效地实现运行在数百台乃至数千数
1 引言
Nutch是一个开源的搜索引擎,它使用Java语言开发,具有跨平台应用的优点,Nutch作为网络爬虫和lucene的结合,功能上极其强悍,每个月数以亿计的网页爬取量,网页搜索的高速,开源的功能剖析都是我们选择它的关键因素。此外基于 Lucene的索引和检索功能、基于Hadoop的MapReduce编程模型和分布式文件系
万台计算机上,能够在短时间内完成海量数据的计算与分析。
但是Nutch本身也有其不足的地方,没有实现Google经典的PageRank网页排序算法,严重影响最终检索结果的排列次序。导致搜索返回的大量结果都不是用户想要的,因此,在将结果网页返回给用户之前,我们的搜索引擎需要进行相关性排序工作,将与用户真正需要的结果排在搜索结果