搜索引擎及搜索引擎优化(SEO)实验 - 图文(2)

2019-03-23 14:36

4. 研究两种网页去重算法并填写如下表格: 算法名称 算法一:同源网页去重URL哈希值计算. 基本原理 参考资料 构造一个适当的哈希函数H可得到从网页 高凯,王永成, 肖君 URL字符序列到哈希值的映射,相同的URL上海200030《网页去重字符串会得到相同的哈希值,从而说明该策略》 URL已被下载过.在对解析出来的URL进行预处理后,以其各字符对应的码值按下式计算出其哈希值: 式中为解析出的网页URL集合;Ai为Ui的哈希地址;ni为对Ui进行预处理后的字串长度;Ck为对Ui进行预处理后左起第k个字符的码值;S为哈希槽容量.上式表示从URL字符串U到其哈希散列值H的映射关系. 输入:URL;S. 输出:URL哈希值. 算法描述: (1)针对URL初始化; (2)按照式(1)进行URI。哈希值计算; (3)释放空间,返回哈希值. 算法二:基于网页内用网页主体内容间的相似程度来判断它们 是否为近似相同,而网页主体采用主题概念进行表示.当两个网页主体相似比例达到设定的经验阈值时就认为它们为近似相同,不需重复下载.网页Ui(i∈[1,n])使用特征向量进行表示,其主题概念权 值wij采用以tfidf为主其他策略为辅的方式来确定, 上式对tfidf算子(用t表示)乘以一个因子C来表示不同类型的页面tags对权值的影响,目的是对位于不同位置的词条作不同的加权处理.通过试验分析可以确定针对不同tag标记相应的系数C的经验 值.同时综合考虑概念长因子z、词性因子P等诸多因素,加权体系可表示为上述诸多因素的一个函数, 最后输出最能代表该文档的优个权值较高凯,王永成, 肖君 上海200030《网页去重策略》 容的去重 6

大的主题概念.而用来判断两个网页A和B之间相似的标准是通过统计主题概念词串的共现个数.如果共现个数大于预先设定的经验阈值,就认为网页A和B为近似相似. 5. 研究PageRank算法和MapReduce算法并填写如下表格: 算法名称 PageRank 基本原理 PageRank超链分析算法是Google搜索引擎采用的页面排序算法。Google沿用了传统搜索引擎的架构设计,其与传统的搜索引擎最大的不同之处在于它对网页进行了排序处理,使在最重要的网页出现在检索结果的最前面,其核心就是PageRank超链分析算法。通过计算出网页的PageRank值,从而决定网页在查淘返回结果集中的位置。PageRank值越高的网页,在返回结果中越靠前。 该算法基于下面2个前提: 前提1:一个网页被多次链接,则它可能是很重要的;一个网页虽然没有被多次引用,但是被重要的网页链接,则它也可能是很重要的;一个网页的重要性平均地传递到它所链接的网页。 前提2:假定用户一开始随机地访问网页集合中的一个网页,以后跟随网页的链接向前浏览网页,从不回退浏览,而浏览者选择本页中任意一个链接前进的 概率是相等的。在每个一个页面,浏览者都有可能对本页面的链接不再感兴趣,从而随机选择一个新的页面开始新的浏览。这个离开的可能设为d。从而页面的PageRank值就是浏览者访问到该网页的概率。 设定一个网页A,假设指向它的网页有T1,T2,...,Tn。令C(A)为A出发 指向其它页面的链接数目,PR(A)为A的PageRank,d为衰减因子(通常设为 0.85),则有: 参考资料 陈杰 浙江大学 《主题搜索引擎中网络蜘蛛搜索策略研究》 MapReduc

MapReduce是一种编程模型,用于大规模数7

百度百科MapReduce e 据集(大于1TB)的并行运算。概念\(映射)\和\(化简)\,和他们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。他极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。 当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(化简)函数,用来保证所有映射的键值对中的每一个共享相同的键组 http://baike.http://www.wodefanwen.com//view/2902.htm 6. 提供通过SEO优化之后的网站首页静态效果图和完整的HTML源代码。

蓝天数码城_专业的电竞鼠标,耳机,键盘网上购物商城

8

9

10


搜索引擎及搜索引擎优化(SEO)实验 - 图文(2).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:小学数学第12册第一单元测试题

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: