使用开源引擎Lucene搭建小型搜索引擎
信息的搜集-概念原理: 原理:把整个互联网看成一个大的图,则信息搜集可以看成是图 的遍历。 信息采集系统也常常称为Robot, Spider, Crawler等等
目标: 目标:快速获得高质量的网页 实际上是图的遍历过程通过种子页面或站点(Seed),获取更多的链接,将它们作 为下一步种子,不断循环。 这个过程一般永远不会结束!6
2011-6-3
使用开源引擎Lucene搭建小型搜索引擎
信息的搜集-概念原理: 原理:把整个互联网看成一个大的图,则信息搜集可以看成是图 的遍历。 信息采集系统也常常称为Robot, Spider, Crawler等等
目标: 目标:快速获得高质量的网页 实际上是图的遍历过程通过种子页面或站点(Seed),获取更多的链接,将它们作 为下一步种子,不断循环。 这个过程一般永远不会结束!6
2011-6-3
下一篇:Exchange架设邮件服务器