使用开源引擎Lucene搭建小型搜索引擎
信息的搜集- 信息的搜集-质量保证 减少重复页面的采集– URL重复的检测和排除 URL重复的检测和排除 – 内容重复的检测和排除
保证重要页面的高优先级– 入度高的网页相对重要 – URL浅的网页相对重要 URL浅的网页相对重要 – 含有被别人广泛链接的内容的网页重要
11
2011-6-3
使用开源引擎Lucene搭建小型搜索引擎
信息的搜集- 信息的搜集-质量保证 减少重复页面的采集– URL重复的检测和排除 URL重复的检测和排除 – 内容重复的检测和排除
保证重要页面的高优先级– 入度高的网页相对重要 – URL浅的网页相对重要 URL浅的网页相对重要 – 含有被别人广泛链接的内容的网页重要
11
2011-6-3
下一篇:Exchange架设邮件服务器