Heritrix Crawler vs. Nutch Crawler
作者:Fenng
出处:http://www.dbanotes.net
日期:January 14, 2005
« Nessus: 'ca_file' is not set - did you run nessus-mkcert ? | Blog首页 | 配置 lilina »
在邮件列表中看到有人问 Heritrix 爬虫与 Nutch 爬虫的不同。搜索了一下,该项目的领导者是 Gordon Mohr ,Heritrix 主要用在 http://www.archive.org 。基本定义描述:
Heritrix is the Internet Archive's open-source, extensible, web-scale, archival-quality web crawler project.
没想到过了一会儿,在邮件列表中居然看到了 Gordon Mohr 的发言。看来他也比较关心 Nutch 的发展。
我对 Mohr 的发言整理一下。主要有以下几点:
主要目的不同。 Heritrix 是个 "archival crawler" -- 用来获取完整的、精确的、站点内容的深度复制。包括获取图像以及其他非文本内容。抓取并存储相关的内容。对内容来者不拒,不对页面进行内容上的修改。重新爬行对相同的URL不针对先前的进行替换。爬虫通过Web用户界面启动、监控、调整,允许弹性的定义要获取的URL。
二者的差异:
- Nutch 只获取并保存可索引的内容。Heritrix则是照单全收。力求保存页面原貌
- Nutch 可以修剪内容,或者对内容格式进行转换。
- Nutch 保存内容为数据库优化格式便于以后索引;刷新替换旧的内容。而Heritrix 是添加(追加)新的内容。
- Nutch 从命令行运行、控制。Heritrix 有 Web 控制管理界面。
- Nutch 的定制能力不够强,不过现在已经有了一定改进。Heritrix 可控制的参数更多。
暂时还没有看到 Doug Cutting 对二者比较的评价.
Heritrix 的架构示意图:
Nutch 的架构示意图:
Posted by Fenng at January 14, 2005 05:22 PM
Last updated at 06:21 PM on August 20, 2005
相关文章:
- 关于 Nutch 的一个问题: 中文乱码 - Sep 17, 2005
- Some Hints for Nutch - Feb 19, 2005
- Nutch 开始被 Apache "孵化" - Jan 28, 2005
Trackback Pings
TrackBack URL for this entry:
http://www.dbanotes.net/mt/mt-tb.cgi/93
Listed below are links to weblogs that reference Heritrix Crawler vs. Nutch Crawler:
» nissan from nissan
nissan [Read More]
Tracked on April 13, 2006 02:47 AM