Grub-分布式Web爬虫
作者:Fenng
出处:http://www.dbanotes.net
日期:December 24, 2004
« PC Magazine 年度人物 | Blog首页 | 这一年读过的小说 --《收获》篇 »
此 Grub 非彼 GRUB (GNU GRUB)。今天看到卢亮的 Larbin 一种高效的搜索引擎爬虫工具 一文提到 Nutch,Google 找了一下,发现了这个 Grub。此 Grub 是个分布式应用程序(类似 SETI@home ,寻找地外智能生物),该软件的目标有些惊人:
track down every site in the world and provide a real-time map of the Web
Grub 的资助者是 Looksmart 公司。如果感兴趣,可以下载客户端工具,用空闲的 CPU 资源与网络带宽为 Web 搜索添加一份自己的力量,共同构建世界上最大的最灵敏(?)的 URL 信息数据库。客户端工具目前有 Windows 版本和 Linux 版本,最新的版本号是 2.5 。
该工具的界面一瞥:
在这里可以查看一些用户统计信息,可以看到排名第一的用户已经贡献了768,071,848 个 URL (to Dec-24-2004)。
Posted by Fenng at December 24, 2004 10:43 PM
Last updated at 06:20 PM on August 20, 2005
相关文章:
- Http 1.1 Etag 与 Last-Modified - Oct 25, 2005
- 测试 OpenRSS.net 在几个搜索引擎的情况 - Oct 24, 2005
- 站点迁移到了国外 - Oct 18, 2005
Trackback Pings
TrackBack URL for this entry:
http://www.dbanotes.net/mt/mt-tb.cgi/37
Listed below are links to weblogs that reference Grub-分布式Web爬虫:
» Nutch 初体验 from DBA's Notes
Nutch, crawl, 搜索引擎爬虫工具, 介绍, 测试 [Read More]
Tracked on November 17, 2005 07:35 PM
» Nutch 初体验 from DBA notes
Nutch, crawl, 搜索引擎爬虫工具, 介绍, 测试 [Read More]
Tracked on December 11, 2005 10:21 PM
» Nutch 初体验 from DBA notes
Nutch, crawl, 搜索引擎爬虫工具, 介绍, 测试 [Read More]
Tracked on December 11, 2005 10:23 PM
» Nutch 初体验 from DBA notes
Nutch, crawl, 搜索引擎爬虫工具, 介绍, 测试 [Read More]
Tracked on August 3, 2006 12:29 PM
» kentucky wild cat gear from kentucky wild cat gear
[Read More]
Tracked on April 13, 2007 02:54 PM
» furniture salon spa from furniture salon spa
[Read More]
Tracked on April 14, 2007 04:42 PM
» form free rental from form free rental
shit-happens 3942723 Modern view of form free rental. [Read More]
Tracked on June 17, 2007 04:54 PM
» police picture from police picture
shit-happens 3942723 The best of police picture. [Read More]
Tracked on June 20, 2007 05:52 PM
» ali biography muhammad from ali biography muhammad
shit-happens 3942723 Approved articles about ali biography muhammad. [Read More]
Tracked on June 25, 2007 09:56 AM