首页

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 (Page 35 of 40)



在邮件列表中看到有人问 Heritrix 爬虫与 Nutch 爬虫的不同。搜索了一下,该项目的领导者是 Gordon Mohr ,Heritrix 主要用在 http://www.archive.org 。基本定义描述:

Heritrix is the Internet Archive's open-source, extensible, web-scale, archival-quality web crawler project.

没想到过了一会儿,在邮件列表中居然看到了 Gordon Mohr 的发言。看来他也比较关心 Nutch 的发展。

Continue reading "Heritrix Crawler vs. Nutch Crawler" »

| | Comments (0)


January 13, 2005

Doug Cutting 在邮件列表中提及新版本 0.6 的发布情况:

I plan to make a 0.6 release before anything is moved to Apache

移到 Apache 之前会发布 0.6 版本,现在 CVS 中的版本已经比较稳定。

Doug Cutting 开发的另一个项目已经贡献到 Apache 项目中,相信 Nutch 的并入会吸引更多优秀程序员投入到开发队伍中来。也相信,不久的将来,有 Nutch 支持的个人搜索引擎或是主题搜索引擎会大行其道。到了那个时候,或许 Google 这种垄断式搜索巨头的影响力已经不再!

Continue reading "Nutch 也将并入 Apache 项目?" »

| | Comments (0)


January 6, 2005

ITPub 的 Blog 是使用 Plog 搭建的。在发帖的时候如果是 '\'(backslash)则会被程序吃掉。

如果是多加一个反斜线,如引号中的样子: '\\'。可以在预览中显示出来,但是正式更新之后就不行了。在 HTML 模式下用 BackSlash Eating.png 来代替,更新文档,OK!应该可以了。(一定注意不要预览)。看来是 Plog 的 Bug 了。

Continue reading "在 Plog 中可以显示 Backslash 么?" »

| | Comments (4)


January 5, 2005

虽然 Nutch 新的版本(0.6)还没有正式发布。但是已经从 CVS 上看到相关的信息了。从Nutch官方站点也可以得到最新的 nightly 构建版本。0.6 相比 0.5 来说,添加了不少新功能,当然代码量也有很大的扩充--压缩包有 35M 之多。

Continue reading "Nutch 0.6 中新的改进" »

| | Comments (0)


1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 (Page 35 of 40)