Nutch 0.6 中新的改进
作者:Fenng
出处:http://www.dbanotes.net
日期:January 05, 2005
« Hint does NOT work , New myth ? | Blog首页 | Job Number 最大为多少?(FAQ) »
虽然 Nutch 新的版本(0.6)还没有正式发布。但是已经从 CVS 上看到相关的信息了。从Nutch官方站点也可以得到最新的 nightly 构建版本。0.6 相比 0.5 来说,添加了不少新功能,当然代码量也有很大的扩充--压缩包有 35M 之多。
- 增加了 MP3 文件的解析器(Parser)。从邮件列表中来看,对 PDF 文件解析的开发还在完善的过程中。
- 添加了 plugin.includes,用来控制插件的使用情况。这是个很实用的改进。
- 增加了针对动态页面的规范化模块:RegexUrlNormalizer 。以后对动态页面的处理应该能更好。
- 增加了分析 RTF 文件的插件。0.5 版本中已经添加了微软 Word 文件的解析插件。
- 添加了 clustering-carrot2 插件,以及集群 API 的介绍。
- NDFS(Nutch Distributed File System)的改进。管理方面也作了改进。关于NDFS的信息可以看这里 。NDFS 给 Nutch 的分布式部署带来了可能性。
- 修复了若干补丁。
其他参考
Posted by Fenng at January 5, 2005 11:56 AM
Last updated at 06:21 PM on August 20, 2005
相关文章:
- 关于 Nutch 的一个问题: 中文乱码 - Sep 17, 2005
- Some Hints for Nutch - Feb 19, 2005
- Nutch 开始被 Apache "孵化" - Jan 28, 2005
Trackback Pings
TrackBack URL for this entry:
http://www.dbanotes.net/mt/mt-tb.cgi/58
Listed below are links to weblogs that reference Nutch 0.6 中新的改进:
» Nutch 0.6 is out ! from DBA's Notes
Nutch 0.6 版本正式发布。 [Read More]
Tracked on November 17, 2005 07:33 PM
» Nutch 也将并入 Apache 项目? from DBA notes
Nutch 将并入 Apache 项目,会有什么影响 [Read More]
Tracked on December 11, 2005 10:17 PM