首页

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 (Page 15 of 18)



January 28, 2005

Nutch 目前已被 Apache 基金会接受并放到了Apache Incubator. 项目状态在这里查看:

http://incubator.apache.org/projects/nutch.html
项目内容还在迁移过程中.目前状态是初始的“none yet”

Continue reading "Nutch 开始被 Apache "孵化"" »

| | Comments (0)


January 19, 2005

1月18日,Movable Type 发布了一个新的插件:'nofollow' 。因为是 GoogleYahooMSN 这三个搜索引擎巨头联手抵制 SPAM,估计总能对Blogger们深恶痛绝的SPAM留言起到一定的打击作用。通过对来访者添加的超级链接中自动添加 rel="nofollow" 属性,搜索引擎能够有判断那些是 SPAM 留言,那些试图在 Comments 上获得更好的 Pagerank 的站点要白费气力了。

Continue reading "MT 'nofollow' plugin ,联手抵制SPAM留言" »

|


January 18, 2005

最开始看到车东站点上的关联文章的显示,查找了一下,看到有 BlogFireFox 站介绍的这个Tip,决定使用这个 Related Entries Plugin.配置好之后,重建“单篇文档”的时候报告错误:

Use of uninitialized value in length at ....../plugins/RelatedEntries.pl line 19.
splice() offset past end of array at ....../plugins/RelatedEntries.pl line 77

Continue reading "Related Entries Plugin too!" »

| | Comments (1)


January 17, 2005

2005 Jan 14 ,Nutch.org 发布了 Nutch 0.6 版本。和早前那篇概述中的描述变化不大。我感兴趣的但上次没介绍的内容有:

  • HTML 中添加了 BASE 标记的支持
  • 添加了插件 index-more 和 more.jsp
  • Fetcher.java 新添加了一个选项:-noParsing
  • 添加了 ontology 插件

Continue reading "Nutch 0.6 is out !" »

| | Comments (0)


Linuxtea 上看到一个贴子: 大量图片如何保存到数据库?自己也加了一点错误的讨论。之后和 Piner 聊天的时候,由此他提到China Cache ,找了一下,了解一点 CDN 的概念:

CDN 的英文全称是 Content Delivery Network,即互联网内容发布网络,它是一个建立并覆盖在互联网(Internet)之上、由分布在不同区域的节点服务器群组成的虚拟网络,CDN可以实现把网站的内容高效、稳定地[注:不存在单点故障]发布到离网民最近的地方。这里还有点信息。

以前曾经考虑过下一波互联网的一个重要应用或许是如何快速分发大数据量的媒体内容。比如网络游戏的快速传播、网络直播等。当时考虑到 BT 等工具为代表的 P2P 技术或许能起到一定作用。但现在想起来,P2P 技术很难做到实时的分发。在媒体直播的时候就有些力不从心。

Continue reading "图片存储-CDN-数字图书馆-P2P-BT......" »

| | Comments (0)


January 16, 2005

邮件列表中有人问:如果有两个执行计划,如何判定哪一个更好?COST 能作为判断的依据么?

Continue reading "哪一个计划更好?" »

| | Comments (0)


January 15, 2005

昨天配置了Lilina,把Feed Reader 移到了浏览器中。今天用了一下,还有好多不太完美的地方,动手调整了一下。先调整了favicon 图标,个别站点的图标比较大,但 index.php 页面对图标的大小没有控制这样格式不太整齐。在代码中加入 width 和 height 属性,值都为 16 。调整了item 的默认颜色,原来的暗红色太刺眼。

个别站点的RSS 抓取到的内容总会跑到最前面,不知是 lilina 的问题,还是源 RSS 的问题。忍痛割爱,去掉。

Continue reading "Lilina 调整" »

| | Comments (0)


January 14, 2005

添加了一个自己的 Lilina: http://www.dbanotes.net/lilina/index.php,联机的 RSS Reader! 主要订阅和Oracle与安全有关的几个 blog。在性能问题解决之后再添加新的吧。性能是个问题,参考了 Kreny关于加快 Lilina 显示速度的一些设置,现在好了很多。

车东可能是比较早使用 Lilina 的。我安装使用的是 lilina 的 0.6.1-pre3 版本。因为要测试一下,就用了预览版吧。 Lilina 真的是个很有趣的工具。刚刚用起来,觉得还存在的问题有:

  • 现在可定制的地方太少;
  • 性能不够好,订阅的 RSS 多了之后速度有些无法忍受;
  • 没有可选的 CSS

但愿这个工具越来越棒!

| | Comments (6) | TrackBacks (1)


在邮件列表中看到有人问 Heritrix 爬虫与 Nutch 爬虫的不同。搜索了一下,该项目的领导者是 Gordon Mohr ,Heritrix 主要用在 http://www.archive.org 。基本定义描述:

Heritrix is the Internet Archive's open-source, extensible, web-scale, archival-quality web crawler project.

没想到过了一会儿,在邮件列表中居然看到了 Gordon Mohr 的发言。看来他也比较关心 Nutch 的发展。

Continue reading "Heritrix Crawler vs. Nutch Crawler" »

| | Comments (0)


January 13, 2005

Doug Cutting 在邮件列表中提及新版本 0.6 的发布情况:

I plan to make a 0.6 release before anything is moved to Apache

移到 Apache 之前会发布 0.6 版本,现在 CVS 中的版本已经比较稳定。

Doug Cutting 开发的另一个项目已经贡献到 Apache 项目中,相信 Nutch 的并入会吸引更多优秀程序员投入到开发队伍中来。也相信,不久的将来,有 Nutch 支持的个人搜索引擎或是主题搜索引擎会大行其道。到了那个时候,或许 Google 这种垄断式搜索巨头的影响力已经不再!

Continue reading "Nutch 也将并入 Apache 项目?" »

| | Comments (1)


1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 (Page 15 of 18)