首页

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 (Page 16 of 18)



January 6, 2005

ITPub 的 Blog 是使用 Plog 搭建的。在发帖的时候如果是 '\'(backslash)则会被程序吃掉。

如果是多加一个反斜线,如引号中的样子: '\\'。可以在预览中显示出来,但是正式更新之后就不行了。在 HTML 模式下用 BackSlash Eating.png 来代替,更新文档,OK!应该可以了。(一定注意不要预览)。看来是 Plog 的 Bug 了。

Continue reading "在 Plog 中可以显示 Backslash 么?" »

| | Comments (4)


January 5, 2005

虽然 Nutch 新的版本(0.6)还没有正式发布。但是已经从 CVS 上看到相关的信息了。从Nutch官方站点也可以得到最新的 nightly 构建版本。0.6 相比 0.5 来说,添加了不少新功能,当然代码量也有很大的扩充--压缩包有 35M 之多。

Continue reading "Nutch 0.6 中新的改进" »

| | Comments (0)


January 4, 2005

前几天介绍了 Nutch 的基本信息 以及 如何使用 Nutch 进行 Intranet crawling。下面进行一下全网的爬行(Whole-web Crawling) 的操作测试。

Nutch 的数据包括两种类型:

  • Web 数据库。包含所有Nutch可以辨别的页面,以及这些页面间的链接信息。
  • 段(segment)集合. 每个 segment 是作为一个单元(unit)被获取并索引的页面集合。Segment 数据包括如下类型:
    • fetchlist:指定待获取的一个页面集合的文件
    • fetcher output:包含获取到的页面的文件集合
    • index:fetcher 输出的 Lucene 格式的索引

注:如果发现有解释不清的地方,请参考这里,不过说实话,Nutch的文档远远不够完善,还存在很多语焉不详的地方。

Continue reading "Nutch 初体验之二" »

| | Comments (10) | TrackBacks (1)


January 2, 2005

前几天看到卢亮的 Larbin 一种高效的搜索引擎爬虫工具 一文提到 Nutch,很是感兴趣,但一直没有时间进行测试研究。趁着假期,先测试一下看看。用搜索引擎查找了一下,发现中文技术社区对 Larbin 的关注要远远大于 Nutch 。只有一年多前何东在他的竹笋炒肉中对 Nutch 进行了一下介绍

Continue reading "Nutch 初体验" »

| | Comments (13) | TrackBacks (4)


January 1, 2005

先前在一篇帖子中描述了一下 AskTom Search Plugin for Firefox and Mozilla ,看了一下别的同类插件的代码,不是很复杂,顺便写了几个类似的小插件。其实可以针对一些特定的站点开发有特色的搜索插件。闲来无事,以 ITpub 为例,做个插件测试一下。

Continue reading "ITPub Search Plugin for Firefox and Mozilla" »

| | Comments (1)


December 26, 2004

早晨起来看 BLOG ,发现不少人已经开始年终盘点了。这一年太多的风花雪月的事情,太多的花边、八卦新闻,以至于我看到朋友推荐我看的一个 BLOG 上写着:小道消息,只有小道消息,才能救中国。我不由得笑出声来。Kamus 说,2004,开始融入你的互联网 Horse 说,从blog开始,享受我的互联网 ,我该怎么说呢?似乎是沉溺其中了......

Continue reading "2004 IT 技术年终盘点--个人篇" »

| | Comments (0) | TrackBacks (1)


December 25, 2004

周星驰看来已经很难突破自己的路数了。影片中照例是那么几个近乎雷同的角色。形影不离的搭档总是个笨蛋,一个不是很丑就是有点缺陷最后丑小鸭变成天鹅的女主角(配角?)有着固定动作特点的一些小角色(《功夫》里这次是个喜欢半露臀部的理发师,口音还不是很正),嗜血的反面角色,开头和结尾往往会出现的类似半仙的人物(比如《食神》里的那个算命婆子,《功夫》里有个卖武功秘籍的乞丐)......

Continue reading "《功夫》-- 技穷后的挣扎" »

| | Comments (2)


December 24, 2004

Grub 非彼 GRUB (GNU GRUB)。今天看到卢亮的 Larbin 一种高效的搜索引擎爬虫工具 一文提到 Nutch,Google 找了一下,发现了这个 Grub。此 Grub 是个分布式应用程序(类似 SETI@home ,寻找地外智能生物),该软件的目标有些惊人:

track down every site in the world and provide a real-time map of the Web

Continue reading "Grub-分布式Web爬虫" »

| | Comments (0)


PC Magazine 选出了该杂志关注的年度人物。Blog 在这一年呼风唤雨,People of the Year 自然也和 BLOG 有关。他们分别是 Blogger.com 的 Evan Williams、Meg Hourihan 和 Paul Bausch 以及 Six Apart 的 Mena G. Trott、Ben Trott 夫妇。

Continue reading "PC Magazine 年度人物" »

| | Comments (2) | TrackBacks (1)


Zeitgeist 这个词很有趣,韦氏字典里这么解释:

Pronunciation: 'tsIt-"gIst, 'zIt-
Function: noun
Usage: often capitalized
Etymology: German, from Zeit + Geist spirit
: the general intellectual, moral, and cultural climate of an era 

中文意思可以解释为:时代精神,时代思潮;具有某时期或某时代人特征的品位和观点。Google 每年年末都要发布当年的 Zeitgeist 。可以理解为 Google 的年度关键词。这里还有个 Flash 的交互版

Continue reading "Zeitgeist, Google 2004 Year-End Zeitgeist" »

| | Comments (0)


1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 (Page 16 of 18)