« November 2004 | 首页

1 2 3 4 5 6 7 8 9 10 11 12 13 (Page 5 of 13)



| January 2005 »

December 22, 2004

Google 的 robots.txt

我们知道,通过 robots.txt 文件可以阻止(不是绝对的)搜索引擎的爬虫或者机器人对自己站点的搜索行为。无意中看了看 Google 的 robots.txt 文件。

看看内容:

User-agent: *
Disallow: /search
Disallow: /groups
Disallow: /images
Disallow: /catalogs
Disallow: /catalog_list
Disallow: /news
Disallow: /pagead/
Disallow: /relpage/
Disallow: /imgres
Disallow: /keyword/
Disallow: /u/
Disallow: /univ/
Disallow: /cobrand
Disallow: /custom
Disallow: /advanced_group_search
Disallow: /advanced_search
Disallow: /googlesite
Disallow: /preferences
Disallow: /setprefs
Disallow: /swr
Disallow: /url
Disallow: /wml
Disallow: /hws
Disallow: /bsd?
Disallow: /linux?
Disallow: /mac?
Disallow: /microsoft?
Disallow: /unclesam?
Disallow: /answers/search?q=
Disallow: /local
Disallow: /froogle?
Disallow: /froogle_
Disallow: /print?
Disallow: /scholar?
Disallow: /palm
Disallow: /complete

可以看出 Google 对大多数入口都是不允许搜索的。也怕后院起火:) /cobrand 这个有些陌生,看看什么内容?

Google.Cobrand.png

在 2000 年的时候,Google 的界面还要简洁。顺便看看百度的robots.txt:

User-agent: Baiduspider
Disallow: /baidu

User-agent: *
Disallow: /shifen/dqzd.html

/shifen/dqzd.html 这个页面干什么的?打开看看,原来是竞价排名区域核心代理一览表以及地区总代理一览表。这也算不上什么重要信息阿,还藏着掖着的。

再看看 MSN Search 的:

# robots.txt for http://search.msn.com

User-agent: *
Disallow: /results
Disallow: /keepalive/
Disallow: /static/
Disallow: /w3c/
Disallow: /cfgs/
Disallow: /schema/
Disallow: /kids/
Disallow: /Kidz/
Disallow: /pass/

虚拟目录,基本都进不去

robotstxt.org 几乎可以找到关于 robots.txt 的一切信息,包括互联网上 Robots 的数据库(可惜的是,国内搜索引擎的信息几乎为0,是否也反映了一些问题呢?)。

关于《CSDN -- Oracle 杂志》第二期

《CSDN社区电子杂志——Oracle杂志》第二期发布了。因为一点观念上的差异,没加入到第二期的编辑工作当中。今天在把第二期杂志下载来看了看,排版质量真不敢恭维。

因为里面几篇不错的技术文章都已经在论坛上或是 BLOG 中见到过,所以没有什么太多的新奇感--何况代码部分排版很乱。开篇的那两个关于开发的稿子质量平平,没什么新意。《Oracle计划作业(Job)的探讨》是比较有趣的一篇文章,作者切入的角度很好,恰恰是很多 DBA 容易忽略的地方。Biti_rainy的《一条sql导致数据库整体性能下降的诊断和解决的全过程》似乎有些“炫技”的因素在里边,解决问题的步骤我个人感觉有些跳跃性。Coolyl 的《如何处理Oracle中的坏块问题》描述了如何处理坏块问题,可以加入到 《DBA 求生手册》里去(如果将来有这么一本书的话)。

杂志的最后是 CSDN 图书的广告,推荐的两本书比较糟,搞不明白,国外那么多经典的Oracle 图书,为什么偏要引进类似 Pearson 的 Guerrilla Oracle 这样作品。

总体看,这期杂志和上一期格局变化不大。还是主要由主编写稿子,几乎没有看到网友的投稿作品。杂志的一些文章中存在着整页的大段代码,格式还非常乱,更为主要的是,很多的代码根本没有必要出现。

热力学第二定律说,每一个自发的物理或化学过程都是增熵的。看来,网络信息也是如此。

Bootchart -- Linux 启动过程性能分析工具

sourceforge 上发现了 Bootchart 这款有趣的工具。该工具,可以对 GNU/Linux 的启动过程进行性能分析,并将之可视化。

该软件是为了响应 Owen Taylor 在 Fedora 开发邮件列表中的一则挑战而作。Owen Taylor 在该邮件中提出了目标,并给出了一个简单的实现思路。蛮有意思的。可以在 Bootchart 的站点上找到更多相关信息。

安装非常简单。在该站点下载软件之后,解压缩,然后运行 install.sh 脚本即可。

因为 Bootchart 要修改启动脚本(rc.sysinit),注意最好有一张 Linux 恢复盘以备不测

重新启动系统之后,执行一下如下操作:

#/lib/bootchart/bootlog stop

然后到 /var/log/ 目录下察看是否已经生成 bootchart.log.tar.gz 数据文件。

如果自己系统中已经安装了相关软件,可以在本机生成矢量图。也可以利用Bootchart 站点提供的 Web 服务(提供 Web Form 的 Render 功能),把 bootchart.log.tar.gz 文件上传然后生成图片,有 PNG 和 SVG 两种格式可以选择。

我的机器启动过程分析结果( PNG 格式的图表):

bootchart.png

下载 SVG 格式的图:

Download PNG Chart Sample

重剑无锋 大巧不工

简单的东西往往有其隐含的复杂性,金庸的这句话也很有趣,值得反复思索。

《神雕侠侣》中:

  • “凌厉刚猛,无坚不摧,弱冠前以之与河朔群雄争锋。”(无名利剑)
  • “紫薇软剑,三十岁前所用,误伤义士不祥,乃弃之深谷。”
  • “重剑无锋,大巧不工。四十岁前恃之横行天下。”
  • “四十岁后,不滞于物,草木竹石均可为剑。自此精修,渐进于无剑胜有剑之境。”

剑,IT 人不妨现在理解为软件之“件”。

从这个的角度上说,刚入IT行业,可能急于掌握(精通?)某种语言或软件,比如 Java ,或是 Oracle ,一心要在技术上与人争短长。

工作了几年,眼界开阔了许多,开发人员会对软件工程、开发方法等挂在口边,亦或是三句不离 UML 。

再几年,在业界混出了一定的名气,可能已经成为“资深顾问”、“资深专家”这样的人物,便不屑于小道了,说话都是“我对 SAP 整个系统精通”,“精通 Cisco 整个产品线”...

终于,修成正果,做到了老总( CTO 什么的)的位置,可能是只言片语,几页纸,弱一点的 PPT 也足够,概念、思想阿就足够唬人的了

梁羽生的小说中,对武功亦有类似的描述,不过是“重,拙,大”,缺乏了一点层次感。这三点也是蛮有趣的,比如这个“拙”,形容金庸小说中的石破天,郭靖的境遇,蛮恰当的。

最初发在 ITPub 我的 BLOG 上(这里),这次检起来做了一点修改。

本站相关标签|Tags Cloud