Google 的 robots.txt

我们知道,通过 robots.txt 文件可以阻止(不是绝对的)搜索引擎的爬虫或者机器人对自己站点的搜索行为。无意中看了看 Google 的 robots.txt 文件。

看看内容:

User-agent: *
Disallow: /search
Disallow: /groups
Disallow: /images
Disallow: /catalogs
Disallow: /catalog_list
Disallow: /news
Disallow: /pagead/
Disallow: /relpage/
Disallow: /imgres
Disallow: /keyword/
Disallow: /u/
Disallow: /univ/
Disallow: /cobrand
Disallow: /custom
Disallow: /advanced_group_search
Disallow: /advanced_search
Disallow: /googlesite
Disallow: /preferences
Disallow: /setprefs
Disallow: /swr
Disallow: /url
Disallow: /wml
Disallow: /hws
Disallow: /bsd?
Disallow: /linux?
Disallow: /mac?
Disallow: /microsoft?
Disallow: /unclesam?
Disallow: /answers/search?q=
Disallow: /local
Disallow: /froogle?
Disallow: /froogle_
Disallow: /print?
Disallow: /scholar?
Disallow: /palm
Disallow: /complete

可以看出 Google 对大多数入口都是不允许搜索的。也怕后院起火:) /cobrand 这个有些陌生,看看什么内容?

Google.Cobrand.png

在 2000 年的时候,Google 的界面还要简洁。顺便看看百度的robots.txt:

User-agent: Baiduspider
Disallow: /baidu

User-agent: *
Disallow: /shifen/dqzd.html

/shifen/dqzd.html 这个页面干什么的?打开看看,原来是竞价排名区域核心代理一览表以及地区总代理一览表。这也算不上什么重要信息阿,还藏着掖着的。

再看看 MSN Search 的:

# robots.txt for http://search.msn.com

User-agent: *
Disallow: /results
Disallow: /keepalive/
Disallow: /static/
Disallow: /w3c/
Disallow: /cfgs/
Disallow: /schema/
Disallow: /kids/
Disallow: /Kidz/
Disallow: /pass/

虚拟目录,基本都进不去

robotstxt.org 几乎可以找到关于 robots.txt 的一切信息,包括互联网上 Robots 的数据库(可惜的是,国内搜索引擎的信息几乎为0,是否也反映了一些问题呢?)。

| | TrackBacks (0) | | Edit

Generator | Trampoline | 外贸英才网 | Vinyl fence

自定义搜索

本文相关评论|Comments(3)

rw 的评论:

good

software download 的评论:

我的GG sitemap里面既然有这个错误,晕死了,是怎么回事?
HTTP 错误 (1)
HTTP 错误/未找到域名
可能未正确解析 DNS。我们可以与 DNS 服务器通讯,但无法找到域名。

添加评论

关于这篇文章

这篇文章由 Fenng 于 December 22, 2004 11:55 PM 发布

上一篇:关于《CSDN -- Oracle 杂志》第二期

下一篇:MT-Blacklist v2.03-beta released

回到首页查看最近的文章或者是查看所有归档文章

DBA notes 的订阅数量,点击则可进行订阅
Feed 订阅数量,点击即可订阅最新内容