Google 的 robots.txt


作者:Fenng
出处:http://www.dbanotes.net
日期:December 22, 2004

« 关于《CSDN -- Oracle 杂志》第二期 | Blog首页 | MT-Blacklist v2.03-beta released »


我们知道,通过 robots.txt 文件可以阻止(不是绝对的)搜索引擎的爬虫或者机器人对自己站点的搜索行为。无意中看了看 Google 的 robots.txt 文件。

看看内容:

User-agent: *
Disallow: /search
Disallow: /groups
Disallow: /images
Disallow: /catalogs
Disallow: /catalog_list
Disallow: /news
Disallow: /pagead/
Disallow: /relpage/
Disallow: /imgres
Disallow: /keyword/
Disallow: /u/
Disallow: /univ/
Disallow: /cobrand
Disallow: /custom
Disallow: /advanced_group_search
Disallow: /advanced_search
Disallow: /googlesite
Disallow: /preferences
Disallow: /setprefs
Disallow: /swr
Disallow: /url
Disallow: /wml
Disallow: /hws
Disallow: /bsd?
Disallow: /linux?
Disallow: /mac?
Disallow: /microsoft?
Disallow: /unclesam?
Disallow: /answers/search?q=
Disallow: /local
Disallow: /froogle?
Disallow: /froogle_
Disallow: /print?
Disallow: /scholar?
Disallow: /palm
Disallow: /complete

可以看出 Google 对大多数入口都是不允许搜索的。也怕后院起火:) /cobrand 这个有些陌生,看看什么内容?

Google.Cobrand.png

在 2000 年的时候,Google 的界面还要简洁。顺便看看百度的robots.txt:

User-agent: Baiduspider
Disallow: /baidu

User-agent: *
Disallow: /shifen/dqzd.html

/shifen/dqzd.html 这个页面干什么的?打开看看,原来是竞价排名区域核心代理一览表以及地区总代理一览表。这也算不上什么重要信息阿,还藏着掖着的。

再看看 MSN Search 的:

# robots.txt for http://search.msn.com

User-agent: *
Disallow: /results
Disallow: /keepalive/
Disallow: /static/
Disallow: /w3c/
Disallow: /cfgs/
Disallow: /schema/
Disallow: /kids/
Disallow: /Kidz/
Disallow: /pass/

虚拟目录,基本都进不去

robotstxt.org 几乎可以找到关于 robots.txt 的一切信息,包括互联网上 Robots 的数据库(可惜的是,国内搜索引擎的信息几乎为0,是否也反映了一些问题呢?)。


Posted by Fenng at December 22, 2004 11:55 PM
Last updated at 06:20 PM on August 20, 2005


相关文章

Trackback Pings

TrackBack URL for this entry:
http://www.dbanotes.net/mt/mt-tb.cgi/30

Listed below are links to weblogs that reference Google 的 robots.txt :

» degree earn nursing online from degree earn nursing online
[Read More]

Tracked on May 20, 2007 09:36 PM

» mega millions big game lottery from mega millions big game lottery
[Read More]

Tracked on May 23, 2007 03:13 PM

Comments


Post a comment



Hint: 为避免您收到垃圾邮件,请尽量不用使用真实的邮件地址.


Remember Me?