用 Sitemap Generator 创建 Google Sitemap

今天偶然注意到 Google 对我的站内搜索数量锐减,从前一段时间的将近 1 万 变成现在的不到 1 千了.稍加分析了一下,原来在每篇文章的页面最上方也加了站点的描述内容,最初的目的完全是为了美观,没想到搜索引擎把这些页面都当作相似页面成处理了.雅虎和百度的站内搜索结果也是类似的.

不由得想起另一个问题: Google 的爬虫到底能不能遍历我的站内所有页面 ? 似乎不太可能.回想起 Google 的 Sitemap 也发布很久了, 并且不提供联机创建 Sitemap 的功能, 已经能够说明对很多比较复杂的站点 Google 仍有不足之处. Google 推这个工具的功能恐怕也是为了用户能从客户端把信息推到搜索引擎这一端(Google 用意).

此前我的站点 Sitemap 采用的是 MT 模板的方式 ,参考 Google Sitemaps using Movable Type , 这样我的旧站的内容就忽略掉了. 我现在使用的 Dreamhost 的服务,是支持 Python 的 ,并且可以 Shell 登陆, 准备用 Google 推荐的 sitemap-generator 来"帮助Google一下". 具体的操作在 Google 的帮助页面有很详细的说明. 需要注意的是,该工具要通过代理才可以下载,不知道其他人是不是也和我一样.

我的操作结果:

$ python sitemap_gen.py --config=dbanotes_config.xml
Reading configuration file: dbanotes_config.xml
Opened URLLIST file: example_urllist.txt
Walking DIRECTORY "/home/fenng/dbanotes.net/"
Opened ACCESSLOG file: /home/fenng/logs/dbanotes.net/http/access.log
Opened ACCESSLOG file: /home/fenng/logs/dbanotes.net/http/access.log.0
Sorting and normalizing collected URLs.
Writing Sitemap file "/home/fenng/dbanotes.net/sitemap.xml.gz" with 10855 URLs
Notifying search engines.
Notifying: www.google.com
Count of file extensions on URLs:
     421  (no extension)
       1  .avi
       6  .back
       1  .cert
       2  .cfg
     238  .cgi
       2  .cgi-original
       1  .chm
      13  .conf
      89  .css
       9  .ctl
      13  .dat
      27  .db
       7  .doc
      12  .dump
    1090  .gif
       4  .gif0000644
       8  .gz
     261  .htm
       2  .htm0000644
    2244  .html
      60  .ico
      82  .idx
       6  .inc
       1  .ini
     219  .jpg
     382  .js
       1  .lang
       5  .lib
     118  .lock
       1  .log
       1  .lst
       2  .mysql
      15  .pdf
    1643  .php
      62  .pl
    1093  .pm
     547  .png
       9  .pod
       2  .postgres
       3  .py
       6  .rar
       6  .rdf
       4  .readme
       1  .rss
       1  .sh
      10  .sql
       2  .sqlite
       2  .src
       1  .svg
       2  .swf
       1  .template
     560  .tmpl
      53  .tpl
      59  .txt
       4  .types
       4  .wsdl
     179  .xml
       1  .xsl
      15  .zip
    1241  /
Number of errors: 0
Number of warnings: 0

之后更新 Google Sitemap 的配置信息,会立刻得到Google确认. 但是最后在搜索引擎中的表现,还要拭目以待.

更多阅读:Apache Cocoon sitemap concept

Updated: 2006-01-29 观察到搜索结果数量已经得到更新. 当日是 1800 多

| | TrackBacks (0) | | Edit

Generator | Trampoline


自定义搜索

本文相关评论|Comments(18)

cero 的评论:

我是用的wp自带的sitemap生成插件做的 效果很不错!最近也换了D的主机感觉确实方便 改天也试下Python

Fenng 的评论:

如果站点只有一个WP,没有其他零碎的文件,那么用WP的插件或者MT的解决方案都是不错的

我现在用 crontab 调度,一天跑一次

lcmtwn 的评论:

我也是Dreamhost用戶,在進行驗證時,遇到底下的問題:
"我們偵測到您的 404 錯誤 (找不到檔案) 網頁傳回標題 200 (正常) 的狀態。"
一直顯示無法驗證
請問你使用時,有遇到類似問題嗎?

build web ranking 的评论:

Hi

GG sitemap 有些软件可以帮你完成的,可以到这里去看看:Creating sitemaps for Google MSN and Yahoo

whatnames 的评论:

毫毫毫毫毫毫毫毫毫毫毫毫毫毫毫毫毫

耐特艾嘉 的评论:

我也按照google sitemap的介绍搞了一个.
但是有个问题想知道, 能不能规定google每天都来访一次, 这样我的blog里的内容就能天天和google搜出来的同步了.

Fenng 的评论:

Google 自然会定期搜索的

不过你的"规定"似乎很难

statistically 的评论:

Hello, there was some interesting site with nice design

statistically 的评论:

Hello, there was some interesting site with nice design

uncooldog 的评论:

你好,请问用日志来自动生成sitemap文件,如果日志很大的话,处理起来要很久的

Fenng 的评论:

是需要很久的。所以我后台Crontab来做,定提高这个Job 的优先级

路杨 的评论:

这个sitemap内容是不是只能包含*,html?xml是否也可以包含?另外,MT插件做的似乎只有文章页面而没有索引页。

Fenng 的评论:

文件类型在上面的Log里已经列出来了

路杨 的评论:

但是看 http://www.dbanotes.net/sitemap.xml 里面的类型全部是html啊:)

Fenng 的评论:

我提交的不是那个 xml 文件

模型展览网 的评论:

我的网站刚建不知道如何被google收录,所以求教具体步骤.
模型展览网网址:http://www.model-shows.com
科技论坛:http://www.model-shows.com/bbs

很想学习如何创建GOOGLE SITEMAP

grantman 的评论:

不错

添加评论

关于这篇文章

这篇文章由 Fenng 于 January 19, 2006 8:20 PM 发布

上一篇:Blog, Blogger,博客与网志

下一篇:Hammerora -- 开源的 Oracle 压力生成工具

回到首页查看最近的文章或者是查看所有归档文章

DBA notes 的订阅数量,点击则可进行订阅
Feed 订阅数量,点击即可订阅最新内容