Entries tagged with “Google” from DBA notes

搜索引擎的行为会对网站架构稳定性有影响么? 肯定的。影响都有哪些呢? 且说,Google 的 Jayant MadhavanVLDB 2008 会议上做了题为 Google's Deep-Web Crawl 的报告。这个报告其实也透漏出了 Google 对一些网站的潜在影响的某个方面。

何为 Deep Web ?

  • HTML 表单后的隐藏内容(表单提交后显示的内容)
  • 通过普通搜索引擎获取不到的内容

Deep Web (译为深层网页?) 目前容量大约有多大? 超过100 亿的不重复表单,而且大量都是结构化数据。对搜索引擎用户来说,这部分潜藏的数据是非常有价值的。Deep Web 包括的信息内容:

  • 信息型表单;
  • 登录表单不要;
  • 交互性表单也有用;

Google 的解决办法是基于信息模板(informative templates)。其实不难理解,这些模板(似乎也叫查询模板, Query Template)是在 Google 进行了大量的数据分析的基础上得出来,然后通过反馈迭代修正,加上Google 引以自豪的算法啦,渐渐的模板就会很好用了。

绝大多数网站表单后面是要有数据库支撑的。Google 自己计算出来的模板实际上会对应被爬行网站的 DB 查询上来(Google 也是黑箱研究嘛),如果查询模板不是很匹配,或者是 Google 查询的频率过高,相信会对一个被爬行网站的稳定性带来很大冲击。尤其是针对数据库,一时爆发的大量查询引发的高负载可能会让系统撑不住。

--EOF--

更多的时候,搜索引擎带给一个网站的访问压力甚至大于用户带来的压力,所以,设计的时候也应该尽量采取悲观的方式,不能完全期待 Google 以及其他搜索引擎默认行为都是可以承受的。

| | Comments (3) |

有句俗话说的好,”当你手里拿着锤子的时候,整个世界都成了钉子“,数据库理论专家 David DeWitt 也闹这毛病,他的这篇 MapReduce: A major step backwards 差不多快成最近几天技术圈子的一个笑料了,连久不更新的汪海都来了兴致写了一篇评论

有的时候我怀疑是不是国外这些学院派的教授也和国内这些老学究差不多,固步自封? 估计 David DeWitt 被一群实践派的后生小子当作笑话消遣肯定很恼火,期待他后续的回击。其实话说回来,RDBMS 理论这么多年来基本上也就是搞些"老树成精"的研究,真正转入实际应用的理论怕是真不多,VLDB、BI 方面貌似繁荣,其实也就那么回事。就拿 Oracle 来说(汪海说了:千万不要对自己不熟悉的东西妄加评论),在这几年的 VLDB Endowment 上,发布的论文寥寥。实际在产品中起用的技术就更少了。

我这次到发现一个现象:Google 的牛人列表里好像还真没有数据库方面的理论大师...

--EOF--

| | Comments (1) |

从 Greg Linden 的文章看到的数据:Google 的 MapReduce 平均每天处理 20 Petabytes 的数据。每天能跑完 10 万个工作任务。光是 07 年 9 月,就用掉了 11081 个"机器年" ,跑了 220 万个 Mapreduce 任务。这个计算能力是惊人的。

Yahoo! 也用 Hadoop 实现了 Mapreduce , 我个人感觉和 Google 可能还有一段距离。光有计算环境还不行,还要有应用程序来实现功能,Google 已经实现了超过 1 万个应用程序,Yahoo! 有多少呢?

这方面估计微软更没戏了,要是弄个不包括 "Window" 的 Windows 服务器集群估计还能差不多,否则,光是一个视窗要耗费多少计算资源? 如果服务器规模是几万、几十万台,计算能力的浪费是惊人的。微软的对抗计划是 Dryad.

所以说啊,Google 的计算能力仍是独步武林,虽然有不服气的,但有什么办法? 这方面 Google 就是强啊

--EOF--

补充:

更多的数据(来源):

MapReduce.png

| | Comments (5) |

这则小道消息不知道为什么 GSeeker 没报道:GigaOM 消息说, Google 在自行研造万兆交换机。

Google 自造交换机还是有必要的,2006 年估计五大互联网巨头在网络硬件上支付了 50 亿美元,而 在 GigaOM 的那篇文中说 Google 每个月要消耗 5000 个网络端口,这么看来,自行研制将会节省大量费用。

Google 什么时候弄个 Matrix 出来呢?

--EOF--

| | Comments (0) |

MySQL 应该给 Google 发感谢信: Google 在 Google Code 上发布的 Google Mysql Tools 使得 MySQL 在性能、可管理性、稳定性上都增色不少。

在该项目的首页将这个工具集分为三部分:

* mypgrep.py - a tool, similar to pgrep, for managing mysql connections
* compact_innodb.py - compacts innodb datafiles
by dumping and reloading all tables
* patches - patches to add features to MySQL 4.0.26 and MySQL 5.0.37

这份介绍似乎已经不能完全概括 Google Mysql Tools 了。现在的重点似乎是补丁包部分。根据版本号分为 MySQL4 与 MySQL 5,MySQL 5 的 Patch 现在很少,而 MySQL 4 部分内容真的比较丰富,关键改进列表:

* SemiSyncReplication - block commit on a master until at least one slave acknowledges receipt of all replication events.
* MirroredBinlogs - maintain a copy of the master's binlog on a slave
* TransactionalReplication - make InnoDB and slave replication state consistent during crash recovery
* UserTableMonitoring - monitor and report database activity per account and table
* InnodbAsyncIo - support multiple background IO threads for InnoDB InnoDB 异步IO的支持相信对性能会有很明显的提升
* FastMasterPromotion - promote a slave to a master without restart

MySQL 在联机备份方面是弱势,倒是期待 Google 也能在这个方面做出改进(我非常好奇对于 Google Checkout 数据库是如何备份的).

在 Code 上的另外一个 关键项目 Google Perftools 中的 TCMalloc 对 MySQL 的性能也有很大的改进,相信国内很多出色的 Web 2.0 公司都已经用到这个东西了吧。TCMalloc : Thread-Caching Malloc 号称是目前最快的 Malloc ,对于解决 MySQL 遇到的 Malloc 扩展问题有很大的影响。

没有 Google 的支持,相信 Firefox 不会有现在这么大的影响力。有了 Google 的支持, MySQL 会发展多快 ?

--EOF--

Updated: 2008 年 9 月,Google又发布了一系列的新 Patch

| | Comments (8) |

Google 实验室产品

谷歌弄出来一个网站导航,居然 Logo 上还打着 "Google 实验室"的旗号,IT 天才们原来在做"基础"研究啊! 其实我感觉这个东西找个会写 HTML 的大学毕业生也就搞定了,不知道这个"杀手级别"的应用是否受市场的欢迎。

禁书,传播的好手段

看到论坛里有人说买到了《伶人往事》这本所谓的禁书。一本书不畅销不要紧,只要能沾上"禁书"二字不愁卖不掉。当年的《上海宝贝》不也是洛阳纸贵么? 《伶》这样的图书能够足以满足不少人的窥私癖,还可以看到隔靴搔痒的对我党不满的话,不流行才怪。在豆瓣的用户中,怕是有极多的人标记着对这本书的"我想读"吧?

学术"超男超女"

央视搞的什么"百家讲坛",捧红了若干个学者。真是"板凳要做十年冷,央视开讲便成功"。过年期间看了一两次,印象最深的就是将到某个概念的时候屏幕上弄出来一个动画,一个画面用了几种字体写着某句哲言,我靠,真不是一般的恶俗。身边也有很多人捧着什么《品三国》、《论语心得》开始传统文化速成班的学习,谁让我们上学的时候都学《雨中登泰山》和《荔枝蜜》来着...这冷水我还是不泼了吧。

关于王朔

一句话:真是一个非常伟大的推销员。

--EOF--

| | Comments (12) | TrackBacks (2) |

这两天观察到 FeedBurner 显示的订阅数量激增,一下从 1800 多上升到 2900 多,今天是 2865。原来与 Google Reader 最近可以显示订阅数量有关。

FeedBurner 显示的订阅量激增.png

Google Reader 这个订阅数量看上去好像有些重复。我不太相信现在中文 Google Reader 的用户超过抓虾或者是 Bloglines。

--EOF--

| | Comments (3) |

偶然发现的,输入 link:www.dbanotes.net 查询反向链接,结果数量为 0。怪不得 PageRank 也变为 0 了。

问题在哪里 ? Google 一旦抽疯起来还真让人莫明其妙。在 Yahoo! 中的反向链接结果倒是没啥明显变化。

Updated: 可能和这篇 Google provides backlink tool for site owners 透露出来的变化有关。

Updated2: 在 Google Webmaster Tools 里提交了一个 reinclusion request,不知道管用不。

--EOF--

| | Comments (11) |

最近 Google 发生了两件比较有趣的事情。其中的一件是 Google Apps 服务中的翻译错误:"即使通信"("即时通信"之误)。我是从 Zola Blog 上看到的。相信有不少用户也都发现了这个小瑕疵。到现在为止,谷歌还没有作出纠正。我倒是很希望这个事件能够在他们的黑板报上作一下说明。Google 黑板报刊登的内容如果都是散文诗会很没有意思。

Google 最近的负面新闻多了起来,这个事件或许也能当作 Google 不懂中文的一个证据了。

另外的一件事是关于 Google 的 UI 抄袭(或者好听一点说是借鉴)。Yahoo! 大名鼎鼎的 blogger Jeremy Zawodny 在 Google Blatantly Copies Yahoo!? 这篇 Blog 中多少表达了某种不满。与之相呼应的是,Google 的明星 blogger Matt Cutts 旋即 写了一篇 Blog 作出了"解释",但是 Matt Cutts 话题一转,拿 AdWords 的 UI 样式来说事,那意思是说 Yahoo! 以前也抄过我们的。我个人觉得 Matt Cutts 这样的态度多少让人觉得是做了错事在找借口。 非常有趣的是,Matt Cutts 是从 Robert Scoble(前微软的著名Blogger) 处得知这一消息的。

--EOF--

| | Comments (7) |

看到 Dash 同学说"终于了了心愿,申请Google Apps for Your Domain成功,不由得想笑。原来也有和我一样一次一次反复申请未果的人。参考了这里介绍的方法,总算申请成功了。我之所以一次一次申请,主要还是想把 dbanotes.net 的邮件切换到 Gmail 上。Google Apps 提供的其他服务我倒不是很喜欢用。

到现在为止,用在 dbanotes.net 上的 Google 服务有:

  • Google 站内搜索(站内搜索页面)--似乎使用的人不多。
  • Google Adsense --用来赚钱小钱.聊胜于无,得到一个正反馈.
  • Google Analysis --偶尔使用. 大多数时间还是用 Awstats
  • Google Sitemap --用以提高 Google 收录质量

与之相比, 使用的 Yahoo! 服务有:

  • Flickr -- 偶尔使用
  • del.icio.us -- 不可替代的服务。本地做了一个镜像
  • MyBlogLog -- Yahoo! 最近收购的这个服务很有创新性,我越来越喜欢了。现在使用的频率已经比较高.查看本站的统计信息

有趣的是, Yahoo! 的这三个网络服务都非常容易 Mashup,也都是独立域名。而 Google 则把所有的服务都置于 Google 的子域名下。二者对于资源的整合策略差别非常明显。

--EOF--

| | Comments (11) |

这是昨天从 MyBlogLog 统计结果 得到的一则奇怪的信息。用 Google 搜索 "技术高手",得到的结果:

技术高手


排在第一位的搜索结果和搜索内容相比,看不到任何相关性。不得其解。

--EOF--

| | Comments (33) |

Google 前几天推出了 Blogsearch Pinging Service ,鼓励用户更新内容后自动通知 过来, 即时搜索的能力会更好一些。一些配置方法参考 平生一笑 写的 Google Blog Search Pinging Service的使用 应该足够了。

今天 FeedBurner 也支持 Google 的这个服务了。配置路径在 Publicize -> PingShot 下:

FeedBurner_Google_blogsearch_ping.png

这个额外的 Services 最多只有 5 个,所以需要把图中上面删掉一个再把 Google 的添加进去。

--EOF--

| | Comments (2) |

使用 Google Adsense 的用户最郁闷的事情恐怕就是"账户被停",Google 在停掉用户账户的时候是没有任何商量余地的。在网上看到一篇 10 Great Things NOT to Do with Google AdSense,作者提出的 10 条堪称金科玉律,值得我们借鉴。

这 10 条分别是:

1) 不要在注册 Google Adsense 账户的时候使用虚假信息。

2) 不要 Hack 或是修改 Google AdSense 授权给你的代码。

3) 不要在注册页面、确认页面以及"感谢"页面放置 Google Adsense 广告。

4) 不要在同一页面同一时间显示竞争对手的广告服务。

5) 不要搞"请点击本站广告吧"或是其他任何鼓励访问者点击 Adsense 的行为。

6) 绝对不要点击自己站点上的 Adsense 广告,哪怕是你真的对这个产品感兴趣。

7) 不要设置误导性的标签,比如"赞助商链接"、"广告商"之外的其他标志。

8) 不要进行垃圾关键字堆积与容易造成纠纷的所谓"技巧"。

9) 不要针对 Google 所禁止的广告内容列表发布广告。

10) 不要因为上面的 9 条戒律的束缚而放弃 Google Adsense 提供给你的赚钱机会,也不要转而去使用其他广告商的服务。

以我自己的 dbanotes.net 来说,第二条稍微有点违反,第三条,用户留言的下方放了 Google 推荐软件的广告,有这个嫌疑,下次 Rebuild 的时候去掉。第六条偶尔会违反,的确是对广告内容感兴趣,自己还真不知道这样会有问题。第 10 条,有一段时间真想不使用 Google Adsense 的服务了,不过倒不是因为上面列举的,而是因为 Google Adsense 脚本会把页面拖得很慢。

我自己有个疑问,有多少 Google Adsense 用户仔细看过那个用户协议呢?

--EOF--

Updated:感谢留言的 IB 指出的一处错误 :)

| | Comments (13) |

Google Adsense 在前不久推出了一个新功能:在自己的网站中显示搜索结果。这样在用户进行搜索的时候就不会转跳到站外的页面了。对投放 Adsense 的站点来说,是一个很好的功能。用这个功能几乎可以替代 MT 的站内搜索了(MT 的搜索实在是消耗资源)。

我尝试在站点上把这个功能启用。参见单篇归档下面的"类似主题搜索"栏目。如果在当前页面显示,有一个小技巧,把代码中的 action 目标参数换成如下 MT 的标记:

<$MTEntryPermalink$> 

这样搜索结果就会在当前的页面上显示了。但是有个非常非常不爽的问题,搜索结果的最下方会出现大面积的空白。我不确定这是不是 Google 修复上一个 关于页面高度的 Bug 后带来的新问题。

那位知道,请通知我一下,多谢!

Updated: 与 Tinyfool 交流了一下,他也认为是 Google 修复 Bug 带来的新问题。我给 Google 去了邮件,期待能够得到回复.

Updated 2: Google Adsense 小组回信:

首先,我们发现您的AFS修改了我们的代码,请注意,计划政策禁止发布商修改广告或搜索代码。

另外,我们的 AdSense for Search 代码利用 HTML FORM 提交搜索查询。为了使 AdSense for Search 代码正常运行,请不要将其嵌套进网页的另一组 < FORM> 标记中。如果您希望在自己的网页中执行 AdSense for Search 功能,请将其粘贴到网页中所有现有 <FORM> 标记之外的部分。


晕,赶紧按照人家说的作罢

--EOF--

| | Comments (4) |

一直误以为 Google 的 URL 地址是大小写不敏感的。偶然间发现:

https://www.google.com/adsense (可以访问)
https://www.google.com/adSense (http 404 错误)

看来不是。继续测试一下其他地址:

http://www.google.com/intl/zh-CN/options/ (可以访问, 中文)
http://www.google.com/intl/zh-cn/options/ (可以访问, 英文)
http://www.google.com/intl/ZH-CN/options/ (可以访问, 英文)
http://www.google.com/iNtl/zh-CN/options/ (不可访问, 404 错误)

Apache 的 mod_speling 如果启用的话,并且 httpd.conf 文件 配置了

CheckSpelling on 
的话,Apache 则大小写不敏感。但这样性能会很差。

也或许,Google 这样做就是为了追求更好的性能而没有使用类似的模块(Google 当然没那么简单)或者其他处理,毕竟 Google 整个站点的入口页面并不是那么多。

Updated: 雅虎的站内地址几乎都是大小写不敏感的. 下面两个地址等价:
http://sports.yahoo.com/MLB/scoreboard
http://sports.yahoo.com/mlb/scoreboard

Yapache 还是有技术含量地。

--EOF--

| | Comments (5) |

看到有人在问今天是什么节日,怎么 Google.cn 的首页 Logo 换掉了?

到 Google 上看了一下,原来 Google 都过第八个生日了,用咱们的说法,9 岁了, 生日快乐, Google!

Google 9 岁了

--EOF--

Updated: 看到GOogle 黑板报也发了一则庆生的网志,并暗示蜡烛的个数是个 Bug.

| | Comments (7) |

前几天购买了 Google 广告服务, 惊奇的发现, Google 的 Adwords 现在已经可以通过银联网络支付了。目前可用的支付方法:

后付款: 万事达卡, 及具有 MasterCard 或 Visa 标记的国际卡(信用卡或借记卡), 维萨卡 预付款: 我们的支付合作伙伴银联支持的银行卡

一直以为 Google 的 Checkout 服务暂时不会进入国内,这个产品目前还不够好,加上国内金融政策的限制,对国内支付市场还不会造成太大的威胁。

但是从这次支付手段的调整看,表面上是 Google 选了银联,实际上从产品条款中可以看到这却是 Google 和上海构寻广告有限公司 公司之间的事情。这个公司不会也和 Paypal 的"上海网付易信息技术公司"是一样的性质吧 ?

支付市场这个兵家必争之地,更大的血战即将上演。

--EOF--

| | Comments (8) |

其实这个现象观察到好久了,那就是 Google Blogsearch实效性非常好,一般情况下 4-10 分钟就可以通过 搜索结果RSS 观察到我刚发表的 Blog 。因为 Technorati 访问困难,很长一段时间里,Google Blogsearch 就成了我进行 Blog eogsurf 最常用的工具。

国内的 Blogger 中,Keso 应该是 Google Blogsearch 的最忠实用户:

“我还是很关心别人怎么说我和我写的东西,所以看到有人谈论我,我就会很感兴趣地去读那些博客。提到我的人,多半是我博客的读者,他们关注我,我也会关注他们。很多次,都是因为有人提到了我的名字,我才发现了新的博客。”博客搜索为博客群体彼此间进一步的交流提供了可能。”--Keso 接受《互联网周刊》的采访

可能是所有 Blogger 的天性,有的时候我也这样,看到别人链接或引用了我写的东西,总要跑上去看看有没有引发出来什么更新鲜的内容。

发现,有的时候也是一种乐趣。

Blogsearch 中的 inurl 语法虽然有效,但是搜索结果有很大问题。应该用 Blogurl 语法(如 blogurl:dbanotes.net 所以车东以前做的测试似乎不太能够说明问题。我的测试结果:

BSP 名字结果数量
spaces.msn.com105,881,316
myspace.com73,014,029
Blogspot.com 66,813,563
Spaces.live.com 10,980,686
Livejournal.com62,989,323
Typepad.com 4,405,857

MSN Space 是当之无愧的第一大 BSP。

国内的 BSP 除了 CSDN 结果有三万多,其他的 BSP 都少的可怜--有的还没有我个人 Blog 的多。推测原因可能第一个是网站页面结构普遍设计的不好,对 Blog 的一些内置的技术特性理会的不好,也难怪,人家都是用作新闻的手法搞 Blog 的。再一个或许是 Google 对中文用户还没有投入那么大的兵力( Blog 的及时性可能只是针对少数更新频繁的 Feed 抓取 )。 如果你知道原因,请告诉我。

--EOF--

| | Comments (2) |

无数 Blogger 在向更多的人传递一个消息: Google 中国黑板报。但不知道给 Google 这个黑板报提意见的有多少? 我去了一封邮件建议提供留言评论功能,不到 1 秒种就收到了回信--自动回复的.不用激动,信是乱码! 当然我用的是 Gmail 发送的邮件. 现在我用 Gmail 还经常有这种乱码的现象发生.

作为 Google 的一个忠实用户,多么希望 Google 的一些产品能够快速改进阿.随便列举两个:

1 Gtalk 的文件传输功能。我曾经不止一次地和朋友说过,如果 Gtalk 能提供文件传输的功能,其他大部分 IM 都可以不用了.但是这个功能就是迟迟不见,怎么不让人着急?

2 Google Adsense 的收入用来做 Google Adwords 广告,或者广告收入可以直接汇入在线支付工具.对于一些小网站来说,这个"以网养网"更有效; 这样就节省了从银行走帐了,支票对广大用户来说太麻烦.

| | Comments (11) |

我们知道,通过 robots.txt 文件可以阻止(不是绝对的)搜索引擎的爬虫或者机器人对自己站点的搜索行为。无意中看了看 Google 的 robots.txt 文件。

| | Comments (3) |

DBA notes 的订阅数量,点击则可进行订阅
Feed 订阅数量,点击即可订阅最新内容

订阅更新

如果喜欢用 RSS reader 获取信息,可以订阅这个 Feed 以便获取 “Google” 将来的更新内容.

Subscribe to feed 点击订阅

标签