Entries tagged with “Yahoo” from DBA notes
Yahoo! 发布了一个新的小工具: Yahoo! Shortcuts。该工具旨在加强 Blog 文本内容交互性,似乎只是 Y!Q 的功能延伸而已。目前只有一个针对 WordPress 的插件,对于其他 Blog 发布平台还没有插件推出。看着 WordPress 得到越来越多的支持,我这个 MT 的老用户到真的想转换阵营了。
同样是作为互联网巨头,Yahoo! 的产品发展策略还是比较怪异的。我首先不太理解为什么这么个东西会让雅虎启动这样的二级域名:http://shortcuts.yahoo.com ;另外一个不理解的地方是 Yahoo! 收购了 MyBlogLog 之后就没什么进一步动作,我的言外之意是 Yahoo! Shortcuts 和 MyBlogLog 的某些功能其实是有些重叠的。
病急乱投医,不是很妙。大块头没智慧,谁都有晕的时候。
--EOF--
旧金山举行的 QCon 会议带给我们很多新鲜的信息。虽然没机会参加,但是看看各个网站"晒架构"也是个比较过瘾的事情。请参观并收藏这个页面:Architectures you've always wondered about。
eBay 的架构和去年相比基本是换汤不换药,倒是 Yahoo! 的 Ian Flint(这位老兄是 Bix 的运营总监. Bix 已被雅虎收购) 这个 PPT Yahoo! Communities Architecture: Unlikely Bedfellows 挺有意思,披露了一些鲜为人知的信息。
Yahoo! 社区包括我们比较熟悉的 del.icio.us、Flickr、Yahoo!群组、Yahoo! Mail、Bix等。相当于 Yahoo!把这些属性相近的应用放到一起运营。这个思路倒是和盛大对游戏的运营有些相近。
架构特点
有两点值得注意:1)层次化 2)模块化。这也是大规模作业下的比较经济的途径。
软件架构
首先是操作系统已经从 FreeBSD 逐渐迁移到 RHEL。这怕是雅虎不得已作出来的决定吧。FreeBSD 的开发力量的确不如 Linux,这也是不争的事实。数据库上 MySQL 与 Oracle 都有。Yahoo! 在 DW/BI 用的是 Oracle,构建了一个超大数据库。诸如 yapache、yts(反向代理服务器)、yfor(提供快速失败接管)、 ymon(监控),还有还有ysquid、ypan(cpan的 Yahoo! 克隆) 这些组件都是通过 yinst 来统计部署。关于 Yapache,请参考我以前写的 Yapache-Yahoo! Apache 的秘密
数据放在 Netapp NAS 上(所以有的时候应用之慢也可以理解了),通过快照复制到其他数据中心。
Yahoo! Mail 架构:
这里面居然部署了 Oracle RAC,用来存储 Mail 服务相关的 Meta 数据。非常有趣。
运营维护
监控工具主要用的是 Nagios,用以监控集群。使用标准插件,另外也有自行定制的插件。Nagios 这东西太棒了。主动、被动检查的消息转发是通过 Ymon 来做到。网管上针对 SNMP 的解决方案是用 Yahoo!自己 Y 字头的 Ywatch。这些 Y 字头的东西基本上外面都是找不到的。Yahoo!的技术其实并不那么开放。Google 在运营这方面也好不到什么地方去。趋势图用 Drraw 展现。Drraw 是基于 RRDtool 的 Web 展现工具。

应用服务器的监控是被动的。整个监控系统模块化部署。Nagios 的警告信息转发到 Ywatch 中心控制台。
Note: 上面所有截图版权都属于 Ian (Image COPYRIGHT@IAN) 。如果去看那个 PDF 文件,你或许比我收获更多。我只是让你知道我的想法而已。
--EOF--

Yahoo! 和 Carnegie Mellon 大学合作的开源分布式计算项目代号为 M45,这个 超级计算集群 有 4000 个处理器,3T 内存,1.5 PB 存储空间,自称足以跻身世界超级计算机 50 强。这两天网络上搜索最火的一个词应该就是 Hadoop 了吧? 雅虎的这套集群就是跑在 Hadoop 上。
Hadoop 现在已经有很多不错的应用案例可以参考,比如这篇 Running Hadoop MapReduce on Amazon EC2 and Amazon S3
Yahoo! 或许早意识到自己的 Web 1.0 方式下的计算能力比 Google 差的太远,干脆放手一博,助力 Hadoop 项目,期望能借助开源的力量与 Google 掰一下手腕。从这里我们得知 Yahoo! Hadoop 团队早在 06 年就成立了,当然,这个团队成立的前提是 Doug Cutting 入职雅虎。
雅虎现在不应该担心追不上 Google ,应该担心 Doug Cutting 别被 Google 挖去,否则,可真的没机会了。
--EOF--
中国雅虎这一招也挺绝的。后缀为 yahoo.cn 的邮箱提前对原后缀为 yahoo.com.cn 的 VIP 用户提前开放。网易原来急吼吼的喊着要赶在中国雅虎之前推出无限量邮箱的,看来是没机会了。你有张良计,我有上房梯。笑死。

现在注册要得到邀请信才可以,得不到邀请的可以不用着急,过不了几天就都开放了。
本来想用 "Fenng" 这个 ID 注册,可惜不允许,那就注册一个 "dbanotes" 。无限量容量,谁能用多少呢? 这下子大家心理上都满足了。
--EOF--
深受网民喜爱的 Flickr 这两天被封掉了,不少网友愤怒之余,不知道是否有人产生这样的疑问:雅虎中国会不会把 Flickr 移植到国内来? Flickr 是个好产品,但想到 del.icio.us 的在国内的正宗克隆版: Yahoo! 收藏+ 的发展状况,几乎可以断言,Flickr 进入国内怕也不能有多大作为。
抛开其他的原因不谈,个人觉得雅虎中国(中国雅虎)现在的产品状况有些陷入"焦油坑",尤其是在技术上,很难真正的施展拳脚。所作的一些产品还是依赖于美国的技术架构,尤其是底层的基础架构,举例来说,对于很多 Web 页面,用户发起的 URL 请求都必须要和美国的服务器发生 IO 交互。有这样的问题存在,无论 UE 工程师怎么在本地改进,都是无济于事的。近日有传言谷歌打算把服务器放到国内一部分,而雅虎中国可是早在 2005 年就把 2000余台服务器搬到了国内。这么久还藕断丝连,只能说已经太过于纠缠,没办法大刀阔斧的调整了。
在另一方面,域名的混乱程度我认为也导致了很多问题。域名是:yahoo.com.cn (跳转到 cn.yahoo.com , 服务大多是三级域名,相册是: gallery.i.cn.yahoo.com, 这么复杂的域名 100个人有 99 不能正确输入,四级域名的服务也有,'博客', blog.i.cn.yahoo.com...), 搜索 yahoo.cn ...... 我一直很好奇 Alexa 怎么正确统计雅虎中国的访问量 :)
雅虎最近的动作不可谓不多,比如新推出的 Omni-Search ,的确让人眼前一亮,可是看业界的反应,总有些怪怪的,对,就是不够轰动,没有神秘感。试想,如果是 Google 发布这样的产品,业界的反响会是怎样的?
对于一些除搜索外的其他老牌产品,比如电子邮件,现在越来越不够重视。我觉得电子邮件是一个很好的突破口,如果可以做到市场第一,为什么偏偏要跑到第二去呢? 电子邮件本身或许不赚钱,但是带来的相关收益可绝对不容忽视。远的不说,腾讯不也是 QQ 一个产品带活了一大片麽 ? 而现在,埋头做社区、SNS 那一套玩意儿,胜算不知几何。
BTW: Blog 首页最下方有文责声明.
--EOF--Yahoo! 中国这几天接连发布产品。昨天看到 雅虎空间测试版上线。不少试用者的评价都是负面的,影响最大的应该是 Keso 的寥寥几语。其他人的评价也基本上是基于没有 Flickr 集成、没有 RSS 导入这些。我觉得这多少有点不公平的。Flickr 这个产品考虑到被 Yahoo! 收购的时间,应该不在雅虎中国可引入的范围内,自然不能汉化到中国来,而且雅虎空间是集成雅虎相册的,对国内很多普通用户来说,雅虎相册更为熟悉。至于 RSS 功能,现在没有不排除以后的版本中加进来,现在还是 Beta 版嘛。我这么说当然不是说雅虎中国没有缺点,我在使用的过程中第一个感觉是不够简洁,这个"简洁"不是指功能简单,而是说要让用户对一些功能一目了然,对一些提示不产生歧义,能够无障碍上手开玩。
今天雅虎中国正式发布了 雅虎通网页版。其实我在中午的时候已经看到 CWR 在报道 Yahoo China Launches Ajax Web Messenger。 这篇文章中提到了我的 Blog 名字,通过 egosurf 的机制几乎是第一时间看到的。这个产品因为时间问题,我还没有进行试用。
正如有人说的我们对Google 太不厚道了,对于雅虎中国在新产品上的努力,我倒是我觉得我们也有些太苛刻了。雅虎中国一直在进步,或许我们应该给雅虎中国、也给谷歌一些鼓励,给一些掌声!
BTW:个人观点,个人观点。
--EOF--
另外一个消息,微软准备支持 OpenID 了。
最近 Google 发生了两件比较有趣的事情。其中的一件是 Google Apps 服务中的翻译错误:"即使通信"("即时通信"之误)。我是从 Zola Blog 上看到的。相信有不少用户也都发现了这个小瑕疵。到现在为止,谷歌还没有作出纠正。我倒是很希望这个事件能够在他们的黑板报上作一下说明。Google 黑板报刊登的内容如果都是散文诗会很没有意思。
Google 最近的负面新闻多了起来,这个事件或许也能当作 Google 不懂中文的一个证据了。
另外的一件事是关于 Google 的 UI 抄袭(或者好听一点说是借鉴)。Yahoo! 大名鼎鼎的 blogger Jeremy Zawodny 在 Google Blatantly Copies Yahoo!? 这篇 Blog 中多少表达了某种不满。与之相呼应的是,Google 的明星 blogger Matt Cutts 旋即 写了一篇 Blog 作出了"解释",但是 Matt Cutts 话题一转,拿 AdWords 的 UI 样式来说事,那意思是说 Yahoo! 以前也抄过我们的。我个人觉得 Matt Cutts 这样的态度多少让人觉得是做了错事在找借口。 非常有趣的是,Matt Cutts 是从 Robert Scoble(前微软的著名Blogger) 处得知这一消息的。
--EOF--
del.icio.us 与 Furl、Spurl 哪一个更火?
Movable Type 与 WordPress 、Yahoo! 360 哪一个更受用户关注?
Ubuntu 与 Gentoo 谁的上升势头更快?
Yahoo! 的 Tech Buzz Game 或许能回答这些问题。这是 Yahoo! Research 与 Oreilly 合作的一个项目。
软件产品与技术按类别被虚拟成不同的股票,每个注册账户有虚拟的 $10000 。你可以用这笔钱购买你看好的软件或者产品。玩法和炒股票没什么大的差别。如果说有不同,那么可能是很多玩家会选择自己喜欢或支持的项目或是软件产品。
每支股票的价格波动根据什么确定呢? 主页上的说明:
Markets in the Tech Buzz Game reflect a mix of companies, products, and technologies on O'Reilly's radar. Follow the Tech Buzz Game for a view into community sentiment about the future of technology.
玩了一段时间,感觉是一个很好玩的 Web 2.0 应用。我买的几只"股票"现在表现如下:

--EOF--
(现在是广告时间)
如果你对海量数据有较强的分析处理能力,能够透过数据发现一些潜在的问题;
如果你有超强的逻辑推理能力,能够敏锐的寻找到支持你论据的特征值,还原案发现场;
如果你对 SEO 或者点击器有一定的了解,做过这方面的探索研究或者是实践;
如果你曾经是一名站长,厌倦了江湖争斗,希望成为网络秩序的捍卫者...
那么你就是我们最合适的人选,我们诚邀你加盟我们(雅虎中国)的竞价防作弊Team,还我们的客户一个明亮纯洁的广告投放空间。
如果你不具备以上的条件,只要你有一颗正直的心,同时有希望成长为一个经验丰富的网络安全卫士的决心和勇气。当你具备以下技能后,你仍然可以加入我们的队伍。
1. 1 年以上工作经验。
2. 半年以上 Linux 使用经验。
3. 开发语言:Perl/PHP/Shell,熟练掌握其中至少1种。
4. 了解 HTML/JavaCcript 网站制作技术,具有网站制作、开发经验。
5. 有过海量(百万以上)数据统计、分析经验更佳。
6. 有一定的沟通能力,具有协同工作经验。
来吧!惩恶扬善,维护世界和平的重任就落在你的肩上了!
此时此刻,非你莫属!
感兴趣的朋友给我发电子邮件吧: dbanotes@gmail.com
--EOF--
继雅虎中国推出搜虫活动之后,第二个活动又隆重登场了:雅虎搜索盲测大行动-搜索引擎谁是谁? 。这是搜索质量的直接 PK.
这个活动互动性比搜虫活动更好,参与的用户在提供自己的电子邮件地址后即可参加"盲测"的小测试,这里的"盲测"指的是隐去搜索引擎标志后在两个搜索引擎中选择符合期望的结果,然后根据搜索出来的结果作比较,选择哪一个结果是雅虎搜索出来的内容,作完了即可抽奖,奖品挺丰厚(据说高达100万)。当然,这个测试还是有点难度的(雅虎和百度搜索出来的结果的确非常接近),第一关“热词挑战”(给定的关键词)过后才可以进入到第二关“自由挑战”(用户自行选定关键词)。谁中奖了别忘了告诉我一声。
这次活动的网址和上次的一样, fun.yahoo.cn,的确挺 fun :)
相信有不少用户参与这个活动之后会对雅虎搜索质量有着进一步认识。
BTW: 百度的确是给自己的内容加的权值比较高。比如搜索一些内容,一般会把百度贴吧的结果放在第一位。搜索软件,则可能把天空搜索排在第一位。这样有些既作裁判员又作运动员的意味。或许搜索引擎都有这样的权力。
--EOF--
这次 Yahoo! Hack Day 最引人瞩目的成果当属:BBAuth(Browser-Based Authentication)。在日常上网使用各个站点的服务的时候,身份验证就让我们很烦,在一个站点输入用户名、密码; 到了另一个站点,还是要输入用户名、密码;个人管理这些安全信息就是一个麻烦事情,而这些身分认证的管理对于一些中小站点来说,也是一个不小的负担。BBAuth(基于浏览器的身份验证) 就是雅虎试图解决这个问题的推出的一个方案。
BBAuth 的示意图如下:

(图是借用官方站点上的)
第三方需要用户身份确认,请求页面重新定向到 Yahoo! 登陆页面,Yahoo! 验证后返回凭证给改第三方站点。
这个服务和 OpenID 都在尝试解决同样地问题。不过,差别还是不小。
Yahoo! BBAuth 的优点是第三方站点可以直接与雅虎的所有用户进行交互。身份验证的成本大大降低。缺点是,不够开放。Yahoo! 相当于一个大磁铁,把使用 BBAuth 服务的 Web 站点集中在自己周围。
OpenID 的优点是开放性好,不存在集中化的弊端。但是没有大商业团体的推动,如果构建的话,总体的成本偏高。
其实我更关心 Yahoo! 认证时候的网络响应速度 :)
对于一些特定的 Web 应用,BBAuth 优势很明显,比如解决 Blog 牛皮癣(Comment Spam) 的问题。
Updated: 已经有人在使用 BBAuth 进行 Blog Commenter 的身份验证
--EOF--
雅虎通新推出了一个很有趣的服务: 雅虎 Pingme 。
这个 Pingme 的服务在雅虎通用户与非雅虎通用户之间建立了一个便捷的桥梁,雅虎 Pingme 服务是基于 Web 页面的,非雅虎通用户无需下载任何客户端无需任何设置,只需要点击一下鼠标即可轻松与雅虎通用户沟通。
雅虎通用户可以申请这个服务并把一小段HTML代码粘贴到 Web 页面上,随时随地与网友沟通,非常适合 Blogge -- 对 Blogger 来说相当于一个活动的留言版 。看看我的例子:
发送时候的效果(左边是发送窗口,右边是接收端的窗口):

如果是 Spam 留言,可以直接举报,这一点考虑得周到。除了用于 Web 页面的代码,还有针对电子邮件的代码,粘贴到模版里即可。
雅虎 Pingme 还有一点瑕疵:
1)雅虎提供的代码段,Image 没有 Alt 属性(上面的例子我已经加上去了) ;
2)应该支持回车发送;
3)发送页面应该加一个提示,我第一次用,直接到上面的窗口去输入了,结果当然是不行,对这两个窗口加上说明会很清晰.
另外,如果在该页面能放置一个反馈的入口就更好了。
这个服务,很有创新性,酷!
--EOF--
作为世界上 NO.1 的 Web 站点,Yahoo! 的 Web 服务器定有独到之处. 这也应该是很多 Web 技术人员关心的一个问题。
前一段时间, Yahoo! 架构软件组的技术经理 Michael J. Radwin 在 OSCON 2006 上作了一个题目为 Hacking Apache HTTP Server at Yahoo! 的报告,透露了很多关于 Yahoo! Apache 的技术信息。
Yahoo! Apache = Yapache , 这是雅虎内部使用的名字吧。发音是(why·apache)(注:根据下面的留言,读音应为[ya`pache])。 YApache 是基于 Apache 1.3 进行 hack 的,目前在向 Apache 2.2 迁移(Prefork Multi-Processing Module ?)。 Michael 介绍说构建 YApache 的原因有三个:
1) 安全性;
2) 节省带宽;
3) NETSCAPE GUIDE BY YAHOO--这是 97 年的时候 Yahoo! 与 Netscape 联合推出的 一个互联网信息与导航服务,需要用到富媒体内容,当时的 Apache 对这样的内容支持较弱,所以雅虎不得不动手改造 Apache (要知道97 年的时候 Netscape 就好比现在的 Google 啊)。据说这才是主要原因。
Apache 1.3 的功能对雅虎来说已经够用 (在 98 年对 yapache 添加了 gzip 的支持),所以这个版本一致用到现在。YApache 的一个倾向性的原则是用进程而不用线程,相对比较保守,不过这样选择的原因也是很明显的:进程更加稳定,线程对与程序员来说,更容易引入新的问题。
接下来 PPT 描述了一些关于 LOG 格式的内容,继续看下去,我感兴趣的是关于配置参数 StartServers / MaxSpareServers / MinSpareServers / MaxClients 的问题。很多 Web 技术人员往往要在这个地方反复推敲。YApache 一般只设置 MaxClients,这个值一般小于 100, 对于 99% 的站点是足够用了。尽量让系统(Yahoo! BSD) Kernel 来处理 Buffer, 在这个地方关于 几个 kernel 参数的设置很有讲究。
关于SSL 的部分我不太感兴趣,倒是最后的 ysar (Yahoo! sar) 看起来是一个有趣的工具.
这样的定制对于 Yahoo! 这样需要大量 Web 服务器的站点来说(现在平均每天接近 40 亿 的 PV),得到的收益无疑是巨大的。对于规模相对较小的 Web 2.0 站点,类似 LightTPD 这样的轻量级 Web 服务器更为适合(比如豆瓣):
$ curl -I www.douban.com HTTP/1.1 200 OK Connection: close Status: 200 OK Content-Length: 13213 Content-Type: text/html; charset=utf-8 Set-Cookie: dbcl2="MPmAySb0OYE::"; path=/; domain=douban.com; \ expires=Thu, 01-Jan-2009 00:00:00 GMT Date: Fri, 22 Sep 2006 12:34:16 GMT Expires: -1 Server: lighttpd/1.4.11
(那些盯着豆瓣页面看的模仿者,很少有人留心豆瓣的运维技术吧)
在线查看这个PPT: Hacking Apache HTTP Server at Yahoo! (PDF Version) (其实这个文档和 05 年的内容基本上是一致的)。

