Google排名技术研究 27 May 2008 01:35 am

[转载]最权威的Google排名算法解密

    说它最权威是因为是Google工程副总裁,负责排名算法的Udi Manber,发表在Google官方博客的一个帖子。下面捡主要内容翻译一下,想看完整原文的请参考Google官方博客Google 搜索质量简介。

    搜索质量组是Google内部负责搜索结果排名的。每天Google处理无数查询,Google需要在不到一秒的时间内从数以亿计的网页中选择出应该返回哪些,以及以哪样的顺序显示。
Google对排名算法一直都比较保密,主要原因有两条:竞争及防止被滥用。

    Google排名算法的细节是Google皇冠上的珍珠,我们以它为傲,并且非常注意保护。但是完全保密有时候也不是理想状况,所以Udi Manber等人决定与站长多沟通,谈一谈有什么新鲜事,解释一些老的内容,给点建议,参与对话等。这篇帖子是第一篇,以后还会有其他内容。

    Google这个部门的心脏是核心排名小组。排名是相当困难的,比大部分人所想象的更困难。其中一个原因是语言都是模棱两可的,文件也没有任何规则,怎样理解信息没有标准。所以我们需要理解任何人,因为任何原因所写的任何网页。这只是一部分。我们还需要理解用户的查询,再将查询投射到我们所理解的文件上。更不要说不同的人有不同的需求。而且我们需要在几毫秒之内完成这一切。

    Google排名算法最出名的部分就是PageRank。PR 现在还在使用中,不过已经是一个更大的一系统中的一部分。其他部分还包括语言模块(处理短语,同义词,方言,拼写错误等的能力),查询模块(不仅仅是语言,还包括人们怎样使用语言),时间模块(有的查询返回一个30分钟前刚创作的网页最合适,有的时候返回已经存在很长时间的网页更合适),个性化模块(不是每个人都需要相同的东西)。

    另外一个组负责评估我们做的怎样。目标是改善用户体验,这不是主要目标,而是唯一的目标。有每分钟进行的自动评估,阶段性整体质量评估,更重要的还有个别算法调整的评估。当某个工程师有个好主意,开发一个新算法后,我们对这个主意进行测试。一组统计学家会检查数据,确定这个新主意的价值。

    2007年,我们做了450次以上的调整,差不多每个星期9次。比如今年1月份,我们对PR算法做了大幅调整。大多数时间我们都是寻找相关性改善的方法,有时我们也致力于简化算法,简单就是好的。(Zac的注释:关于简化算法这句话,是紧接着PR算法调整之后说的,不确认他是讲简化了PR算法,还是说笼统的对算法的简化。我的感觉是PR算法确实有了很大的改变。给我的感觉是,基本上给我们看的工具条PR是不准的,尤其很多该有PR值得内页显示PR为零。也许这就是Udi Manber所说的算法简化造成的。)

    在过去两年中,国际搜索是我们的主要焦点之一,包括所有的语言,而不仅限于主要语言。

    另外一个小组专门负责新功能和用户界面。Google的用户搜索界面相当简单,当我们增加新功能时,尽量确保对用户来说是简单易用的。在过去一年中,主要的改变包括通用搜索,Google Notebooks,自定义搜索引擎以及iGoogle的改进。用户界面小组有一组易用性专家,在辅助研究用户及评估新功能。

    还有一个小组专注于反垃圾和其他各种被滥用的技巧,这也就是Matt Cutts所负责的小组。这个组识别新的垃圾技术,并且以可扩展的方式克服这些垃圾。和其他组一样,这个组也是要处理国际多语种。反垃圾组与Google站长工具组紧密配合。
    还有其他专门的项目组。整体来说我们的组织结构相当非正式,人员调动频繁,新项目也随时开始。

    

作者: Zac@SEO每天一贴 原载: 中新虚拟主机 版权所有。转载时必须以链接形式注明作者和原始出处及本声明。

个人随笔 18 May 2008 09:30 pm

搜索引擎在全国哀悼日的表现

搜索引擎在全国哀悼日的表现

2008年5月12日14时28分,在四川汶川县(北纬31.0度,东经103.4度)发生了7.8级(之后经再次确认为8.0级)的大地震。

国务院公告

为表达全国各族人民对四川汶川大地震遇难同胞的深切哀悼,国务院决定,2008 年 5 月 19 日至 21 日为全国哀悼日。在此期间,全国和各驻外机构下半旗志哀,停止公共娱乐活动,外交部和我国驻外使领馆设立吊唁簿。5 月 19 日 14 时 28 分起,全国人民默哀3分钟,届时汽车、火车、舰船鸣笛,防空警报鸣响。

 百度和Yahoo为了表圾哀悼,将Logo都改为了黑色的字体
 百度对四川地震中的遇难者表示哀悼
Yahoo
 Google 列出明显的黑色字体以表示对遇难的哀悼
Google
Google下午页面如下:
Google

每当看到相关的新闻的时候,都会热泪盈眶,无法言语来表达自己的情。
愿在地震中遇难的同胞永远安息,生者安康!

个人随笔 22 Apr 2008 01:50 am

家乡名字由来—-朗公庙

明洪武年间,有一户姓王的人家,从山西洪洞县迁到新乡县城南十公里的地方。之后,吕、张、岳等姓的人也从外地迁来。他们在这里生息繁衍,修房盖屋,逐渐形成了一条胡同。因王姓人口多,且迁来得早,故取村名为“王家胡同”。

据传,王家胡同有个姓王的人,诚实厚道,做一手好皮活儿,人们都称他“王皮匠”。王皮匠成家以后,老婆接连给他生了7对双胞胎,14个男孩儿。如此沉重的生活负担,压得他喘不过气来。无奈,他只好背井离乡,到外地去谋生路。在外地他走街串巷揽活,生活开始有所好转,又在黄河南娶了个老婆。说来也巧,他的第二个老婆又给他生了7对双胞胎,又是14个男孩儿。带着这十几个孩子在外地谋生,生活的艰难可想而知,加上离家时间久,思念家乡,他又带着老婆孩子回到了老家。乡亲们见他身后带着一大群孩子,都赶来向他祝贺,他家顿时热闹起来。有一个老人说:“‘王皮匠’前后共‘拾’了14对双胞胎,28个孩子,这是破天荒的奇闻,把咱村改称王二十八屯咋样?”大家都说好。从此,王家胡同这个村名改为“王二十八屯”。

王二十八屯有个在外做小买卖的人叫王来甫,他听说朗公(传说是黄帝的史官)是汉字的创造者,对朗公十分崇拜,回家时专门买了一张朗公像,准备挂在家里当神来敬。乡邻得知朗公是个文字发明家也都很敬佩,并请求把朗公像挂在村西的玉帝庙里,让大家共同来敬。王来甫也因室内地方窄小,怕把画像熏坏,就愉快地照办了。

明宣德年间,敬仙拜神之风盛行。王二十八屯的村民决定翻修、扩建玉帝庙,村民们有钱的捐钱,有物的捐物,砖、瓦、木料很快筹齐了。动工后的第三天中午,当工匠们准备上梁时,忽然有人喊“狼来了!”人们循声望去,果然看见有一条大灰狼从西边向这里奔来。工匠们也顾不得上梁了,小工们举起铁锹、抓钩,瓦工们手掂瓦刀,木匠们拿着斧,呼喊着打狼去了。他们一直追了二三公里远也没有追上,却累得精疲力竭。在回村的路上人们都说:“这回狼没打着,劲儿也都用完了,这四架二丈长的大榆木梁今天看来难架上去啦!”可当他们回到修庙工地时全都愣住了,四架大梁全部升到了八个梁柱上,而且不偏不斜。定神细看,这四架大梁的大头和小头全都放颠倒了。领工的怕村民笑他外行,执意要调换过来。派了几个大力士上去抬梁,无论怎么用劲儿也抬不动。这时有人说:“咱们修庙感动了朗公,这是朗公显灵,把梁架上去的,甭白费劲儿啦,赶快祷告吧!”于是,大家拿来了供品摆上,挂上朗公像,点燃香火,祷告起来。

这件事一传十,十传百,方圆几公里的人都知道了,来此烧香求仙的络绎不绝。村民们捐资塑了一尊朗公的像,安放在庙里,并将“玉帝庙”改称“朗公庙”。从此,王二十八屯这个村名又被“朗公庙”这个带有传奇色彩的名字所取代,一直沿用至今。

个人随笔 21 Apr 2008 10:43 pm

第二届SEO大赛,要参加吗?

第二届SEO大赛得知于ZAC的4月21日文章为祖国而战,名字响亮,我们生于和平,成长在红旗下,能为祖做些什么,以前感觉离自己很遥远。

但这一次SEO大赛的主题西藏,08因为奥运,西藏要独立,要反对奥运;

美国又出现CNN事件,充分表明其它国家对中国的不了解。

竞赛关键词

英文优化关键词组:”tibet xizang”
中文优化关键词:西藏

我个人认为,比赛的目的不一定是SEO,而是要把中国宣传出去,让全世界了解中国,更了解西藏。

借此再说一下第一次SEO大赛,首次大赛很早就有在网上看到“渡虎谷”大赛,当时如果不是要去参加夏门SES大会,还以为是个人在闹着于,结果等到07年3月份的时候,再知道这是真正一次SEO大赛,哈哈,,,错过了一次机会。。

这次真的是很想参加,昨天也查找一些相关的域名,后来看看一下自己时间安排,没有足够时间来参加这次大赛,再想一想自己博客都开这么久也没没真正写一篇文章,而且本人的文笔很烂,最后决定,还是不参加了。。

网站优化基础知识 03 Apr 2008 04:23 am

Title标签和Meta标签

.html.htm为扩展名的HTML文档称为静态网页。Meta称为元标志,用于网页的<head>与</head>中。Meta 标签的用处很多,目前几乎所有的搜索引擎机器人都通过自动查找Meta值来给网页分类,是籍此判断网页内容的基础。其中最重要的是description(网站描述)和keywords(网站关键词)。另外一个基本的属性是Title标签,提示搜索引擎关于本页的主题。MetaTitle的形式在html语言中体现为:

<head>
<title>title标题</title>
<meta name=”keywords” content=”
网页描述“>
<meta name=”description” content=”
关键词“>
……
</head>

尽管Meta本身不足以解决排名问题,但对Meta标签的书写仍然是搜索引擎优化的基础工作。清晰准确的Meta文字与正文内容的关键词相呼应,是排名加分的重要条件之一。

标题(Title):
网页优化可以说是从Title开始的。在搜索结果中,每个抓取内容的第一行显示的文字就是该页的Title,同样在浏览器中打开一个页面,地址栏上方显示的也是该页的Title。因此,Title可谓一个页面的核心。对Title的书写要注意以下问题:

1title简短精炼,高度概括,含有关键词,而不是只有一个公司名。但关键词不宜过多,不要超过3个词组。企业网站的title通常以公司名+关键词为内容

2、前几个词对搜索引擎最重要,因此关键词位置尽量靠前。

3、最好将title组织成符合语法结构和阅读习惯的短句或短语,避免无意义的词组罗列式title

关键词(Keywords)
Keywords
提示搜索引擎:本网站内容围绕这些词汇展开。因此keywords书写的关键是每个词都能在内容中找到相应的匹配才有利于排名。Meta中的关键词书写技巧见前文的关键词策略

描述(Description)
描述部分用简短的句子告诉搜索引擎和访问者关于本网页的主要内容。用该网站的核心关键词搜索后得到的搜索结果中,描述往往显示为标题后的几行描述文字。Description一般被认为重要性在titlekeywords之后。描述的书写要注意以下问题:

1、描述中出现关键词,与正文内容相关

2、同样遵循简短原则,字符数含空格在内不要超过200个字符

3、补充在titlekeywords中未能充分表述的说明

其它Meta标签:
为了限制搜索引擎对内容的抓取,可以采用以下几个Robots Meta标签:
meta name=”Robots” content=”all|none|index|noindex|follow|nofollow”
其中:
all
:文件将被检索,且页面上的链接可以被查询;
none
:文件将不被检索,且页面上的链接不可以被查询;
index
:文件将被检索;
follow
:页面上的链接可以被查询;
noindex
:文件将不被检索,但页面上的链接可以被查询;
nofollow
:文件将不被检索,页面上的链接可以被查询。

但并不是所有的搜索引擎都支持meta中的robots标签,但是所有搜索引擎都支持一个功能更强的robots.txt的文本文件来达到上述功能(关于robots.txt文件应用的介绍,E书专家平文胜曾专门撰文详细解说“robots.txtRobots META标签)。其它常用meta标签还有:

<META name author> 网站作者
<META name classification>
网站所属目录类别
<META name copyright>
版权声明
<META name generator>
网站用什么软件做的 ……

个人随笔 03 Apr 2008 02:11 am

网站终于开通了

很早以前就开个属于自己的网站空间,可以把自己想法和经验分享给大家,

今天成为现实,以后我会尽我最大的努力维护好这个网站。

希望大家可以多提建议!