发布时间:2013年06月13日 点击数:
Google 优化三大定律Pagerank算法分析
第一定律 相关性定律
即你的网页与用户搜索的关键词是否相关,Google 根据你网页的关键词密度来确定。
第二定律 人气质量定律
类似于科学引文索引的机制,说白了就是谁的论文被引用次数多,谁就被认为是权威,论文 就是好论文。 这个思路移植到网上就是谁的网页被链接次数多, 那个网页就被认为是质量高, 人气旺。 在加上相应的链接文字分析, 就可以用在搜索结果的排序上了。 这就引出了 Google 优化的第二定律:人气质量定律。根据这一定律,Google 搜索排名结果的相关性排序,并 不完全依赖于词频统计,Google 优化更多地依赖于超链分析。
第三定律 自信心定律
人气质量定律解决的还是一个技术层面的问题, 然而 Google 从诞生的那一天起, 从来就不 是一个纯技术现像,它融合了技术,文化,市场等各个层面的因素。解决搜索引擎公司的生 存和发展问题需要 Google 的第三定律–自信心定律。
谷歌的Pagerank算法的简单分析
一、Pagerank算法的核心思想:
注意谷歌Pagerank算法是基于随机冲浪模型的最好典范(指的是该算法使用的前提是用户访问网页时随机的),谷歌的Pagerank算法的最基本思想是基于网站之间的相互投票,即我们常说的网站之间互相指向,如果判断一个网站是高质量站点时,那么该网站应该是被很多高质量的网站引用又或者是该网站引用了大量的高质量权威的站点,也就如下图卡通形象所示,所
以对于谷歌来说,我们在优化的时候就应该将该算法的核心思想运用得当,在优化的时候我们尝试将自己的站点和高质量的权威网站进行链接,抑或是通过自己的关
系让自己的站点被一些高权重的站点链接上去,这样一来,无论是在谷歌还是在百度搜索引擎中,我们的站点在他们看来也会是具有高质量的站点。所以SEO优化
联盟建议大家在针对谷歌优化的时候要尽力的建设好网站的外链和内部链接,用链接来增加网站或者是网站内容页面的投票数,进而增加相关重要网页的权重。
二、Pagerank算法的计算要素:
pagerank算法的计算方法是基于一个与当前网站页面相关的所有网页集合(主要是指该网页
指向和被指向的网页集合),也就是说将该网页置身与一个比较大的方阵之中,在这个方阵之后网页与网页之间是通过互相指向的有向图来确定关系同时进行网页
PR值的传递,假如网也的PR值为1那么相对于整体来说该页上从其他特定网页上继承过来的权重应该是PR(t)/L(t)[其中PR(t)指的是特定网页的pr值,L(t)指的是该网页的出站链接数目],
但是我们知道这是理想状态下的计算方法,一个网页上影响pr值的还有很多噪点,比如网页中的广告链接、网站之间相互链接的连接点是不能再此时同时计算出去
的,也就是说该算法还需呀一个规范化的因子来纠正结果的正确性(规范化因子我们命名为d,通常d值取值为0.85)所以实际上谷歌Pagerank算法用来计算网站权重的计算公式应该是一个抛去其他噪点因素的干净公式:
PR(A)=(1-d)+d[PR(t)/C(t1)+...+PR(tn)/C(tn)]
从公式中我们还可以看到一个很令人困惑的问题,那就是该公式中并没有将相互链接的网站或者是形成闭环的网页链接(类似站群思想,将网页之间形成闭环来积累PR值)
拿出来单独解释,对于相互之间互相链接的网站我们通过分析可以知道,二者之间的pr值如果在没有出站链接的情况下只会互相传递,不会向外流失,久而久之
pr值就会慢慢积累越来越高,这对搜索引擎来说是不够友好的,所以在实际的pagerank算法中在计算的过程中是将这种闭环链接单独进行计算,同时也引
入了衰退因子(下文中的E(U)),防止pr值过多的积累,该算法的结构如下:
所以对这部分的权重计算公式可以简单的列举如下:
主要思想就是该部分网页的权重R‘(u)等于相互链接的网页pr值R(v)与网站的出战链接数目N(v)进行迭代计算,同时引入衰退因子E(U)来现在权重的积累。
三、Pagerank算法的优缺点分析:
pagerank算法将互联网中大多数的网页通过基于链接来计算网页质量的方式进行排名,为搜索引擎用户提供较好的基于链接查询的搜索结果,同时该算法能够进行离线分析处理,大大缩短了搜索引擎用户的服务响应时间,因此就目前来说该算法是搜索引擎应用最好的算法,但是pagerank算法的缺点也是相当明显的,在上文中我们也进行了讨论,那就是该算法在初期的时候一直都是基于链接分析的,而一个网页上的链接包含很多:比如广告链接、功能链接、导航链接、以及多次重复的无效链接等等,这些链接都会被该算法计算在pr值传递之中,所以不能够对网页降噪之后在进行处理,同时,由于是基于链接分析,导致pagerank算法计算出来的搜索结果往往会偏离实际的搜索主题,也就是说该算法不能很好的基于主题查询,当我们在进行查询的时候,pagerank算法会自动将计算出来的主题相关网页连接到的不相关页面也集中起来,这就导致该出现的重要网页没有出现,而不该出现的与主题不相关的页面却出现了,这对整个用户来说都是不合理的。
信息来源:东莞谷歌优化
上一篇:网站优化文章标题引用
下一篇:浅谈最常见的seo优化方式