Hrefgo

什么是谷歌PageRank算法?

PageRank(PR)是Google算法的核心,决定了网页在搜索结果中的相对重要性。它是由斯坦福大学的谷歌创始人拉里·佩奇(Larry Page)和谢尔盖·布林(Sergey Brin)在90年代后期开发的网页排名系统。

从本质上讲,PageRank是一个数值,在确定搜索结果顺序的优先级方面起着至关重要的作用。

从那时起已经过去了很多年,当然,谷歌的排名算法变得更加复杂。它们是否仍然基于PageRank?PageRank究竟如何影响排名,SEO将来应该为哪些做好准备?

[lwptoc depth="2" numeration="decimalnested" title="" toggle="0"]

过去的PageRank

如上所述,在他们的大学研究项目中,布林和佩奇试图发明一个系统来估计网页的权威性。他们决定在链接上建立该系统,这些链接可以作为对页面的信任投票。根据该机制的逻辑,链接到页面的外部资源越多,它对用户的信息就越有价值。PageRank(根据传入链接的数量和质量计算的从0到10的分数)显示了互联网上页面的相对权威性。

原始网页排名公式

让我们来看看PageRank是如何工作的。

从一个页面(A)到另一个页面(B)的每个链接都会投下所谓的投票,其权重取决于链接到页面A的所有页面的集体权重。在计算之前,我们无法知道它们的重量,所以这个过程是循环的。

它考虑了页面的引用(链接),阻尼因子,并规范化页面上的链接数量。

以下是他们第一篇研究论文的公式:

原始PageRank的数学公式

其中A、B、CD是某些页面,L是每个页面发出的链接数,N是集合(即在互联网上)的总页面数。

至于d,d就是所谓的阻尼因子。考虑到PageRank是模拟随机访问页面并点击链接的用户的行为计算的,我们将此阻尼d因子作为用户感到无聊并离开页面的概率。

从公式中可以看出,如果没有指向该页面的页面,则其PR将不为零,但

因为用户可能不是从其他页面访问此页面,而是从书签访问此页面。

PageRank算法核心因素

PageRank算法考虑了3个因素:

1. 反向链接数量

指向您页面的每个链接都算作投票。您获得的投票越多,您的页面拥有的"权威性"就越大。

在上面的示例中,页面 B 和页面 C 都从页面 A 获取反向链接。但是,页面C还有另一个来自页面F的反向链接。因此,它具有更高的PageRank。

但是,链接的质量也很重要。以下是影响 Google 如何看待链接质量的一些因素:

注意:请记住,PageRank从一个页面传递到另一个页面,而不是从一个站点传递到另一个站点。

2. 链接页面上的链接数量

每个页面的 PageRank 都均匀地分布到它所链接到的所有页面。

页面 A 链接到其他 2 个页面,因此它传递的页面排名被分成两半。页面F与3 PageRank"点"链接到3个页面,所以每个页面得到1分。

3. 链接页面的排名

页面的 PR 取决于链接到该页面的页面的 PR。因此,来自PageRank较高的网站的反向链接总是比来自低PR页面的反向链接更好(前提是所有其他条件都相同)。

如果您对PageRank的计算方式的详细说明感兴趣,请查看此研究

PageRank工具栏

起初,PageRank分数在Google工具栏中公开可见,每个页面的分数从0到10,很可能是对数制。

PageRank工具栏的历史

2000年:Google发布了带有PageRank计的工具栏,范围从1到10。

2005年:Google 与 Yahoo 和 MSN 合作推出了 nofollow 标签来对抗垃圾评论(我们将在下一节中了解更多相关信息)。

2009年:Google已从其网站站长工具中删除了PageRank分发功能。

2013年:11 月,对可见 PageRank 进行了最后一次已知的更新。

2014年:Matt Cutts表示,不会再有PageRank更新了。

2016年:谷歌正式关闭工具栏供公众使用。

谷歌对垃圾链接的战争

谷歌当时的排名算法非常简单 - 高PR和关键字密度是页面在SERP上排名高的唯一两件事。结果,网页上塞满了关键字,网站所有者开始通过人为地增加垃圾反向链接来操纵PageRank。这很容易做到 - 链接农场和链接销售在那里为网站所有者提供"帮助之手"。

谷歌决定反击垃圾链接。2003年,谷歌惩罚了广告网络公司SearchKing的网站,因为它操纵了链接。SearchKing起诉谷歌,但谷歌赢了。这是谷歌试图限制每个人进行链接操纵的一种方式,但它没有任何结果。SearchKing这样的公司转入地下,而且它们的数量成倍增加。

在2000年代初,博客越来越突出,许多SEO都知道谷歌将链接视为选票。

在带有链接的博客上发表评论似乎是为您的网站积累权限的简单方法。因此,它开创了一个博客评论垃圾的时代(不幸的是,这种时代一直持续到今天)。

机器人攻击WordPress博客的评论,并留下大量"点击这里购买神奇药丸"的评论。

下面是一个典型的示例:

Nofollow 链接

为了防止评论中的垃圾邮件和公关操纵,2005年,Google与MSN Search和Yahoo合作推出了nofollow标签。我们的想法是限制PageRank流通过一些链接。

Nofollow 链接是一个反向链接,在其 HTML 代码中具有rel="nofollow"属性。此属性告诉搜索引擎不要通过该链接传递权限。

通常,在两种主要情况下,应使用 nofollow 属性:

1. 不受信任的内容

如果您不想无意中将PageRank传递给网络上的不良社区,那么nofollow是一个不错的选择。

这就是为什么大多数评论系统(包括原生WordPress评论或Disqus等服务)默认使用nofollow链接的原因。

2. 付费链接和广告

由于广泛的链接销售,Matt Cutts 建议在付费链接上使用nofollow属性。他说:如果一个网站想要纯粹为了访问者点击流量,或者有一个购买链接,该怎么办?在这种情况下,我会使用 rel="nofollow" 属性。nofollow标签允许网站添加一个链接,该链接不作为编辑投票。使用nofollow是购买链接的一种安全方式,因为它是一种机器可读的方式,可以指定链接不必被搜索引擎计为投票。

PageRank 雕刻

当我们谈论Google不抓取nofollow链接时,让我们也讨论一下与nofollow属性相关的PageRank操作。

人们开始使用nofollow标签来人为地将PageRank汇集到他们需要的页面,这种策略后来被称为PageRank雕刻(sculpting)。

这种技术(也称为PageRank scultping)现在不再有效,但仍然有很多人认为您可以通过不关注页面上的其他链接来"传递更多权重"到您自己的页面。

为了防止公关雕刻,谷歌改变了PageRank的流动方式。以前,如果一个页面同时具有nofollowdofollow链接,则该页面的所有 PR 量都将传递到使用dofollow链接链接到的其他页面。2009年,谷歌开始在页面的所有链接之间平均分配页面的PR,但只传递那些提供给dofollow链接的份额。

2009 年之前和之后的 PageRank 流程

完成PageRank雕刻后,谷歌没有阻止链接垃圾邮件战争,因此开始将PageRank分数从公众的视线中剔除。首先,谷歌推出了新的Chrome浏览器,没有谷歌工具栏显示PR分数。然后,他们停止在Google Search Console中报告PR分数,紧接着Firefox浏览器停止支持Google工具栏。2013年,PageRank最后一次针对Internet Explorer进行了更新,并于2016年Google正式关闭了面向公众的工具栏。

谷歌用来对抗链接计划的另一种方式是企鹅更新,它降低了具有可疑反向链接配置文件的网站的排名。企鹅于2012年推出,并没有成为谷歌实时算法的一部分,而是一个"过滤器",不时地更新并重新应用于搜索结果。如果一个网站受到企鹅的惩罚,必须仔细审查他们的链接配置文件并删除有毒链接,或者将它们添加到拒绝列表中(告诉Google在计算PageRank时要忽略哪些传入链接)。以这种方式审核链接配置文件后,网站不得不等待半年左右,直到企鹅算法重新计算数据。

2016年,谷歌将企鹅作为其核心排名算法的一部分。从那时起,它一直在实时工作,通过算法更成功地处理垃圾邮件。

与此同时,Google致力于促进链接的质量而不是数量,并将其确定在其针对链接方案的质量指南中 。

现在的PageRank

现在发生了什么?

早在2019年,一位前谷歌员工表示,最初的PageRank算法自2006年以来就没有使用过,随着互联网的发展,它被另一种资源密集程度较低的算法所取代。这很可能是真的,2006年谷歌提交了新的专利:在网络链接图中使用页面距离进行排名

PageRank 算法今天是否仍在使用?

是的,仍在使用。

但它与2000年代初的PageRank不同,但Google一直严重依赖链接权威。

谷歌前员工安德烈·利帕采夫(Andrey Lipattsev)在2016年提到了这一点。在谷歌的问答环聊中,一位用户问他谷歌使用的主要排名信号是什么。安德烈的回答很简单:我可以告诉你它们是什么。它是指向您网站的内容和链接。

2020年,约翰·穆勒(John Mueller)再次证实:是的,我们确实在内部使用PageRank,在许多其他信号中。它与原始论文并不完全相同,有很多细节(例如,否认的链接,忽略的链接等),并且,我们使用许多其他信号。

如您所见,PageRank仍然活着,并且在对网络上的页面进行排名时被Google积极使用。

有趣的是,谷歌员工不断提醒我们,还有很多很多其他的排名信号。考虑到谷歌在打击垃圾链接方面付出了很多努力,谷歌可能会将SEO的注意力从易受操纵的因素(如反向链接)转移到美好的东西上。SEO们一直认为PageRank是一个强大的排名信号,并尽可能地增加反向链接。他们仍然使用PBN,进行灰帽分层链接建设,购买链接等等,就像很久以前一样。随着PageRank的出现,垃圾链接也会继续存在。我们不建议这样做,但这就是SEO的现实,我们必须理解这一点。

随机网页浏览与理性网页浏览模型

PR的关键现代化之一是在2012年从上面简要提到的随机网页浏览模型转向理性网页浏览模型。理性网页浏览模型假设用户在页面上的行为不会混乱,并且仅单击他们当前感兴趣的链接。比方说,阅读博客文章时,您更有可能单击文章内容中的链接,而不是页脚中的使用条款链接。

此外,在评估链接的吸引力时,理性网页浏览模型可能会使用各种其他因素。Bill Slawski在他的文章中仔细审查了所有这些因素,但我想把重点放在SEO更频繁讨论的两个因素上。这些是链接位置和页面流量。对于这些因素,我们能说些什么呢?

链接位置与链接权威之间的关联

链接可以位于页面上的任何位置 - 在其内容,导航菜单,作者简介,页脚以及页面包含的任何结构元素中。不同的链接位置会影响链接值。约翰·穆勒(John Mueller)证实了这一点,他说放置在主要内容中的链接比其他所有内容都重要:

这是您拥有主要内容的页面区域,此页面实际涉及的内容,而不是菜单,侧边栏,页脚,页眉......然后,这是我们考虑的事情,我们确实尝试使用这些链接。

因此,页脚链接和导航链接被认为传递的权重较小。这一事实不时得到证实,不仅得到谷歌发言人的证实,而且得到现实生活中的案例的证实。

Martin Hayman最近在BrightonSEO提出的一个案例中,Martin将他在导航菜单中已有的链接添加到页面的主要内容中。因此,这些类别页面及其链接到的页面的流量提升了25%。

这个实验证明,内容链接确实比其他任何链接都更重要。

至于作者简介中的链接,价值不如内容链接。虽然我们在这里没有太多证据,但这是马特·卡茨(Matt Cutts)在谷歌积极打击过度的客座博客反向链接时所说的话。

流量、用户行为和链接权威之间的关联

约翰·穆勒(John Mueller)澄清了谷歌传递链接权威的方式。一位用户问穆勒,谷歌在评估链接质量时,是否考虑了点击率和链接点击次数。穆勒的回答得出的关键结论是:

  • Google 在评估链接质量时,不会考虑链接点击次数和点击率。
  • Google了解,链接通常会添加到引用等内容中,用户不需要点击他们遇到的每个链接。

尽管如此,与往常一样,SEO怀疑是否值得盲目相信谷歌所说的一切,并继续尝试。因此,Ahrefs进行了一项研究,以检查页面在SERP上的位置是否与高流量页面的反向链接数量有关。该研究表明,几乎没有任何相关性。此外,一些排名靠前的页面根本没有来自流量丰富的页面的反向链接。

这项研究为我们指出了与John Mueller的话类似的方向 - 您不必为您的页面构建产生流量的反向链接即可在SERP上获得高位:流量丰富的反向链接似乎不会影响谷歌的排名。

Nofollow、sponsored 和 UGC 标签

如您所知,Google在2005年推出了nofollow标签,作为打击垃圾链接的一种方式。Google最近又推出了两种类型的nofollow属性。在此之前,Google建议将所有您不想参与PageRank计算的反向链接标记为nofollow,无论是博客评论还是付费广告。如今,Google 建议对付费链接和联盟链接使用rel="sponsored",对用户生成的内容使用rel="ugc"。

有趣的是,这些新标签不是强制性的(至少现在还没有),谷歌指出,你不必手动将所有的rel="nofollow"更改为rel="sponsored"rel="ugc"。现在,这两个新属性的工作方式与普通的nofollow标签相同。

其次,谷歌现在表示,nofollow标签以及新的sponsoredugc标签被视为提示,而不是索引页面时的指令。

传出链接及其对排名的影响

除了传入链接外,还有传出链接,即指向您的其他页面的链接。

许多SEO认为传出链接会影响排名,Reboot Online在2015年进行了一项实验,并于2020年重新运行。他们想弄清楚指向高权威页面的传出链接的存在是否影响了页面在SERP上的位置。他们创建了10个网站,其中包含300字的文章,所有网站都针对一个不存在的关键字 - Phylandocic进行了优化。5个网站根本没有传出链接,5个网站包含指向高权威资源的传出链接。结果,那些拥有权威传出链接的网站开始排名最高,而那些根本没有链接的网站排名最低。

一方面,这项研究的结果可以告诉我们,传出链接确实会影响页面的位置。另一方面,研究中的搜索词是全新的,网站的内容以医学和药品为主题。因此,该查询很有可能被归类为YMYL。谷歌已经多次声明E-A-T对YMYL网站的重要性。因此,外链可能被视为E-A-T信号,证明页面具有事实准确的内容。

至于普通查询(不是YMYL),John Mueller曾多次表示,您不必害怕从您的内容链接到外部来源,因为传出链接对您的用户有好处。

此外,传出链接也可能对SEO有益,因为在过滤垃圾邮件时,Google AI可能会考虑它们。因为垃圾页面往往很少有传出链接(如果有的话)。他们要么链接到同一域下的页面(如果他们曾经考虑过SEO),要么只包含付费链接。因此,如果您链接到一些可靠的资源,则表明Google您的页面不是垃圾页面。

曾经有一种观点认为,谷歌可能会因为有太多的传出链接而给你手动惩罚,但约翰·穆勒说,只有当传出链接显然是某些链接交换方案的一部分,加上网站质量普遍较差时,这才有可能

谷歌与垃圾链接的战斗

只要PageRank存在,SEO就会寻找新的方法来操纵它。

早在2012年,谷歌就更有可能发布针对链接操纵和垃圾邮件的手动操作。但是现在,凭借其训练有素的反垃圾邮件算法,Google能够在计算PageRank时忽略某些垃圾链接,而不是降低整个网站的排名。正如约翰·穆勒说:多年来收集的随机链接不一定是有害的,我们也已经看到了很长时间,并且可以忽略很久以前所有那些奇怪的网络涂鸦。

当您的反向链接配置文件被竞争对手破坏时,负面SEO也是如此,约翰·穆勒说:一般来说,我们确实会自动考虑这些因素,当我们看到它们发生时,会自动忽略它们。在大多数情况下,这相当有效。我看到很少有人对此有实际问题。所以我认为这基本上是行之有效的。

但是,这并不意味着您没有什么可担心的。如果您网站的反向链接被忽略太多且太频繁,您仍然有很大的机会被惩罚。

PageRank和内部链接

说到PageRank,我们不能不提到内部链接。传入的PageRank是我们无法控制的事情,但我们可以完全控制PR在我们网站页面上的传播方式。

谷歌也多次阐述了内部链接的重要性。约翰·穆勒(John Mueller)在最新的Search Console Central环聊中再次强调了这一点。一位用户询问如何使某些网页更强大。约翰·穆勒(John Mueller)说了以下的话:您可以优化内部链接。在您的网站中,您可以真正突出显示您想要突出显示的页面,并确保它们在内部链接良好。也许您认为不那么重要的页面,请确保它们在内部链接较少。

内部链接确实意味着很多。它可以帮助您在网站上的不同页面之间共享传入的PageRank,从而增强表现不佳的页面并使您的网站整体更强大。

至于内部链接的方法,SEO有许多不同的理论。一种流行的方法与网站点击深度有关 。这个想法表明,您网站上的所有页面必须与主页保持最大3次点击距离。尽管Google也多次强调了浅层网站结构的重要性,但实际上,对于所有大于小的网站来说,这似乎无法实现。

另一种方法是基于集中式和分散式内部链接的概念。在集中式内部链接的情况下,我们有一小组转换页面或一个页面,我们希望它们功能强大。如果我们应用分散的内部链接,我们希望所有网站页面都同样强大,并具有相等的PageRank,以使所有这些页面都为您的查询排名。

哪个选项更好?这完全取决于您的网站和业务利基特点,以及您将要定位的关键字。例如,集中式内部链接更适合具有高和中等搜索量的关键字,因为它会产生一组狭窄的超级强大的页面。

相反,搜索量低的长尾关键词更适合分散的内部链接,因为它在众多网站页面之间平均传播PR。

成功的内部链接的另一个方面是页面上传入和传出链接的平衡。在这方面,许多SEO使用CheiRank(CR),这实际上是一个反向PageRank。但是,虽然PageRank是接收到的力量,但CheiRank是被赋予的链接力量。计算页面的PR和CR后,您可以看到哪些页面存在链接异常,即页面收到大量PageRank但进一步通过的情况,反之亦然。

这里一个有趣的实验是Kevin Indig对链接的扁平化。只需确保传入和传出的PageRank在网站的每个页面上都是平衡的,就带来了非常令人印象深刻的结果。此处的红色箭头指向开始试验的时间:

确保您不会遇到任何技术问题,这可能会破坏您来之不易的成果:

  • 孤立页面。孤立页面不会链接到您网站上的任何其他页面,因此它们只是闲置,不会收到任何权重。谷歌看不到它们,也不知道它们确实存在。
  • 重定向链。虽然谷歌说重定向现在通过100%传递权重,但仍然建议避免长重定向链。首先,无论如何,它们都会消耗掉您的爬网预算。其次,我们知道我们不能盲目相信谷歌所说的一切。
  • 404个链接。404链接让PageRank也无处可去。
  • 指向不重要页面的链接。当然,您不能让任何页面完全没有链接,但页面的创建并不相同。如果某个页面不那么重要,那么投入太多精力来优化该页面的链接配置文件是不合理的。
  • 页面太远。如果页面在您的网站上位置太深,则可能会收到很少的PR或根本没有PR。由于Google可能无法找到并将其编入索引。

未来的PageRank

PageRank未来会有什么变化呢?它有一天会完全消失吗?

没有反向链接的搜索引擎

当试图想到一个流行的搜索引擎在他们的算法中不使用反向链接时,我能想到的唯一想法是2014年的Yandex实验。Yandex搜索引擎宣布,从他们的算法中删除反向链接可能最终会阻止链接垃圾,并帮助他们将精力引导到高质量的网站创建上。在宣布后的短短一年内,Yandex证实了反向链接因素又回到了他们的系统中。

但是,为什么反向链接对搜索引擎来说如此不可或缺呢?

虽然搜索引擎有很多信号可以用来对结果进行排序,但反向链接仍然是形成初始SERP所需的最可靠的权威标准之一。

另外Bill Slawski被问及PageRank的未来时所说:

谷歌正在探索机器学习和事实提取,并了解商业实体的关键价值对,这意味着向语义搜索的转变,以及更好地利用结构化数据和数据质量。谷歌非常擅长链接分析,现在已经是一个非常成熟的网络技术了。因此,PageRank很可能会继续用于对SERP进行排名。

Bill Slawski指出的另一个趋势是新闻和其他短命类型的搜索结果:谷歌告诉我们,对于及时性更重要的页面,例如实时结果(如来自Twitter)或新闻结果(及时性非常重要),它对PageRank的依赖程度较低。

事实上,搜索结果中的一条新闻太少,无法积累足够的反向链接。因此,谷歌一直在并且可能会继续努力在处理新闻时用其他排名因素取代反向链接。

然而,就目前而言,新闻排名在很大程度上取决于出版商的利基权威性,google仍然将权威性视为反向链接:

权威性信号有助于优先考虑来自最可靠来源的高质量信息。为此,我们的系统旨在根据搜索评分员的反馈,识别信号,这些信号可以帮助确定哪些网页在给定主题上表现出专业知识、权威性和可信度。这些信号可能包括其他人是否重视类似查询的来源,或者该主题的其他着名网站是否链接到该故事。

rel="sponsored" 和 rel="UGC" 属性

最后但并非最不重要的一点是,我对Google为能够识别sponsored和UGC的反向链接并将其与其他nofollow链接区分开来所做的努力感到非常惊讶。

如果所有这些反向链接都被忽略,为什么要在乎区分彼此呢?特别是约翰·穆勒(John Muller)建议,Google可能会尝试以不同的方式对待这些类型的链接

也许谷歌正在验证广告和用户生成的链接是否会成为积极的排名信号。

毕竟,在热门平台上投放广告需要巨额预算,而巨额预算是大型流行品牌的属性。

用户生成的内容,当考虑在评论垃圾范式之外时,是关于真实客户给予他们现实生活中的认可。

也有可能google想通过区分不同类型的链接,Google将尝试找出哪些nofollow链接用于实体构建目的:Google对网站上的用户生成内容或赞助内容没有问题,但两者在历史上都被用作操纵网页排名的方法。因此,我们鼓励网站站长在这些链接上放置nofollow属性(以及使用nofollow的其他原因)。但是,nofollowed链接仍然可以对Google有所帮助(例如实体识别),因此他们之前已经指出,他们可能会将其视为一种建议,而不是像机器人那样的指令.txt禁止规则将在您自己的网站上。

约翰·穆勒(John Mueller)的声明是"我可以想象,在我们的系统中,随着时间的推移,我们可能会学会以不同的方式对待它们。这可能是指Google将nofollow视为建议的情况。假设,Google的系统可能会根据从标记为ugc和sponsored的链接类型中收集的见解来了解要关注哪些nofollow链接。同样,这应该不会对网站的排名产生太大影响 - 但从理论上讲,它也可能对被链接的网站产生影响。

如何衡量网页排名

既然 PR 无法通过 Google 工具栏公开发布,那么您可以使用哪种指标来衡量网站的权威性?

要衡量网站的运行状况,您可以使用他们的搜索流量、社交媒体关注量、文章参与度和整体流量等指标。在规划营销活动和协作(如客座帖子)时,它们非常有用。

然而,严格来说,公关只是衡量反向链接的数量和质量。

因此,最接近评估网站链接配置文件的特定指标如下:

1. 域权限 (DA)/ 页面权限 (PA)

在工具栏PageRank停止后,人们很快就找到了一个简单的替代方案,可以帮助他们估计一个网站的权威性,域名权限页面权限现在被视为衡量网站质量的行业标准。DA和PA均以1到100的等级进行测量。

"具有高PR的链接"已被替换为"高DA"链接。

2. 引文流 (CF)/ 信任流 (TF)

了解网站链接配置文件的另一个值得信赖的行业来源是CF和TF。它们是Majestic发明的衡量指标。

引文流根据链接到 URL 的网站数量及其质量来预测 URL 的影响力和受欢迎程度。

另一方面,Trust Flow根据与最权威网站的相对"链接距离"来分析页面的可信度。

3. 反向链接域名数量

来自同一网站的每个附加链接的权重都小于前一个链接。为了获得不断增长的权威,网站需要许多不同的域来链接到它。

您可以查看引用 IP 和引用子网的数量,以了解链接到站点的实体的数量。

结论

尽管Google已经停止了工具栏,并且您无法看到页面的确切PR值,但PageRank在Google的搜索算法中仍然起着至关重要的作用。

退出移动版