SEO汇总

Google PageRank 的现状及如何演变

Patrick Stox
Patrick Stox 是 Ahrefs 的产品顾问,技术 SEO 和品牌大使。他是罗利(美国城市)SEO 聚会、SEO 大会、啤酒和 SEO 聚会和 Finadability 大会的组织者之一,同时也是 /r/TechSEO 的版主。
    PageRank(PR)是一种算法,通过使用链接来衡量页面的重要性,从而提高搜索结果的质量。它将链接视为投票,并基于这样一个假设:更重要的页面很可能会获得更多的链接。

    PageRank 是由 Google 联合创始人 Sergey Brin 和 Larry Page 于 1997 年在斯坦福大学创建的,名称既是对 Larry Page 本人的致敬,也与“网页”一词有关。

    在许多方面,它类似于期刊的“影响因子”指标,其中引用次数越多表示更重要。不同之处在于 PageRank 认为某些投票比其他投票更重要。

    通过使用链接和内容对页面进行排名,谷歌的结果比竞争对手更好。链接成为了网络的货币。

    想了解有关 PageRank 的更多信息吗?让我们深入探讨一下。

    就现代 SEO 而言,PageRank 是包含经验、专业知识、权威性和可信度(E‑E-A‑T)的算法之一。

    谷歌的算法识别与网页可信度和权威性相关的信号,其中最著名的就是 PageRank,它使用网络上的链接来理解权威性。

    来源:谷歌如何打击虚假信息

    我们还得到了来自 Google 代表 Gary Illyes 的确认,他表示 Google 仍然使用 PageRank,并且链接用于 E‑A-T(现在是 E‑E-A‑T)。

    当我进行了一项研究来衡量链接的影响并使用拒绝工具有效地删除了这些链接时,下降是显而易见的,链接对排名仍然很重要。

    当链接被拒绝时对流量的影响

    PageRank 也是爬取预算的一个确认因素,谷歌希望更频繁地爬取重要页面,这是有道理的。

    PageRank 同样也是规范化信号,具有较高 PageRank 的页面更可能被选择为规范版本,被索引并显示给用户。

    疯狂的事实:原始 PageRank 论文中发布的公式是错误的。

    让我们看看为什么,在原始论文中,PageRank 被描述为概率分布——或者说你有多大可能在网络上任何给定的页面上。这意味着如果你将 Web 上每个页面的 PageRank 相加,应该得到的总和为 1。 

    以下是1997年发表的原始论文中完整的 PageRank 公式:

    PR(A) = (1‑d) + d (PR(T1)/C(T1) + … + PR(Tn)/C(Tn))

    有点简化,假设阻尼因子(d)为 0.85,就像谷歌在论文中提到的那样(我马上会解释阻尼因子是什么),它是:

    页面的 PageRank = 0.15 + 0.85(每个链接页面的 PageRank 部分平均分配给其出站链接) 

    在论文中,他们说每个页面的 PageRank 总和应该等于 1。但如果使用论文中的公式,则不可能实现这一点。每个页面都将具有最小值为 0.15(1‑d)的 PageRank。只需几页即可使总数大于 1,概率不能超过100%,所以有些地方错了!

    实际上,该公式应将 (1‑d) 除以互联网上所有网页数量才能按照描述工作。它应该是:

    页面的 PageRank = (0.15 / 互联网上所有网页数量) + 0.85(每个链接页面的 PageRank 部分平均分配给其出站链接) 

    其仍然很复杂,所以让我们看看是否可以通过一些视觉效果来解释它。

    1. 根据指向页面的链接,给定一个初始的 PageRank 分数。假设我有五个没有链接的页面。每个页面都会得到 (1/5) 或 0.2 的 PageRank 分数。

    5 个尚未链接的页面的 PageRank 示例

    2. 然后,该分数通过页面上的链接分配给其他页面。如果我向上述五个页面添加一些链接并计算每个新的 PageRank,则最终得到如下结果:

    1 次迭代后 5 个页面的 PageRank 示例

    你会注意到,得分更高的页面通常是那些被链接得更多的页面。

    3. 当谷歌爬行网络时,这个计算过程会重复进行。如果我再次计算 PageRank(称为迭代),你会发现得分会改变。虽然这些页面和链接没有变化,但每个页面的基本 PageRank 已经改变了,因此结果也不同。

    2 次迭代后 5 个页面的 PageRank 示例

    PageRank 公式还有一个所谓的“阻尼因子”,即公式中的“d”,它模拟了随机用户在浏览网页时继续点击链接的概率。

    可以这样想:你在第一页上点击链接的可能性相当高。但是,你接下来在下一页上点击链接的可能性略微降低,以此类推。

    如果一个强页面直接链接到另一个页面,它将传递很多价值。如果链接需要四次点击才能到达,由于阻尼因子的影响,从该强页面传递的价值将会大大降低。

    显示 PageRank 阻尼因子的示例
    PageRank 的历史

    第一项 PageRank 专利于 1998 年 1 月 9 日提交。它的标题是“链接数据库中节点排名的方法”。该专利于2018年1月9日到期,未被续订。

    谷歌在 2000 年 3 月 15 日推出了 Google 目录,并首次公开了 PageRank。这是一个 Open Directory Project 的版本,但按照 PageRank 进行排序。该目录于 2011 年 7 月 25 日关闭。 

    2000 年 12 月 11 日,谷歌在 Google 工具栏中推出了 PageRank 版本,这是大多数 SEO 人员着迷的版本。 

    当 PageRank 被包含在 Google 工具栏中时,它是这个样子的。

    在谷歌旧版工具栏中的 PageRank 为 8/10

    工具栏中的 PageRank 最后更新于 2013 年 12 月 6 日,并最终在 2016 年 3 月 7 日被移除。 

    工具栏中显示的 PageRank 稍有不同。它使用简单的 0–10 数字系统来表示 PageRank。但是,PageRank本身是一个对数比例尺,在达到每个更高的数字后会变得越来越困难。

    PageRank 甚至在 2005 年 11 月 17 日进入了 Google Sitemaps(现在称为 Google Search Console),它被显示为高、中、低或 N/A 类别,该功能于2009年10月15日被删除。

    垃圾链结

    多年来,为了获得更高的网页排名和更好的搜索结果,许多人滥用SEO系统。谷歌有一个完整的链接方案列表,其中包括:

    • 购买或出售链接 — 以货币、商品、产品或服务交换链接。
    • 过度的链接交换。
    • 使用软件自动创建链接。
    • 要求将链接作为服务条款、合同或其他协议的一部分。
    • 未使用 nofollow 或 sponsored 属性的文本广告。 
    • 包含传递排名信用链接的广告特刊或原生广告。
    • 具有优化锚文本链接的文章、访客帖子或博客。
    • 低质量目录或社交书签链接。
    • 嵌入在小部件中并放置在其他网站上的填充关键字、隐藏或低质量的链接。
    • 页脚或模板中广泛分布的链接。例如,将指向你网站的链接硬编码到你出售或免费提供的 WP 主题中。
    • 在帖子或签名中进行了优化连接论坛评论。

    打击链接垃圾邮件的系统已经逐年发展,让我们来看一些主要更新。

    Nofollow

    2005 年 1 月 18 日,谷歌宣布与其他主要搜索引擎合作推出 rel=“nofollow” 属性,鼓励用户在博客评论、回溯和引荐列表中添加 nofollow 属性以帮助打击垃圾链接。 

    以下是谷歌关于介绍nofollow的正式声明摘录:

    如果你是一名博客作者(或者博客读者),那么你肯定很熟悉那些试图通过提交带有链接的博客评论来提高自己网站搜索引擎排名的人,比如“访问我的折扣药品网站”。这被称为评论垃圾链接,我们也不喜欢它,并且我们一直在测试一个新标签来阻止它。从现在开始,当 Google 看到超链接上的属性(rel=“nofollow”),在我们对网站进行排名时,这些链接将不会得到任何功劳。

    几乎所有现代系统都在博客评论链接上使用 nofollow 属性。 

    甚至 SEO 也开始滥用 nofollow — 当然因为我们也会这样做。Nofollow 被用于 PageRank 雕刻,人们会在其页面上对某些链接进行 nofollow 处理,以加强其他链接的权重。Google 最终改变了系统以防止此类滥用。 

    2009 年,Google 的 Matt Cutts 确认这种方法将不再奏效,并且即使存在 nofollow 属性,PageRank 也将分布在链接之间(但仅通过 follow 的链接传递)。

    谷歌于 2019 年 9 月 10 日添加了几个更具体的链接属性,这些属性是 “nofollow” 属性的更具体版本。其中包括 rel=“ugc” 用于识别用户生成内容和 rel=“sponsored” 用于识别付费或联盟链接。

    针对垃圾链接的演算法

    随着 SEO 专家发现新的链接方法,谷歌也在研究新的算法来检测这种垃圾信息。

    当最初的 Penguin 算法于 2012 年 4 月 24 日发布时,它对许多网站和网站所有者造成了伤害。后来谷歌在同年 10 月 16 日推出了拒绝工具,为网站所有者提供了恢复的途径。

    2016 年 9 月 23 日,企鹅 4.0 推出,改变了 Google 处理链接垃圾邮件的方式。它不再伤害网站,而是开始降低垃圾链接的价值,这也意味着大多数网站不再需要使用拒绝工具。

    谷歌于 2021 年 7 月 26 日推出了其首个垃圾链接更新。最近,于 2022 年 12 月 14 日发布的一项链接垃圾更新宣布使用名为 SpamBrain 的基于人工智能的检测系统来中和不自然链接的价值。

    据一位前谷歌员工称,自 2006 年以来,PageRank 的原始版本就没有再被使用过。该员工表示,它已经被另一个资源消耗更少的算法所取代。

    他们在 2006 年用一个算法替换了它,这个算法给出了大致相似的结果,但计算速度显着更快。替代算法是报告在工具栏中的数字,并且谷歌声称其为 PageRank(甚至有类似的名称),因此谷歌的说法并不是技术上不正确的。两种算法都是 O(N log N),但替代品在 log N 因子上有一个更小的常数,因为它省去了需要迭代直到收敛才能完成计算这一步骤。随着网络从约 1–10 M 页增长到 150 B+ 页来说,这非常重要。

    还记得那些迭代和每次迭代后 PageRank 如何变化吗?听起来谷歌简化了那个系统。

    还有什么其他变化呢?

    有些链接比其他链接更有价值

    与其将页面上的所有链接平均分配 PageRank,一些链接比其他链接更有价值。根据专利文件的推测,谷歌从随机冲浪者模型(用户可能会访问任何链接)转向了合理冲浪者模型(某些链接更有可能被点击,因此它们具有更高的权重)。

    一些链接被忽略了

    已经有几个系统被建立起来,用于忽略某些链接的价值。我们已经谈论了其中一些,包括:

    • Nofollow、UGC 和赞助属性。
    • Google 的 Penguin 算法。
    • 拒绝链接工具。
    • 垃圾链接算法更新。

    谷歌也不会计算任何被 robots.txt 阻止的页面上的链接,它将无法爬取这些页面并查看其中的任何链接,这个系统很可能从一开始就存在。

    一些链接被合并了

    谷歌有一个规范化系统,帮助它确定哪个版本的页面应该被索引,并将重复页面的信号合并到主要版本中。

    规范化讯号

    Canonical 链接元素于 2009 年 2 月 12 日推出,允许用户指定其首选版本。

    最初曾表示重定向会传递与链接相同数量的页面级别排名(PageRank)。但在某个时候,这个系统发生了变化,目前不会丢失任何页面级别排名。

    有些仍是未知数

    当页面被标记为 noindex 时,我们不确定 Google 如何处理链接,即使是谷歌员工也有不一致的说法。

    根据 John Mueller 的说法,被标记为 noindex 的页面最终将被视为 noindex、nofollow,这意味着链接最终将停止传递任何价值。

    而根据 Gary 的说法,只要一个页面仍然有链接指向它,Googlebot 就会发现并跟踪这些链接

    这些说法并不一定相互矛盾,但如果你按照 Gary 的说法去做,可能需要很长时间才能让 Google 停止爬行和计算链接,甚至永远都无法实现。

    目前无法查看 Google 的 PageRank。

    网址评分 (URL Rating)是 PageRank 的良好替代指标,因为它与 PageRank 公式有很多共同点,它以 100 分制显示页面链接配置文件的强度。数字越大,链接配置文件就越强大。

    屏幕截图显示 Ahrefs 概览 2.0 中的 UR 得分

    PageRank 和 UR 在计算时都考虑了内部和外部链接,行业中使用的许多其他强度指标完全忽略了内部链接。我认为,链接建设者应该更关注 UR 而不是像 DR 这样仅考虑来自其他网站链接的指标。

    然而它们并不完全相同,UR 确实忽略了某些链接的价值,并且不计算 nofollow 链接。我们不知道 Google 会忽略哪些链接,也不知道用户可能已经拒绝连接,这将影响 Google 的 PageRank 计算。我们还可以对如规范化信号(例如 Canonical 元素和重定向)进行处理做出不同决策。

    因此我们建议使用它,但要知道它可能与 Google 系统并非完全一致。

    网站诊断的页面分析中还有页面评级(PR), 这类似于内部 PageRank 计算,可用于查看你的内部链接结构中,网站上最强大页面是哪些页面。

    Ahrefs 网站诊断中的页面评级。

    由于 PageRank 是基于链接的,要提高 PageRank 需要更好的链接,让我们看看你的选择。

    重定向损坏的页面

    将网站上的旧页面重定向到相关的新页面可以帮助恢复和整合 PageRank 等信号,网站随着时间的推移而变化,人们似乎不喜欢实施正确的重定向。这可能是最容易获胜的方式,因为那些链接已经指向你,但目前对你没有贡献。

    以下是如何找到这些机会的方法:

    • 将你的域名粘贴到网站分析(Site Explorer)中(也可在 Ahrefs 站长工具中免费访问)
    • 进入按反链数量排序(Best by links)
    • 添加 “404 未找到” HTTP 响应过滤器

    我通常按 “引用域” 进行排序。

    按反链数量排序报告已过滤为404状态码,以显示您可能想要重定向的页面

    将那些页面重定向到网站上的当前页面,如果不确定它们应该去哪里或没有时间,我有一个自动重定向脚本可能会有所帮助。它能查看来自 archive.org 的旧内容,并将其与网站上最接近的当前内容匹配。这很可能是您想要重定向页面的位置。

    内部链接

    反向链接并不总是在您的控制范围内,人们可以链接到你网站上的任何页面,并且可以使用他们喜欢的任何锚文本。

    内部链接则不同,你对它们拥有完全控制权。

    在适当的位置进行内部链接,例如,你可能希望更多地链接到更重要的页面。

    我们在网站诊断工具中有一个名为 “内链建议” 的工具,可以帮助你快速找到这些机会。

    该工具通过查找网站上已经排名的关键词提供上下文内部链接机会建议。

    例如,该工具显示我们在重复内容指南中提到了“分面导航”,由于网站诊断工具知道我们有一篇关于分面导航的页面,因此它建议我们添加一个内部链接到那个页面。

    内部链接机会示例

    外部链接

    你还可以从其他网站获取更多链接,以提高 PageRank。我们已经有很多关于链接建设的指南了,其中我最喜欢的一些是:

    最后的想法

    尽管 PageRank 已经改变,但我们知道 Google 仍在使用它,我们可能不知道所有细节或涉及的一切,但很容易看到链接的影响。

    此外,Google 似乎无法摆脱使用链接和 PageRank。它曾经试验过不在其算法中使用链接,并决定放弃这种做法。

    所以我们没有像公开展示的那样的版本,但是我们在内部有自己的类似实验,质量看起来要差得多。事实证明,尽管存在一些噪音和大量垃圾链接,但就搜索结果的质量而言,反向链接仍然是一个非常重要的胜利。

    我们曾经试图关闭反向链接相关性这个想法,但至少目前来看,在确保我们获得最佳、最相关、最热门的搜索结果方面,反向链接相关性仍然非常有帮助。

    来源:YouTube (Google Search Central)

    如果您有任何问题,请在 Twitter 上给我发消息。

    译者,李元魁,SEO 分解茶博客创始人