如何查找和修复孤岛页面(正确的方法)

如何查找和修复孤岛页面(正确的方法)

Kayle Larkin
数据驱动的 SEM 战略家。致力于让所有企业主都能轻松理解和掌握分析方法。
当毫无察觉的SEO们开始在一个历史悠久的网站上工作时,各种历史导致的问题往往在等待着他们。

这些由前几代人造成的网站技术错误的坑,减缓和阻碍了SEO的努力和进展。

而当你是负责清理的人时,找到快速解决的方法是你的首要任务。

因此,你可能从一个基本的网站诊断开始,看到几个孤岛页面。你可能听说过孤岛页面对网站不利,但并不完全了解它们是什么以及如何解决它们。

在这篇文章中,你将了解到:

孤岛页面是搜索引擎可能难以发现的页面,因为它们没有来自你网站其他地方的内部链接。

这些 URL 往往会被忽略,因为搜索引擎爬虫只能从网站地图文件或外部反向链接中发现页面,而用户只有在知道 URL 的情况下才能进入页面。

通常情况下,“孤岛” 页面是偶然发生的,有各种原因。最常见的原因是网站迁移、导航变化、网站重新设计、缺货产品、测试或开发页面过程中没有制定良好的策略导致的。

孤岛页面也可能是刻意产生的,如促销和付费广告登陆页面,或任何你不希望该页面成为用户行为中的一部分。

搜索引擎很难找到不存在的页面,因为他们是使用链接来发现新的内容、并了解页面的意义。

以下是谷歌的说法

谷歌用称为爬虫的自动程序搜索网络,寻找新的或更新的网页。[…] 我们通过许多不同的方法找到网页,但主要方法是跟踪我们已经知道的网页的链接。

例如,假设你发布了一个新的网页,但忘记了从你网站的其他地方链接到它。如果该网页不在你的网站地图中,也没有反向链接,谷歌将不会发现或索引它。这是因为他们的网络爬虫不知道它的存在。

更糟糕的是,该页面无法获得 PageRank。

如果你以前没有听说过 “PageRank” 这个词,它是个大问题。

一般来说,PageRank 是谷歌通过计算一个页面获得的 “投票 “数量来了解页面的重要性。你可以在这里阅读更多关于 PageRank 如何工作和影响SEO的信息。

要找到你网站上的孤岛页面,你需要将可抓取的 URL 列表(谷歌可以找到的)与人们在你网站上点击的URL列表进行比较。

这听起来可能相当技术性,但不要气馁。我们已将如何使用你熟悉的工具寻找孤岛页面分解为三个简单的步骤。

1. 寻找可抓取的URL

有很多工具可以用来收集所有可抓取的 URL 的列表。我们将使用 Ahrefs Site Audit(网站诊断),因为使用 Ahrefs Webmaster Tools(Ahrefs 站长工具)是完全免费的,而且你可以选择使用外部反向链接作为来源,找到更多的URL。

下面是方法:

  1. 转到 Site Audit(网站诊断)。
  2. 点击 +新项目。
  3. 按照提示操作,直到第3步。点击 URL 来源标签,除了默认设置外,还要勾选外链作为 URL 来源。
  4. 点击继续,按照指示完成设置,然后运行爬行。

反向链接数据对寻找无主网页很有用,因为它把 Ahrefs 的链接索引中的 URL 带入了混合中。

如果一个页面没有任何内部链接,基本的爬虫就不会发现它。

但是,如果一个页面有反向链接,Ahrefs会在您的网站上找到这个URL,并知道抓取时没有发现内部链接,所以它一定是一个孤岛页面。

当网站抓取完成后,从 Page Explorer(页面分析)中导出所有内部页面并保存。你将在第三步中使用这个。

在我们继续之前…

由于 Site Audit(网站诊断)同时使用网站地图和反向链接作为 URL 来源,它可以在不做任何额外工作的情况下为你找到孤岛页面。要查看这些页面,请进入 Page Explorer(页面分析),点击链接,并选择孤岛页面

然而,你只能在这里看到通过反向链接或网站地图找到的孤岛页面。如果你有不包括在网站地图中的孤岛页面,并且没有反向链接,Ahrefs 将无法找到它们。

如果你认为这可能是你的情况,并想更深入地挖掘孤岛页面面,请继续阅读。

2. 寻找有点击的 URL

下一步是获得我们网站上所有有点击率的URL的列表。

有相当多的方法可以做到这一点,而且最好是使用尽可能多的数据源,因为你可以访问。

如果你能访问,日志文件的效果很好,因为它们是服务器端的数据,比较准确。我们不会去研究访问这些文件的细节,因为这取决于服务器是如何设置的。

但如果你选择走这条路,这里有三个常见服务器类型的官方指南:

在这篇文章中,我们将使用谷歌分析(GA4)和谷歌搜索控制台,因为这个过程对每个人来说基本上是相同的。

下面是如何在谷歌分析(GA4)中找到有点击的 URL:

  1. 登录到你的数据账户。
  2. 开始一个新的空白报告。
  3. 连接谷歌分析作为你的数据源。
  4. 选择你要分析的账户 > 选择 GA4 财产
  5. 在你的报告中添加一个基本表格。
  6. 将数据源设置为步骤 4 中创建的 GA4 属性。
  7. 设置维度为页面路径
  8. 将指标设置为视图
  9. 观点降序排序
  10. 将默认的日期范围设置为在网站上安装GA4之前。

要从你的表中导出结果,点击右上角的三个垂直点,然后点击导出。保存一个有用的名字,如 “date_GA_URLs_people_are_hitting_brandname”,因为你很快就会再次用到它。

因为我们导出的是页面路径,而不是完整的页面URL,所以我们需要在电子表格的所有单元格的开头添加域名。这在谷歌工作表中很容易。只要把CSV导入一个空白表,在左边插入一个新列,然后把这个公式粘贴到  A1 单元格(确保用你的域名替换 example.com):

=IFERROR(ARRAYFORMULA(IF(ISBLANK(B:B),"",IF(B:B="Page Path","",IF(B:B="(not set)","","https://example.com" & B:B)))))

由于多个URL来源总是最好的,我们还可以从 Google Search Console(GSC)提取数据。

GSC 只能导出 1000 个 URL,但 Google Data Studio 有一个巧妙的小技巧,可以让你拉出更多。

以下是方法:

  1. 重新打开你的数据工作室报告。
  2. 开始一个新的页面(命令+M)。
  3. 打开资源 > 管理添加的数据源。
  4. 点击 ADD A DATA SOURCE。
  5. 选择Search Console。
  6. 选择你要分析的网站 > URL展示 > 网络
  7. 在你的报告中添加一个基本表格。
  8. 设置尺寸为登陆页面
  9. 将指标设定为展示数。
  10. 将每页的行数扩大到5,000。
  11. 编辑日期范围,至少要查看过去三个月的情况。
  12. 从你的表格中导出结果。

给你的表格起个有用的名字,比如 “日期 + GSC_URLs_people_are_hitting_brandname”,因为你一会儿还会用到它。

现在,将人们从不同来源点击的所有 URL 合并到一个表格中,并通过删除重复的数据:

3. 交叉引用两个 URL 来源

你已经进入了最后的阶段。最后一步是交叉引用可抓取的 URL (来自 Ahrefs 网站诊断)和有点击的URL(来自 GA 和 GSC)。要做到这一点,创建一个空白的谷歌工作表,并创建三个标签。给它们贴上抓取(crawl)、点击(hits)交叉引用(cross reference)的标签

在第一张抓取表中,复制和粘贴 Ahrefs Site Audit(网站诊断)中所有可抓取的URL。

要找到这些,请打开步骤1中导出的CSV,过滤 incomingAllLinks 等于 0 的结果。这一点十分重要,因为这些是孤岛网页,所以在 “抓取 “选项卡中包括它们会导致交叉引用时出现不准确的结果。

相反,你应该复制这些URL,并将其添加到 “点击” 标签中。

接下来,将 Ahrefs 导出的其余 URL 复制并粘贴到抓取标签中。

在第二张点击表中,复制/粘贴步骤2中的所有URL。这些是你使用 Google Analytics、Google Search Console 或你的网站日志文件发现的网页。它包括用户访问过的网页。

在第三页,交叉参考,在第一个单元格中输入以下函数:

=UNIQUE(FILTER(hits!A:A, ISNA(MATCH (hits!A:A, crawl!A:A, 0))))

点击回车。该功能将自动拉出你所有的孤岛页面,以方便分析。

营销人员经常犯一个错误,就是简单地将内部链接全面添加到所有的孤岛页面上。

这种方法的主要问题是,仅仅因为快速修复可以应用于所有页面,并不意味着应该这样做。

有些 “孤岛” 页面是故意的,如 PPC 登陆页面,而有些则可以直接删除,如测试页面。

我们不想浪费资源去修复没有坏掉的东西,或者是不太可能产生积极影响的东西。

为了帮助解决这个问题,推荐使用这个决策流程图:

这里的想法是辩证的思考每一个孤岛页面,并决定取消索引、删除、合并/整合或简单地添加内部链接是否是最好的解决方法。

例如,如果一个页面在网站迁移过程中被遗漏,而且该页面没有为访问者提供任何价值,删除可能是最好的选择。然而,如果该页面有反向链接,可能也值得将该URL重定向到另一个相关的页面,以保持反向链接权重。

建议

使用 Ahrefs 的批量 Batch Analysis tool(批量分析),检查孤岛页面的反向链接(一次最多200个URL)。只需从您的交叉参考表中粘贴 URL,然后点击分析

让我们来看看修复孤岛网页的四个策略。

内部链接

对网站访问者有价值的 “孤岛” 页面应被纳入你的网站的内部链接结构,以使访问者和搜索引擎更容易找到它们。

例如,假设一篇文章在网站迁移或重新设计期间被遗忘。我们需要从一个我们知道谷歌很快就会(重新)抓取的相关页面上对其进行内部链接。

这里有一个在 Ahrefs 中做到这一点的简单方法:

  1. 进入 Site Audit(网站诊断)
  2. 打开你的网站最近的抓取记录
  3. Tools(工具) > 打开 Page Explorer(页面分析)
  4. 在页面 Page text(页面文字)搜索一个词
  5. 按照 Organic traffic(自然流量)对结果进行排序

这可以在获得自然流量的网页上找到上下文的内部链接机会,这意味着谷歌很可能会尽早重新抓取这些网页,并看到我们的变化。

深入阅读:如何使用 Page Explorer(页面分析)

取消索引

故意不被内部链接的 “孤岛” 页面,如广告的页面,应该被禁止索引,以防止它们出现在自然搜索结果中。

大多数 SEO 插件已经使这一点变得很容易。当然,你也可以通过复制和粘贴到页面的 <head> 部分来手动操作。

<meta name="robots" content="noindex" />

小提示.
确保这些页面在 robots.txt 中仍可抓取,否则搜索引擎不会看到 noindex 指令。 

合并/组合

与另一个页面有相同或相似内容的 “孤岛 “页面应该被合并。这意味着合并内容并将孤岛页面的 URL 重定向到另一个页面。

例如,假设你有同一产品的两个产品列表。其中一个是孤岛页面,另一个不是。你应该从孤岛页面中提取任何独特的有价值的信息,并将其添加到另一个页面,然后再将孤岛页面重定向到那里。

删除

对访问者没有价值且没有其他用途的 “孤岛” 页面(例如,付费流量活动)应被删除。

例如,一个未使用的 CMS 主题页面可以被删除。这将导致出现一个 404 页面,并随着时间的推移,会自然地从搜索结果中掉出来。

小提示.
如果该页面有反向链接,你可能想把 URL 重定向到另一个相关页面,以便在删除后保留链接资产。

正如你所看到的,查看孤岛页面是需要时间的。因此,一旦你投入了这项工作,你就希望在将来能预防孤岛网页的出现。这里有一些方法可以尝试:

有一个网站迁移的计划

在你进行网站迁移时,要有一个计划,做到未雨绸缪。你可以通过301重定向将旧的网页重定向到新的版本,从而避免网站上出现失效页面。

合理设置网站结构

如果你必须手动对新的页面进行内部链接,你一定会错过一些页面,最终会出现孤岛页面面。这就是为什么你应该设置一个合理的内部链接结构。

大多数 CMS 都是开箱即用的。例如,每次我们发布一篇新的博客文章,WordPress 都会从我们的博客主页和档案页面中添加一个内部链接。

然而,如果你使用的是定制的方案,那么你需要确保必要的代码是合理的,以获得良好的网站结构。

深入阅读:网站结构:如何建立你的SEO基础

适当删除已停产的产品

如果你经营一个电子商务网站,你应该从目录中删除已停产的产品以及所有指向它们的内部链接,并设置 404 或 410 的状态代码。未能删除指向此类产品的内部链接是造成孤岛页面的一个常见原因。

如果该页面有很好的反向链接,并且有一个更新或改进的产品版本,你可能要考虑保留该页面以保持反向链接的权重。

要做到这一点,更新页面内容以解释为什么该产品不再可用,包括介绍新的设计特点和链接到新的产品页面。

这样一来,用户就不会登陆到一个完全不相关的页面或 404 页面。

定期进行网站诊断

通过每月的网站诊断,您可以随时了解到产生的问题。你可以使用 Ahrefs Site Audit(网站诊断)中的日程安排功能轻松做到这一点。

最后

看着一排又一排的孤岛页面错误,并试图理解沉重的技术术语是很让人头疼的。

虽然寻找和修复孤岛页面是需要时间的,但它不需要费力。使用 Ahrefs Site Audit(网站诊断)和孤岛页面流程图将有助于简化你的过程。

有问题吗?请 Twitter 上与我联系。

译者,Park Cheng,歪猫出海创始人。