近半的 GSC 点击数据都被隐藏——基于 Ahrefs 的研究

近半的 GSC 点击数据都被隐藏 — 基于 Ahrefs 的研究

Patrick Stox
Patrick Stox 是 Ahrefs 的产品顾问,技术 SEO 和品牌大使。他是罗利(美国城市)SEO 聚会、SEO 大会、啤酒和 SEO 聚会和 Finadability 大会的组织者之一,同时也是 /r/TechSEO 的版主。
大多数 SEO 认为 Google Search Console(GSC)是真实的数据来源,并相信数据是准确的。如果我告诉你,GSC 其实并没有告诉你所有获得流量的关键词呢?事实上,近半的获取点击的关键词都没有显示。

在我们的研究中,这些被隐藏的词实例占所有点击的 46.08%。本研究中涵盖了 146,741 个网站的一个月的数据、以及近 90 亿次的总点击。

让我们一起深入了解。

首先,我想对我们后台团队的 Mauricio Fernandez 表示衷心的感谢,感谢他帮助我调出这些数据。缺失的计算方法如下:

(总点击量 — 所有关键词的点击量之和) /总点击量

这是一个散点图,每个点代表 146,741 个网站中的一个。它显示了缺失的点击率和整个网站流量的百分比。

在 GSC 中,按流量区分的缺失点击率百分比
散点图显示缺失的点击率和网站流量的百分比。

正如你所看到的,一些网站完全没有显示获得点击的词,而另一些网站则数据是全的。每个网站都是不同的,集中的部分缺失的数据量也是不同的。

这里有几个点我想谈谈,因为它们很重要。有一个网站(1)有 1 亿次点击,其中 90.3% 的数据是缺失的。还有一个网站(2)有 6300 万次点击,其中只有 2.27% 的点击缺少关键词。正如你所看到的,这些数据差异很大!

GSC 中按流量划分的点击率缺失百分比:有标注重点
在散点图上标出的两个重要的点,以凸显一些最高、最低的数值。

显示缺失的点击数据有多大差异的另一种方法是看整个数据集中部分缺失数据的分布。每个部分里都有很多网站。你将很难知道某个网站有多少数据缺失。

网站数量和 GSC 中缺少点击率百分比范围的数据
条线图显示网站数量和缺少的点击率比例范围的数据。

你看到很多网站在中间位置,而在 95%-100% 的点击量缺失时有一个很大的峰值。因此,一部分网站缺少了大约一半的数据,但有大量的网站缺少大部分数据。

我认为可能有趣的是,按照网站收到的流量对其进行分类。在下面的方框图中,你会看到,低流量、和高流量的网站都倾向于丢失更多的数据。处于中间位置的网站往往有较少的数据缺失。

按流量范围区分 GSC 中缺失点击率比例
箱形图显示数据在不同流量范围内的变化情况。

数据通常会随着流量的增加而变得更好。但在 1000 万左右的点击量之后,数据开始变得糟糕。

如果你是第一次看到箱形图,下面是你应该如何理解它们。

如何阅读箱形图

两边边缘的线代表最低和最高值。而所有数值的 50% 都落在高亮区域。这个线就是中位数值。

在这一点上,你可能认为我们在数据上犯了一个错误。那就是我们只是把 GSC 界面中显示的可导出的 1000 行数据合计起来,这就是为什么会有这么多数据丢失。 

但事实并非如此。我们通过 API 拉出这些数据,这使我们能够获得所有的数据——而且还有很多遗漏的数据!

我知道每个人最关心的是他们自己的网站上有多少数据丢失,所以我想为你提供一种方法来检查这个。最简单的方法是使用 Google Data Studio 中的 GSC connector,来查看有多少点击量进入了网站,但是没有向你展示的。

我做了一个数据的报告,你可以复制,并检查你自己网站的缺失数据。这里使用了过去 12 个月的数据。就在写这篇文章时,我查了我个人的网站,大约有一半的数据缺失。

寻找缺失数据的数据报告
patrickstox.com 的数据显示,48.3% 的点击没有显示关键词。

复制报告并添加你的 GSC 数据作为来源。下面是方法:

  • 在右上方,点击三个点,然后点击 “Make a copy”。
  • 在 “New Data Source” 的下拉菜单中,选择你目标的网站的 GSC 数据源。
  • 如果该网站不可用,选择 “Create data source”。搜索 “Search Console” 并点击它。
  • 点击你想使用的 GSC 账号> 点击 “Site Impression” > 点击 “Web”。然后在右上角,点击 “Connect”。
  • 在右上角,点击 “Add To Report”。
  • 点击 “Copy Report” 

同时我希望能获得一些用户数据。如果你想分享,请将你在 #1 和 #2 中的 “总计” 数字发到 @patrickstox@ahrefs。或者在推特上给我发消息,我将汇总这些数据,方便以后在这里分享。我觉得大多数用户上报的数据应该与研究报告中的数据相吻合。

谷歌给出了这种差异的几个原因: 

为了保护用户隐私,性能报告并不显示所有数据。例如,我们可能不会跟踪一些搜索次数非常少的词,或者那些包含个人或敏感信息的搜索。

我并不相信这些网站的搜索中有近一半是涉及隐私。这就留下了另一个原因——长尾关键词。无论如何,46.08% 的丢失率比我预期的要高得多。

我们知道,在所有的谷歌搜索中,有 15% 的搜索词是以前从未见过的。我确信谷歌储存了这些搜索。否则,它就不可能得出这个统计数字。 

然而,我推测,GSC 背后的团队资源有限,它不屑于存储(暴露)所有的数据。只是数据缺失的程度让我感到惊讶,也可能让你感到震惊。

最后

你可以通过使用 GSC 中的性能报告、或通过检查Ahrefs Site Explorer(网站分析)中的 Organic keywords(自然关键词)报告来弄清楚被隐藏的关键词。隐藏的词可能与 Ahrefs 列出的词类似。

例如,谷歌在我们关于关键词研究的文章上少 35% 的点击数据。在美国地区,有 327 个词列在 GSC 中,426 个列在了 Ahrefs 中。 

Ahrefs Site Explorer(网站分析)报告中的关键词排名数据
Ahrefs Organic keywords(自然关键词)报告截图。

总的来说,其中有 178 个词同时出现在两组数据中,也意味着数据中都有独特的词。虽然我们不能确定缺失的词是什么,但它们可能与这些报告中的词相似。

有问题吗?在 Twitter 上联系我吧。