什么是 Googlebot ? 它是如何工作的?

什么是 Googlebot ? 它是如何工作的?

Patrick Stox
Patrick Stox 是 Ahrefs 的产品顾问,技术 SEO 和品牌大使。他是罗利(美国城市)SEO 聚会、SEO 大会、啤酒和 SEO 聚会和 Finadability 大会的组织者之一,同时也是 /r/TechSEO 的版主。
Googlebot 是 Google 用来收集信息而建立的网络索引爬虫。 Googlebot 拥有移动和桌面两种抓取功能,同时也有针对专门的新闻、图片和视频的抓取功能。

同时,Google 有更多的爬虫用于特定任务,每个爬虫都会有一个特定的称为 “user agent” 的字符串来标识自己。 Googlebot 会永远保持最新,这意味着它可以像用户在最新的 Chrome 浏览器中一样看待网站。

Googlebot 在数千台机器上运行。他们会自行决定在网站上抓取的速度和内容。它们有时会减慢爬行速度,以免网站超负荷。

让我们看看他们构建网络索引的过程。

Googlebot 如何抓取网络并将其编入索引

谷歌过去曾分享过其工作过程的几个版本。下面是最新的。

Google 会从各种来源收集的 URL 列表开始,例如页面、站点地图、RSS 提要以及在 Google Search Console 或索引 API 中提交的 URL。它优先考虑要抓取的内容,获取页面并存储页面的副本。

Google 会处理这些页面,同时会找出更多可抓取的链接,包括指向 Google 呈现页面所需的 API 请求、JavaScript 和 CSS 等内容的链接。所有这些额外的请求都会被抓取和缓存(存储)。谷歌会渲染这些缓存的资源,来查用户真实会看到的页面。

同时 Google 也会重复处理抓取过的页面,并寻页面上的更改、或新增的链接。呈现页面的内容是存储在 Google 索引中并可搜索的内容。找到的任何新的链接都又会被存到 URL 的“存储桶”里以供其抓取。

我们在有关搜索引擎如何工作的文章中提供了有关此过程的更多详细信息。

如何控制 Googlebot

Google 为您提供了几种方法来控制抓取和编入索引的内容。

控制抓取的方法

  • Robots.txt – 此文件会控制搜索引擎允许或不允许抓取的网站内容。
  • Nofollow – Nofollow 是一个链接属性或元 robots 标签,它会建议搜索引擎不跟踪链接。但这只是一个提示,所以它通常会被搜索引擎忽略。
  • 调整抓取频率 – Google Search Console 中的工具可以用来降低 Google 的抓取速度。

控制索引的方法

  • 删除你的内容 —— 如果你删除了一个页面,那么就没有什么可以索引的了。这样做的缺点是用户将会访问到空页面。
  • 限制对内容的访问 —— 谷歌不会登录网站,因此任何类型的密码保护或身份验证都会阻止它看到内容。
  • Noindex —— 元 Robots 标签中的 noindex 告诉搜索引擎不要索引您的页面。 
  • URL 移除工具 —— 谷歌的这个工具的名称有点误导,因为它的工作方式是暂时隐藏内容。 Google 仍会查看和抓取这些内容,但这些页面不会出现在搜索结果中。
  • Robots.txt(仅限图片)—— 阻止 Googlebot 图片抓取意味着您的图片不会被编入索引

如果您不确定应该使用哪个方法,请查看我们关于从 Google 搜索中删除 URL 的流程图。 

怎么判断真假 Googlebot ?

许多 SEO 工具和一些恶意机器人会伪装成 Googlebot。这可能允许他们访问试图阻止他们的网站。

过去,您需要运行 DNS 查找来验证 Googlebot。但最近,谷歌让它变得更加容易,并提供了一个公共 IP 列表,您可以使用它来验证请求是否来自谷歌。您可以将其与服务器日志中的数据进行比较。

您还可以访问 Google Search Console 中的 “抓取统计信息” 报告。如果您转到 “设置”> “抓取统计信息”,该报告包含大量有关 Google 如何抓取您的网站的信息。您可以查看哪个 Googlebot 正在抓取哪些文件、以及它何时访问的这些文件。

最后

网络是一个大而杂乱的地方。 Googlebot 必须顾及所有不同的设置、包括停机时间和限制、以收集 Google 搜索需要的数据。

还有一个有趣的事实是,Googlebot 通常被称为机器人。它还有一个蜘蛛一样的吉祥物,名叫 “Crawley”。

有问题吗?在 Twitter 上找我吧。

译者,Park Cheng,歪猫出海创始人。