Ahrefs 机器人

在 Ahrefs,我们运营两大主要网络爬虫——AhrefsBotAhrefsSiteAudit——以支持我们的一系列工具和服务。我们爬取的目标是帮助网站所有者提高其在线存在,同时最大限度减轻服务器负担,确保安全、透明的爬取行为。

Our bots

AhrefsBot

用户代理字符串Mozilla/5.0 (compatible; AhrefsBot/7.0; +http://ahrefs.com/robot/)

机器人.txt
  • User-agent token in robots.txt:
    AhrefsBot
  • Obeys robots.txt: Yes

  • Obeys crawl delay: Yes


目的提供数据库支持给 AhrefsYep,分别是一个营销智能平台和一个独立的以隐私为重点的搜索引擎。

Ahrefs 网站诊断

桌面用户代理字符串Mozilla/5.0 (compatible; AhrefsSiteAudit/6.1; +http://ahrefs.com/robot/site-audit)

移动用户代理字符串Mozilla/5.0 (Linux; Android 13) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.5359.128 Mobile Safari/537.36 (compatible; AhrefsSiteAudit/6.1; +http://ahrefs.com/robot/site-audit)

机器人.txt
  • User-agent token in robots.txt:
    AhrefsSiteAudit
  • Obeys robots.txt: Yes by default (website owners can request to disobey robots.txt on their sites)

  • Obeys crawl delay: Yes by default (website owners can request to disobey crawl delay on their sites)


目的Ahrefs 的 Site Audit 工具提供支持。Ahrefs 用户可以使用 Site Audit 分析网站并发现技术性 SEO 和页面 SEO 问题。

Cloudflare 验证

AhrefsBotAhrefsSiteAudit 被领先的网络安全和性能公司 Cloudflare 认定为已验证的“良好”机器人

IndexNow.org

IndexNow 合作伙伴

Yep——由Ahrefs开发的搜索引擎,是IndexNow协议的正式参与者,与其他主要搜索引擎联合。我们帮助网站所有者在内容更新时立即通知我们,确保更及时准确的索引。

Verification and IP lists

IP 地址

我们从公开发布的IP范围抓取。您可以获取我们的IP地址为IP范围单个IP。可以在帮助文章中找到如何将我们的IP加入白名单的信息。

反向 DNS

IP 的主机名的反向 DNS 后缀始终是 ahrefs.comahrefs.net

网站状态

您可以查看您的网站在我们的机器人视野中的状态,以及它是否可以被它们抓取:

/

Benefits for site owners

AhrefsBot索引网站及其内容的最新、准确信息,并解析它们的相互链接。这些数据非常有用,可以通过多种方式加以利用:

  • AhrefsBot powers Yep—an independent, privacy-focused search engine. Being included in Yep’s index helps site owners reach a new audience.
  • AhrefsBot feeds data into Ahrefs toolset. Website owners can create a free Ahrefs webmaster account and verify domain ownership to unlock site analytics, including access to in-depth backlink data, website performance metrics, and content change monitoring. Ahrefs also offers a suite of free SEO tools that anyone can use without creating an account.
  • AhrefsSiteAudit powers our Site Audit tool. Site Audit checks websites for technical and on-page issues such as broken links, slow performance, security misconfigurations, and SEO pitfalls. By crawling and rendering pages, we help identify improvements that can boost visibility, loading speed, and overall user experience. Ahrefs also provides the option to run Site Audit for free on verified websites, helping site owners discover and fix technical issues, all without incurring any charges

Policies and commitments

服从 robots.txt

两个机器人严格遵循 robots.txt 上的 disallowallow 规则,以及 crawl-delay 指令。只有经过验证的网站所有者才能允许 AhrefsSiteAudit 爬虫在他们的网站上无视 robots.txt,以便他们可以检查通常不允许爬行的站点部分的问题。

在请求 HTML 页面时严格遵循抓取延迟,确保我们不会超过指定的速率限制。但是,在渲染 JavaScript 时无法遵循。当我们的机器人渲染页面时,他们可能会同时请求多个资源(如图片、脚本、样式表),这可能会导致服务器日志中出现的请求频率高于抓取延迟设置的允许频率。 这种行为模仿了真实用户的体验,因为现代网页通常需要一次加载多个资源才能正确渲染和正常工作。

缓存资产

在抓取过程中,我们缓存经常请求的文件(图像、CSS、JS)以减少重复获取,从而降低带宽消耗和服务器负载。

负载管理

如果我们遇到非200状态代码,尤其是4xx或5xx错误,我们会自动降低该站点的抓取速度。这确保在网站可能遇到故障或高服务器负载时减少压力。

透明的做法

我们了解托管服务提供商、CDN 和 CMS 平台可能希望管理机器人如何与其客户的网站交互。我们公开提供的 IP 地址和用户代理字符串可让您或您的服务提供商快速验证合法的 Ahrefs 流量。我们致力于保持我们爬取活动的透明,以促进信任与合作。如果您有任何疑虑,请联系 [email protected] 我们将尽力提供帮助。

Controlling bots behavior

我们提供清晰、用户友好的选项来控制我们的机器人:

通过 Robots.txt

要更改AhrefsBotAhrefsSiteAudit访问您网站的频率,只需在您的robots.txt文件中指定两个连续请求之间的最小可接受延迟:

User-agent: AhrefsBotCrawl-Delay: [value]

(其中 Crawl-Delay 值是以秒为单位的时间。)

如果您想阻止 AhrefsBotAhrefsSiteAudit 访问您的网站或其部分,使用 Disallow 指令:

User-agent: AhrefsBotDisallow: /path-to-disallow/

请注意,AhrefsBot 可能需要一些时间来获取您 robots.txt 文件中的更改。这是在下一个计划的抓取之前完成的。已验证的网站所有者可以允许 AhrefsSiteAudit 爬虫在他们的网站上不遵守 robots.txt,以便他们可以检查通常不允许爬取的网站部分的问题。

此外,如果您的 robots.txt 包含错误,我们的机器人将无法识别您的命令,并会继续按照之前的方式爬取您的网站。 点击 www.robotstxt.org 阅读有关 robots.txt 的更多信息。

返回非200状态代码以降低抓取速度

您可以暂时减少AhrefsBot的抓取速度。这在服务中断或基础设施更改时可能很有用,此时应减少对网站的负载。可以通过返回4xx或5xx HTTP状态码来暂时减少抓取速度,在中断或维护窗口期间,我们的机器人会检测这些错误并自动退避。

调整Site Audit中的速度设置

AhrefsSiteAudit机器人通过将抓取限制为每分钟30个URL来防止对网站服务器的过大负载。如果您是网站所有者,可以更快抓取自己的网站,以便更快收到站点问题的通知。要做到这一点,您需要在Site Audit工具中验证所有权。

联系我们

如果您对我们抓取的频率有任何疑虑或看到您想确认的可疑流量,请通过 [email protected] 联系我们。 我们在这里帮助澄清和解决任何问题。