在 Ahrefs,我们运营两大主要网络爬虫——AhrefsBot 和 AhrefsSiteAudit——以支持我们的一系列工具和服务。我们爬取的目标是帮助网站所有者提高其在线存在,同时最大限度减轻服务器负担,确保安全、透明的爬取行为。
Obeys robots.txt: Yes by default (website owners can request to disobey robots.txt on their sites)
Obeys crawl delay: Yes by default (website owners can request to disobey crawl delay on their sites)
AhrefsBot 和 AhrefsSiteAudit 被领先的网络安全和性能公司 Cloudflare 认定为已验证的“良好”机器人。
AhrefsBot索引网站及其内容的最新、准确信息,并解析它们的相互链接。这些数据非常有用,可以通过多种方式加以利用:
两个机器人严格遵循 robots.txt 上的 disallow 和 allow 规则,以及 crawl-delay 指令。只有经过验证的网站所有者才能允许 AhrefsSiteAudit 爬虫在他们的网站上无视 robots.txt,以便他们可以检查通常不允许爬行的站点部分的问题。
在请求 HTML 页面时严格遵循抓取延迟,确保我们不会超过指定的速率限制。但是,在渲染 JavaScript 时无法遵循。当我们的机器人渲染页面时,他们可能会同时请求多个资源(如图片、脚本、样式表),这可能会导致服务器日志中出现的请求频率高于抓取延迟设置的允许频率。 这种行为模仿了真实用户的体验,因为现代网页通常需要一次加载多个资源才能正确渲染和正常工作。
在抓取过程中,我们缓存经常请求的文件(图像、CSS、JS)以减少重复获取,从而降低带宽消耗和服务器负载。
如果我们遇到非200状态代码,尤其是4xx或5xx错误,我们会自动降低该站点的抓取速度。这确保在网站可能遇到故障或高服务器负载时减少压力。
我们了解托管服务提供商、CDN 和 CMS 平台可能希望管理机器人如何与其客户的网站交互。我们公开提供的 IP 地址和用户代理字符串可让您或您的服务提供商快速验证合法的 Ahrefs 流量。我们致力于保持我们爬取活动的透明,以促进信任与合作。如果您有任何疑虑,请联系 [email protected] 我们将尽力提供帮助。
我们提供清晰、用户友好的选项来控制我们的机器人:
要更改AhrefsBot或AhrefsSiteAudit访问您网站的频率,只需在您的robots.txt文件中指定两个连续请求之间的最小可接受延迟:
(其中 Crawl-Delay 值是以秒为单位的时间。)
如果您想阻止 AhrefsBot 或 AhrefsSiteAudit 访问您的网站或其部分,使用 Disallow 指令:
请注意,AhrefsBot 可能需要一些时间来获取您 robots.txt 文件中的更改。这是在下一个计划的抓取之前完成的。已验证的网站所有者可以允许 AhrefsSiteAudit 爬虫在他们的网站上不遵守 robots.txt,以便他们可以检查通常不允许爬取的网站部分的问题。
此外,如果您的 robots.txt 包含错误,我们的机器人将无法识别您的命令,并会继续按照之前的方式爬取您的网站。 点击 www.robotstxt.org 阅读有关 robots.txt 的更多信息。
您可以暂时减少AhrefsBot的抓取速度。这在服务中断或基础设施更改时可能很有用,此时应减少对网站的负载。可以通过返回4xx或5xx HTTP状态码来暂时减少抓取速度,在中断或维护窗口期间,我们的机器人会检测这些错误并自动退避。
AhrefsSiteAudit机器人通过将抓取限制为每分钟30个URL来防止对网站服务器的过大负载。如果您是网站所有者,可以更快抓取自己的网站,以便更快收到站点问题的通知。要做到这一点,您需要在Site Audit工具中验证所有权。
如果您对我们抓取的频率有任何疑虑或看到您想确认的可疑流量,请通过 [email protected] 联系我们。 我们在这里帮助澄清和解决任何问题。