Chez Ahrefs, notre gamme d'outils et de services s'appuie principalement sur deux robots d'exploration : AhrefsBot et AhrefsSiteAudit. L'objectif de notre exploration est d'aider les propriétaires de sites à améliorer leur présence en ligne, tout en minimisant la charge sur leurs serveurs et en assurant un comportement d'exploration sûr et transparent.
Obeys robots.txt: Yes
Obeys crawl delay: Yes
Obeys robots.txt: Yes by default (website owners can request to disobey robots.txt on their sites)
Obeys crawl delay: Yes by default (website owners can request to disobey crawl delay on their sites)
AhrefsBot et AhrefsSiteAudit ont tous deux été reconnus comme « bons » robots par Cloudflare, leader dans le domaine de la sécurité et de la performance Web.
Yep, le moteur de recherche développé par Ahrefs, participe officiellement au protocole IndexNow aux côtés d'autres moteurs de recherche majeurs. Nous aidons les propriétaires de sites Web à nous avertir immédiatement de la mise à jour de leur contenu, ce qui garantit un indexage plus rapide et précis.
Nous explorons des plages d'adresses IP publiques. Vous pouvez récupérer nos adresses IP sous forme de plages d'adresses IP ou d'adresses IP individuelles. Vous trouverez des informations sur la façon de mettre nos adresses IP sur liste blanche dans l'article d'aide.
Dans le nom d'hôte de l'adresse IP, le suffixe du DNS inversé est toujours ahrefs.com ou ahrefs.net.
Vous pouvez contrôler l'état de votre site Web tel qu'il est vu par nos robots et vérifier s'il peut être exploré par ces derniers :
AhrefsBot indexe des informations récentes et précises sur les sites Web et leur contenu, ainsi que sur la manière dont ils sont liés les uns aux autres. Ces données sont extrêmement utiles et peuvent être exploitées de plusieurs façons :
Les deux robots respectent strictement le fichier robots.txt en ce qui concerne les règles d'interdiction et d'autorisation, ainsi que les directives liées au délai d'exploration. Seuls les propriétaires de sites vérifiés peuvent autoriser le robot d'exploration AhrefsSiteAudit à ignorer le fichier robots.txt sur leur site afin de vérifier les problèmes dans les sections du site normalement interdites à l'exploration.
Le délai d'exploration est strictement respecté lors des demandes de pages HTML, ce qui permet de ne pas dépasser les limites de taux spécifiées. Il ne peut toutefois pas être respecté lors du rendu JavaScript. Lorsque nos robots rendent une page, ils peuvent demander plusieurs ressources à la fois (images, scripts, feuilles de style, etc.), ce qui peut augmenter la fréquence des requêtes dans les journaux du serveur, dépassant la limite fixée par le paramètre du délai d'exploration. Ce comportement reproduit l'expérience d'un utilisateur réel, car les pages Web modernes nécessitent souvent le chargement de plusieurs ressources à la fois pour assurer un rendu et un fonctionnement satisfaisants.
Lors des explorations, nous mettons en cache les fichiers fréquemment demandés (images, CSS, JS) pour minimiser les récupérations répétées, réduisant ainsi la consommation de bande passante et la charge du serveur.
Si nous rencontrons des codes d'état autres que le code 200, en particulier des erreurs 4xx ou 5xx, nous réduisons automatiquement notre vitesse d'exploration pour ce site. Cela permet de réduire au minimum la pression exercée sur les sites susceptibles de connaître des pannes ou une charge trop élevée sur le serveur.
Nous comprenons que les hébergeurs Web, les réseaux de diffusion de contenu et les systèmes de gestion de contenu peuvent vouloir gérer la manière dont les robots interagissent avec les sites de leurs clients. Nos adresses IP et chaînes d'agent utilisateur publiques vous permettent, à vous ou à vos fournisseurs de services, de vérifier rapidement le trafic légitime d'Ahrefs. Nous nous engageons à être transparents sur nos activités d'exploration pour favoriser la confiance et la collaboration. Si vous avez des inquiétudes, contactez [email protected], et nous ferons de notre mieux pour vous aider.
Nous proposons des options claires et simples d'utilisation pour contrôler nos robots :
Pour modifier la fréquence à laquelle AhrefsBot ou AhrefsSiteAudit visite votre site, il vous suffit de préciser le délai minimum acceptable entre deux requêtes consécutives dans votre fichier robots.txt :
(Où la valeur Crawl-Delay est le temps en secondes.)
Si vous souhaitez empêcher AhrefsBot ou AhrefsSiteAudit de visiter votre site ou l'une de ses sections, suivez les directives Disallow :
Veuillez noter que AhrefsBot peut mettre du temps à prendre en compte les modifications apportées à votre fichier robots.txt. Cette opération est effectuée avant la prochaine exploration programmée. Les propriétaires de sites vérifiés peuvent autoriser le robot d'exploration AhrefsSiteAudit à ignorer le fichier robots.txt sur leur site afin de repérer les problèmes qui touchent les sections du site normalement interdites à l'exploration.
De plus, si votre fichier robots.txt contient des erreurs, nos robots ne seront pas en mesure de reconnaître vos commandes et continueront à explorer votre site Web comme ils le faisaient auparavant. Pour en savoir plus sur le fichier robots.txt, consultez www.robotstxt.org.
Vous pouvez réduire temporairement la vitesse d'exploration de AhrefsBot. Cela peut être utile lorsque la charge du site doit être réduite, notamment en cas de panne ou de changement d'infrastructure. Il est possible de réduire temporairement le taux d'exploration en renvoyant des codes d'état HTTP 4xx ou 5xx pendant toute la durée d'une panne ou d'une fenêtre de maintenance. Notre robot détectera ces erreurs et se retirera automatiquement.
Le robot AhrefsSiteAudit évite une surcharge des serveurs des sites Web en limitant l'exploration à 30 URL par minute. Si vous êtes propriétaire d'un site Web et que vous souhaitez être averti plus rapidement des problèmes rencontrés sur votre site, vous pouvez choisir une vitesse d'exploration plus élevée. Pour cela, vous devrez vérifier la propriété dans l'outil Site Audit.
Si vous avez des inquiétudes concernant notre fréquence d'exploration ou si vous détectez un trafic suspect que vous souhaitez confirmer, veuillez nous contacter à l'adresse [email protected]. Nous sommes là pour vous aider à clarifier et résoudre tout problème éventuel.