Bei Ahrefs betreiben wir zwei primäre Webcrawler – AhrefsBot und AhrefsSiteAudit – um unser Angebot an Tools und Diensten zu unterstützen. Ziel unseres Crawling ist es, Website-Besitzern zu helfen, ihre Online-Präsenz zu verbessern, die Last auf ihren Servern zu minimieren und ein sicheres, transparentes Crawling-Verhalten zu gewährleisten.
Obeys robots.txt: Yes
Obeys crawl delay: Yes
Obeys robots.txt: Yes by default (website owners can request to disobey robots.txt on their sites)
Obeys crawl delay: Yes by default (website owners can request to disobey crawl delay on their sites)
Sowohl AhrefsBot als auch AhrefsSiteAudit werden von Cloudflare, einem führenden Unternehmen für Websicherheit und -leistung, als verifizierte „gute“ Bots anerkannt.
Yep – eine von Ahrefs entwickelte Suchmaschine – ist ein offizieller Teilnehmer am IndexNow-Protokoll neben anderen großen Suchmaschinen. Wir helfen Website-Besitzern, uns sofort zu benachrichtigen, wenn Inhalte aktualisiert werden, um eine zeitnähere und genauere Indexierung zu gewährleisten.
Wir crawlen aus öffentlich veröffentlichten IP-Bereichen. Sie können unsere IP-Adressen als IP-Bereiche oder Einzel-IP-Adressen abrufen. Informationen zur Whitelist unserer IPs finden Sie im Hilfeartikel
Der Reverse-DNS-Suffix des IPs-Hostnamens ist immer ahrefs.com oder ahrefs.net.
Du kannst den Status deiner Website überprüfen, wie sie von unseren Bots gesehen wird, und ob sie von ihnen gecrawlt werden kann:
AhrefsBot indexiert frische, genaue Informationen über Websites und deren Inhalte sowie deren Verlinkung. Diese Daten sind unglaublich nützlich und können auf viele Arten genutzt werden:
Beide Bots respektieren strikt robots.txt sowohl bei disallow- als auch bei allow-Regeln sowie crawl-delay-Richtlinien. Nur verifizierte Website-Besitzer können dem AhrefsSiteAudit-Crawler erlauben, die robots.txt auf ihrer Seite zu ignorieren, um Probleme in den normalerweise vom Crawlen ausgeschlossenen Bereichen der Website zu überprüfen.
Die Crawl-Verzögerung wird strikt eingehalten, wenn HTML-Seiten angefordert werden, um sicherzustellen, dass wir die festgelegten Ratenlimits nicht überschreiten. Es kann jedoch nicht eingehalten werden, wenn JavaScript gerendert wird. Wenn unsere Bots eine Seite rendern, können sie mehrere Assets (z. B. Bilder, Skripte, Stylesheets) gleichzeitig anfordern, was dazu führen kann, dass in den Serverprotokollen häufiger Anfragen erscheinen, als durch die Crawl-Verzögerung erlaubt. Dieses Verhalten imitiert die Erfahrung eines echten Benutzers, da moderne Webseiten häufig mehrere Ressourcen gleichzeitig laden müssen, um ordnungsgemäß gerendert und funktional zu sein.
Während des Crawlens zwischenspeichern wir häufig angeforderte Dateien (Bilder, CSS, JS), um wiederholte Abrufe zu minimieren, was den Bandbreitenverbrauch und die Serverlast reduziert.
Wenn wir auf nicht-200-Statuscodes stoßen, insbesondere 4xx- oder 5xx-Fehler, reduzieren wir automatisch unsere Crawling-Geschwindigkeit für diese Website. Dies minimiert die Belastung für Websites, die möglicherweise Ausfälle oder eine hohe Serverlast erleben.
Wir verstehen, dass Hosting-Anbieter, CDNs und CMS-Plattformen managen möchten, wie Bots mit den Websites ihrer Kunden interagieren. Unsere öffentlich zugänglichen IP-Adressen und User-Agent-Strings ermöglichen es Ihnen oder Ihren Dienstleistern, den legitimen Ahrefs-Traffic schnell zu verifizieren. Wir sind bestrebt, über unsere Crawling-Aktivitäten transparent zu sein, um Vertrauen und Zusammenarbeit zu fördern. Wenn Sie Bedenken haben, wenden Sie sich an [email protected] und wir werden unser Bestes tun, um zu helfen.
Wir bieten klare, benutzerfreundliche Optionen zur Steuerung unserer Bots:
Um die Häufigkeit zu ändern, mit der AhrefsBot oder AhrefsSiteAudit deine Website besuchen, gib einfach die minimale akzeptable Verzögerung zwischen zwei aufeinanderfolgenden Anfragen in deiner robots.txt-Datei an:
(Wobei die Crawl-Verzögerung in Sekunden angegeben wird.)
Wenn du verhindern möchtest, dass AhrefsBot oder AhrefsSiteAudit deine Website oder einen Teil davon besucht, verwende Disallow-Anweisungen:
Bitte beachte, dass AhrefsBot einige Zeit benötigen kann, um Änderungen in deiner robots.txt-Datei zu übernehmen. Dies geschieht vor dem nächsten geplanten Crawling. Verifizierte Website-Besitzer können den AhrefsSiteAudit-Crawler erlauben, robots.txt auf ihrer Seite zu ignorieren, um Probleme in den normalerweise vom Crawlen ausgeschlossenen Bereichen der Website zu überprüfen.
Wenn deine robots.txt Fehler enthält, können unsere Bots deine Befehle nicht erkennen und crawlen deine Website weiterhin wie bisher. Weitere Informationen zur robots.txt findest du unter www.robotstxt.org.
Du kannst die Crawling-Geschwindigkeit von AhrefsBot vorübergehend reduzieren. Dies kann bei Ausfällen oder Änderungen der Infrastruktur nützlich sein, wenn die Belastung der Website reduziert werden sollte. Die Crawling-Geschwindigkeit kann vorübergehend reduziert werden, indem für die Dauer eines Ausfalls oder Wartungsfensters 4xx- oder 5xx-HTTP-Statuscodes zurückgegeben werden. Unser Bot erkennt diese Fehler und fährt automatisch herunter.
Der AhrefsSiteAudit-Bot verhindert eine übermäßige Belastung der Website-Server, indem er das Crawling auf max. 30 URLs pro Minute beschränkt. Wenn Sie ein Website-Besitzer sind, können Sie Ihre eigenen Websites mit höheren Geschwindigkeiten crawlen, wenn Sie schneller über Website-Probleme benachrichtigt werden möchten. Dazu müssen Sie im Site Audit-Tool die Eigentümerschaft überprüft haben.
Wenn du Bedenken hast, wie häufig wir crawlen, oder wenn du verdächtigen Datenverkehr siehst, den du überprüfen möchtest, wende dich bitte an [email protected]. Wir helfen dir gerne bei der Klärung und Lösung von Problemen.