Bij Ahrefs werken we met twee primaire webcrawlers—AhrefsBot en AhrefsSiteAudit—om onze reeks van tools en diensten te ondersteunen. Het doel van onze crawling is om site-eigenaren te helpen hun online aanwezigheid te verbeteren, terwijl de belasting op hun servers minimaal blijft en veilig en transparant crawlgedrag gegarandeerd is.
Obeys robots.txt: Yes
Obeys crawl delay: Yes
Obeys robots.txt: Yes by default (website owners can request to disobey robots.txt on their sites)
Obeys crawl delay: Yes by default (website owners can request to disobey crawl delay on their sites)
Zowel AhrefsBot als AhrefsSiteAudit worden erkend als verifieerde "goede" bots door Cloudflare, een toonaangevend bedrijf op het gebied van webbeveiliging en prestaties.
We crawlen vanaf openbaar gepubliceerde IP-bereiken. Je kunt onze IP-adressen opvragen als IP-bereiken of als individuele IP's. Informatie over hoe je onze IP's kunt toestaan is te vinden in het hulpartikel
Het reverse DNS-suffix van de hostnaam van de IP's is altijd ahrefs.com of ahrefs.net.
Je kunt de status van je website controleren zoals deze door onze bots wordt gezien en of het door hen kan worden gecrawld:
AhrefsBot indexeert nieuwe, accurate informatie over websites en hun content en hoe ze naar elkaar linken. Deze data zijn ongelofelijk waardevol en kunnen op veel manieren worden benut:
Beide bots respecteren robots.txt strikt op zowel disallow- als allow-regels, evenals crawl-delay-richtlijnen. Alleen geverifieerde site-eigenaren kunnen de AhrefsSiteAudit-crawler toestaan robots.txt op hun site te negeren, zodat ze problemen kunnen controleren op de secties die normaal niet gecrawld mogen worden.
Crawlvertraging wordt strikt nageleefd bij het aanvragen van HTML-pagina's, wat ervoor zorgt dat we niet de gespecificeerde snelheidslimieten overschrijden. Echter, het kan niet worden nageleefd bij het renderen van JavaScript. Wanneer onze bots een pagina renderen, kunnen ze gelijktijdig meerdere assets (bijvoorbeeld afbeeldingen, scripts, stylesheets) aanvragen, wat kan resulteren in frequente verzoeken in serverlogs dan toegestaan door de instelling voor crawl-vertraging. Dit gedrag imiteert de ervaring van een echte gebruiker, aangezien moderne webpagina's vaak meerdere resources vereisen om in één keer geladen te worden voor een goede rendering en functionaliteit.
Tijdens het crawlen cachen we vaak opgevraagde bestanden (afbeeldingen, CSS, JS) om herhaalde aanvragen te minimaliseren, wat het bandbreedtegebruik en de serverbelasting vermindert.
Als we non-200 statuscodes tegenkomen, met name 4xx- of 5xx-fouten, dan verlagen we automatisch onze crawlsnelheid voor die site. Dit zorgt voor minimale belasting op sites die mogelijk storingen of een hoge serverbelasting ervaren.
We begrijpen dat hostingproviders, CDN's en CMS-platforms willen weten hoe bots omgaan met de websites van hun klanten. Onze openbaar beschikbare IP-adressen en user-agent strings stellen jou of je dienstverleners in staat om snel legitiem Ahrefs-verkeer te verifiëren. We zetten ons in voor transparantie met betrekking tot onze crawlingactiviteiten om vertrouwen en samenwerking te bevorderen. Als je je zorgen maakt, neem dan contact met ons op via [email protected] en we zullen ons best doen om te helpen.
We bieden duidelijke, gebruiksvriendelijke opties om onze bots te beheren:
Specificeer gewoon de minimale acceptabele vertraging tussen twee opeenvolgende verzoeken in je robots.txt-bestand om de frequentie waarmee AhrefsBot of AhrefsSiteAudit jouw site bezoekt aan te passen:
(Waar Crawl-Delaywaarde tijd in seconden is)
Als je wilt voorkomen dat AhrefsBot of AhrefsSiteAudit je site of een deel ervan bezoeken, gebruik dan Disallow-richtlijnen:
Houd er rekening mee dat AhrefsBot wat tijd nodig heeft om de aanpassingen in je robots.txt-bestand door te voeren. Dit gebeurt voor de volgende geplande crawl. Geverifieerde site-eigenaren kunnen de crawler van AhrefsSiteAudit toestaan robots.txt op hun site te negeren, zodat ze problemen kunnen controleren op de secties die normaal niet gecrawld mogen worden.
En als je robots.txt fouten bevat, zullen onze bots jouw commando's niet kunnen herkennen en zullen ze jouw website blijven crawlen zoals ze eerder deden. Lees meer over robots.txt op www.robotstxt.org.
Je kunt tijdelijk de crawlsnelheid van AhrefsBot verlagen. Dit kan nuttig zijn bij storingen of infrastructurele veranderingen wanneer de belasting van de site moet worden verminderd. Tijdelijk de crawlsnelheid verlagen kan door 4xx of 5xx HTTP-statuscodes te retourneren voor de duur van een storing of onderhoudsperiode. Onze bot zal deze fouten detecteren en automatisch verminderen.
AhrefsSiteAudit-bot voorkomt overmatige belasting van websiteservers door crawling te beperken tot maximaal 30 URL's per minuut. Als je een website-eigenaar bent, kun je zelf je eigen sites op hogere snelheden crawlen als je sneller op de hoogte wilt zijn van siteproblemen. Hiervoor moet je het eigenaarschap in de Site Audit-tool verifiëren.
Als je je zorgen maakt over hoe vaak we crawlen of als je verdacht verkeer wilt bevestigen, neem dan contact op via [email protected]. We staan klaar om eventuele problemen op te helderen en op te lossen.