Ahrefs opera con due crawler web principali (AhrefsBot e AhrefsSiteAudit) per alimentare il nostro set di strumenti e servizi. L'obiettivo delle nostre scansioni è aiutare i proprietari dei siti a migliorare la loro presenza online, minimizzando il carico sui loro server e garantendo un comportamento di scansione sicuro e trasparente.
Obeys robots.txt: Yes
Obeys crawl delay: Yes
Obeys robots.txt: Yes by default (website owners can request to disobey robots.txt on their sites)
Obeys crawl delay: Yes by default (website owners can request to disobey crawl delay on their sites)
Sia AhrefsBot sia AhrefsSiteAudit sono riconosciuti come bot "buoni" verificati da Cloudflare, una società leader nella sicurezza e nelle prestazioni web.
Scansioniamo da intervalli IP pubblicati pubblicamente. Puoi estrarre i nostri indirizzi IP come intervalli IP o come IP singoli. Trovi informazioni su come aggiungere i nostri IP alla whitelist nell'articolo del nostro centro assistenza.
Il suffisso DNS inverso del nome host IP è sempre ahrefs.com o ahrefs.net.
Puoi controllare lo stato del tuo sito web così come viene visto dai nostri bot e se può essere scansionato dai bot stessi:
AhrefsBot indicizza dati recenti e accurati sui siti web e sui loro contenuti e su come questi si collegano tra loro. Questi dati sono incredibilmente utili e possono essere utilizzati in molti modi:
Entrambi i bot rispettano rigorosamente robots.txt per quanto riguarda le regole sia di disallow sia di allow, nonché per le direttive di ritardo di scansione. Solo i proprietari dei siti verificati possono consentire al crawler AhrefsSiteAudit di ignorare robots.txt sul loro sito, così da verificare l'eventuale presenza di problemi in sezioni per cui la scansione solitamente non è consentita.
Quando vengono richieste le pagine HTML, viene rigorosamente rispettato il ritardo di scansione, garantendoci di non superare i limiti massimi. Tuttavia, questo non può essere fatto durante il rendering del JavaScript. Quando i nostri bot renderizzano una pagina, potrebbero richiedere più asset (ad es. immagini, script, fogli di stile) contemporaneamente, il che potrebbe comportare richieste più frequenti nei log del server rispetto a quanto consentito dalle impostazioni relative al ritardo di scansione. Questo comportamento imita l'esperienza di un utente reale, poiché le pagine web moderne richiedono spesso il caricamento simultaneo di più risorse per un rendering e una funzionalità corretti.
Durante le scansioni, memorizziamo nella cache i file richiesti frequentemente (immagini, CSS, JS) per minimizzare i recuperi ripetuti, riducendo il consumo di banda e il carico del server.
Se troviamo codici di stato non-200, in particolare errori 4xx o 5xx, riduciamo automaticamente la velocità di scansione per quel sito. Questo garantisce il minimo stress sui siti che potrebbero essere interessati da guasti o da alti carichi del server.
Sappiamo che i fornitori di hosting, le reti CDN e le piattaforme CMS potrebbero voler gestire il modo in cui i bot interagiscono con i siti web dei loro clienti. I nostri indirizzi IP pubblicamente disponibili e le stringhe degli user-agent ti permettono di verificare rapidamente il traffico legittimo proveniente da Ahrefs. Ci impegniamo a essere trasparenti in merito alle nostre attività di scansione per promuovere fiducia e collaborazione. Se hai domande, contattaci all'indirizzo [email protected] e faremo del nostro meglio per aiutarti.
Offriamo opzioni chiare e semplici per controllare i nostri bot:
Per modificare la frequenza con cui AhrefsBot o AhrefsSiteAudit visitano il tuo sito, ti basterà specificare il ritardo minimo accettabile tra due richieste consecutive nel tuo file robots.txt:
(Dove il valore di Crawl-Delay è espresso in secondi).
Se vuoi impedire ad AhrefsBot o ad AhrefsSiteAudit di visitare il tuo sito o una sua sezione, utilizza le direttive Disallow:
Tieni presente che AhrefsBot potrebbe richiedere del tempo per captare le modifiche nel tuo file robots.txt. Questo viene fatto prima della successiva scansione programmata. I proprietari di siti web con titolarità verificata possono consentire al crawler AhrefsSiteAudit di ignorare robots.txt sul proprio sito per verificare l'eventuale presenza di problemi nelle sezioni del sito che solitamente non è consentito scansionare.
Inoltre, se il tuo robots.txt contiene errori, i nostri bot non saranno in grado di riconoscere i tuoi comandi e continueranno a scansionare il tuo sito come facevano prima. Leggi di più su robots.txt su www.robotstxt.org.
Puoi ridurre temporaneamente la velocità di scansione di AhrefsBot. Questo potrebbe essere utile in caso di guasti o di modifiche alle infrastrutture, quando è necessario ridurre il carico sul sito. È possibile ridurre temporaneamente la velocità di scansione restituendo codici di stato HTTP 4xx o 5xx per l'intera durata del guasto o della finestra di manutenzione. Il nostro bot rileverà questi errori e si arresterà automaticamente.
Il bot AhrefsSiteAudit evita di sovraccaricare i server dei siti web limitando la scansione a un massimo di 30 URL al minuto. Se sei il proprietario di un sito web e vuoi ricevere più velocemente le notifiche su eventuali problemi, puoi scansionare i tuoi siti a velocità maggiori. Per farlo, dovrai verificare la titolarità in Site Audit.
Se hai dubbi sulla frequenza con cui effettuiamo le scansioni, o se vedi traffico sospetto che ti piacerebbe confermare, contattaci a [email protected]. Siamo qui per aiutarti a chiarire e risolvere qualsiasi problema.