Bot di Ahrefs

Ahrefs opera con due crawler web principali (AhrefsBot e AhrefsSiteAudit) per alimentare il nostro set di strumenti e servizi. L'obiettivo delle nostre scansioni è aiutare i proprietari dei siti a migliorare la loro presenza online, minimizzando il carico sui loro server e garantendo un comportamento di scansione sicuro e trasparente.

Our bots

AhrefsBot

Stringa user-agentMozilla/5.0 (compatible; AhrefsBot/7.0; +http://ahrefs.com/robot/)

Robots.txt
  • User-agent token in robots.txt:
    AhrefsBot
  • Obeys robots.txt: Yes

  • Obeys crawl delay: Yes


ScopoAlimenta il database sia per Ahrefs, una piattaforma d'intelligenza di marketing, sia per Yep, un motore di ricerca indipendente orientato alla privacy.

AhrefsSiteAudit

Stringa dello user-agent desktopMozilla/5.0 (compatible; AhrefsSiteAudit/6.1; +http://ahrefs.com/robot/site-audit)

Stringa dello user-agent mobileMozilla/5.0 (Linux; Android 13) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.5359.128 Mobile Safari/537.36 (compatible; AhrefsSiteAudit/6.1; +http://ahrefs.com/robot/site-audit)

Robots.txt
  • User-agent token in robots.txt:
    AhrefsSiteAudit
  • Obeys robots.txt: Yes by default (website owners can request to disobey robots.txt on their sites)

  • Obeys crawl delay: Yes by default (website owners can request to disobey crawl delay on their sites)


ScopoAlimenta lo strumento Site Audit di Ahrefs. Gli utenti di Ahrefs possono utilizzare Site Audit per analizzare i siti web e trovare problemi relativi sia alla SEO tecnica sia alla SEO on page.

Verificato da Cloudflare

Sia AhrefsBot sia AhrefsSiteAudit sono riconosciuti come bot "buoni" verificati da Cloudflare, una società leader nella sicurezza e nelle prestazioni web.

IndexNow.org

Partner di IndexNow

Yep, un motore di ricerca sviluppato da Ahrefs, partecipa ufficialmente al protocollo IndexNow, insieme ad altri motori di ricerca principali. Aiutiamo i proprietari dei siti a notificare istantaneamente gli aggiornamenti, garantendo un'indicizzazione più tempestiva e accurata.

Verification and IP lists

Indirizzi IP

Scansioniamo da intervalli IP pubblicati pubblicamente. Puoi estrarre i nostri indirizzi IP come intervalli IP o come IP singoli. Trovi informazioni su come aggiungere i nostri IP alla whitelist nell'articolo del nostro centro assistenza.

DNS inverso

Il suffisso DNS inverso del nome host IP è sempre ahrefs.com o ahrefs.net.

Stato del sito web

Puoi controllare lo stato del tuo sito web così come viene visto dai nostri bot e se può essere scansionato dai bot stessi:

/

Benefits for site owners

AhrefsBot indicizza dati recenti e accurati sui siti web e sui loro contenuti e su come questi si collegano tra loro. Questi dati sono incredibilmente utili e possono essere utilizzati in molti modi:

  • AhrefsBot powers Yep—an independent, privacy-focused search engine. Being included in Yep’s index helps site owners reach a new audience.
  • AhrefsBot feeds data into Ahrefs toolset. Website owners can create a free Ahrefs webmaster account and verify domain ownership to unlock site analytics, including access to in-depth backlink data, website performance metrics, and content change monitoring. Ahrefs also offers a suite of free SEO tools that anyone can use without creating an account.
  • AhrefsSiteAudit powers our Site Audit tool. Site Audit checks websites for technical and on-page issues such as broken links, slow performance, security misconfigurations, and SEO pitfalls. By crawling and rendering pages, we help identify improvements that can boost visibility, loading speed, and overall user experience. Ahrefs also provides the option to run Site Audit for free on verified websites, helping site owners discover and fix technical issues, all without incurring any charges

Policies and commitments

Rispetto di robots.txt

Entrambi i bot rispettano rigorosamente robots.txt per quanto riguarda le regole sia di disallow sia di allow, nonché per le direttive di ritardo di scansione. Solo i proprietari dei siti verificati possono consentire al crawler AhrefsSiteAudit di ignorare robots.txt sul loro sito, così da verificare l'eventuale presenza di problemi in sezioni per cui la scansione solitamente non è consentita.

Quando vengono richieste le pagine HTML, viene rigorosamente rispettato il ritardo di scansione, garantendoci di non superare i limiti massimi. Tuttavia, questo non può essere fatto durante il rendering del JavaScript. Quando i nostri bot renderizzano una pagina, potrebbero richiedere più asset (ad es. immagini, script, fogli di stile) contemporaneamente, il che potrebbe comportare richieste più frequenti nei log del server rispetto a quanto consentito dalle impostazioni relative al ritardo di scansione. Questo comportamento imita l'esperienza di un utente reale, poiché le pagine web moderne richiedono spesso il caricamento simultaneo di più risorse per un rendering e una funzionalità corretti.

Memorizzazione delle risorse nella cache

Durante le scansioni, memorizziamo nella cache i file richiesti frequentemente (immagini, CSS, JS) per minimizzare i recuperi ripetuti, riducendo il consumo di banda e il carico del server.

Gestione del carico

Se troviamo codici di stato non-200, in particolare errori 4xx o 5xx, riduciamo automaticamente la velocità di scansione per quel sito. Questo garantisce il minimo stress sui siti che potrebbero essere interessati da guasti o da alti carichi del server.

Pratiche trasparenti

Sappiamo che i fornitori di hosting, le reti CDN e le piattaforme CMS potrebbero voler gestire il modo in cui i bot interagiscono con i siti web dei loro clienti. I nostri indirizzi IP pubblicamente disponibili e le stringhe degli user-agent ti permettono di verificare rapidamente il traffico legittimo proveniente da Ahrefs. Ci impegniamo a essere trasparenti in merito alle nostre attività di scansione per promuovere fiducia e collaborazione. Se hai domande, contattaci all'indirizzo [email protected] e faremo del nostro meglio per aiutarti.

Controlling bots behavior

Offriamo opzioni chiare e semplici per controllare i nostri bot:

Tramite robots.txt

Per modificare la frequenza con cui AhrefsBot o AhrefsSiteAudit visitano il tuo sito, ti basterà specificare il ritardo minimo accettabile tra due richieste consecutive nel tuo file robots.txt:

User-agent: AhrefsBotCrawl-Delay: [value]

(Dove il valore di Crawl-Delay è espresso in secondi).

Se vuoi impedire ad AhrefsBot o ad AhrefsSiteAudit di visitare il tuo sito o una sua sezione, utilizza le direttive Disallow:

User-agent: AhrefsBotDisallow: /path-to-disallow/

Tieni presente che AhrefsBot potrebbe richiedere del tempo per captare le modifiche nel tuo file robots.txt. Questo viene fatto prima della successiva scansione programmata. I proprietari di siti web con titolarità verificata possono consentire al crawler AhrefsSiteAudit di ignorare robots.txt sul proprio sito per verificare l'eventuale presenza di problemi nelle sezioni del sito che solitamente non è consentito scansionare.

Inoltre, se il tuo robots.txt contiene errori, i nostri bot non saranno in grado di riconoscere i tuoi comandi e continueranno a scansionare il tuo sito come facevano prima. Leggi di più su robots.txt su www.robotstxt.org.

Restituzione di codici di stato non-200 per ridurre la velocità di scansione

Puoi ridurre temporaneamente la velocità di scansione di AhrefsBot. Questo potrebbe essere utile in caso di guasti o di modifiche alle infrastrutture, quando è necessario ridurre il carico sul sito. È possibile ridurre temporaneamente la velocità di scansione restituendo codici di stato HTTP 4xx o 5xx per l'intera durata del guasto o della finestra di manutenzione. Il nostro bot rileverà questi errori e si arresterà automaticamente.

Regolare le impostazioni di velocità in Site Audit

Il bot AhrefsSiteAudit evita di sovraccaricare i server dei siti web limitando la scansione a un massimo di 30 URL al minuto. Se sei il proprietario di un sito web e vuoi ricevere più velocemente le notifiche su eventuali problemi, puoi scansionare i tuoi siti a velocità maggiori. Per farlo, dovrai verificare la titolarità in Site Audit.

Come contattarci

Se hai dubbi sulla frequenza con cui effettuiamo le scansioni, o se vedi traffico sospetto che ti piacerebbe confermare, contattaci a [email protected]. Siamo qui per aiutarti a chiarire e risolvere qualsiasi problema.