Che cos’è Googlebot e come funziona?

Che cos’è Googlebot e come funziona?

Patrick Stox
Patrick Stox è Product Advisor, Technical SEO e Brand Ambassador di Ahrefs. E’ tra gli organizzatori di Raleigh SEO Meetup, Raleigh SEO Conference, Beer & SEO Meetup, Findability Conference, e moderatore di /r/TechSEO.
    Googlebot è il web crawler utilizzato da Google per raccogliere le informazioni necessarie a generare l’indice di ricerca e quindi determinare il ranking dei siti. Googlebot dispone di crawler mobili e desktop, nonché crawler specializzati per notizie, immagini e video.

    Ci sono diversi crawler che Google utilizza per compiti specifici e ogni crawler si caratterizza e identifica grazie a una specifica stringa di testo chiamata “user agent”. Googlebot è sempre valido e aggiornato quindi vede i siti come le persone che utilizzano l’ultima versione di Chrome.

    Googlebot funziona su migliaia di macchine che determinano quanto velocemente e cosa scansionare sui siti web. Allo stesso modo, queste macchine rallentano la loro scansione in modo da non caricare troppo i siti che stanno scannerizzando.

    Vediamo come funziona il processo che porta alla costruzione dei risultati del motore di ricerca.

    Come funziona Googlebot per eseguire la scansione e l’indicizzazione dei siti

    Google ha condiviso varie versioni relative al suo processo di scansione in passato. La seguente è la più recente.

    Quindi le elabora di nuovo e cerca eventuali modifiche alla pagina o nuovi link. Il contenuto delle pagine visualizzate è ciò che viene memorizzato e ricercabile nell’indice di Google. Tutti i nuovi collegamenti trovati tornano tra l’elenco di URL da scansionare.

    Maggiori dettagli su questo processo sono disponibili nel nostro articolo su come funzionano i motori di ricerca.

    Come controllare Googlebot

    Google ti permette di controllare ciò che viene scansionato e indicizzato.

    Modi per controllare la scansione

    • Robots.txt: questo file sul tuo sito web ti consente di controllare ciò che viene scansionato;
    • Nofollow: il Nofollow è un attributo per i link o un meta robots tag che suggerisce a Google di non seguire uno specifico link nel sito. Poiché è considerato solo un suggerimento, può essere ignorato;
    • Modifica il tuo crawl rate: questo strumento all’interno di Google Search Console ti permette di rallentare la scansione di Google.

    Modi per controllare l’indicizzazione

    • Cancella i tuoi contenuti: se elimini una pagina, non c’è nulla da indicizzare. Lo svantaggio di questo metodo è che nessuno può accedere al contenuto cancellato;
    • Restringi l’accesso ai contenuti: Google non accede ai siti Web, quindi qualsiasi tipo di protezione o autenticazione con password impedirà la visualizzazione del contenuto;
    • Noindex: il noindex nel meta robots tag istruisce i motori di ricerca a non indicizzare la tua pagina;
    • Strumento per la rimozione delle URL: il nome di questo strumento di Google è leggermente fuorviante, poiché il modo in cui funziona è nascondendo temporaneamente il contenuto. Google continuerà a vedere ed eseguire la scansione di questo contenuto, ma le pagine non verranno visualizzate nei risultati di ricerca;
    • Robots.txt (Solo per immagini): Il blocco di Googlebot Image significa che le tue immagini non verranno indicizzate.

    Se non sai quale controllo di indicizzazione usare, dai un’occhiata al nostro diagramma di flusso all’interno del nostro articolo su come rimuovere URL da Google.

    È davvero Googlebot?

    Molti strumenti SEO e dei bot dannosi si spacciano per Googlebot e in questo modo potrebbero accedere a siti che tentano di bloccarli.

    In passato, avevi bisogno di avviare un lookup sui DNS per verificare Googlebot. Recentemente Google lo ha reso ancora più semplice fornendo una lista di IP pubblici da utilizzare per verificare che le richieste provengano da Google. In questo modo puoi confrontare le richieste con i dati nei registri del tuo server.

    Hai anche accesso a un rapporto “Statistiche di scansione” in Google Search Console. Se vai su Impostazioni > Statistiche di scansione, noterai che questo report contiene molte informazioni su come Google esegue la scansione del tuo sito. Puoi vedere quale Googlebot sta eseguendo la scansione di quali file e quando ha effettuato l’accesso.

    Conclusioni

    Il web è un posto grande e disordinato. Googlebot deve navigare tra le diverse configurazioni, senza dimenticare i tempi di inattività e le restrizioni, per raccogliere i dati di cui Google ha bisogno per il funzionamento del suo motore di ricerca.

    Voglio concludere con un fatto divertente: il Googlebot è solitamente raffigurato come un robot e viene giustamente chiamato “Googlebot”. È disponibile anche una mascotte di ragno che si chiama “Crawley”.

    Hai domande? Contattami su Twitter.