Qu’est-ce que Googlebot et comment il fonctionne ?

Qu’est-ce que Googlebot et comment il fonctionne ?

Patrick Stox
Patrick Stox est conseiller produit, spécialiste SEO technique et ambassadeur à Ahrefs. Il co-organise divers évènements comme le Raleigh SEO Meetup, Raleigh SEO Conference, Beer & SEO Meetup et Findability Conference. Il est aussi modérateur sur /r/TechSEO.
Statistiques de l'article
  • Backlinks 3
Données de Explorateur de contenu

Montre combien de site différents font un lien vers ce contenu. En règle générale, plus vous avez de sites qui vous donnent un backlink, plus haut vous êtes positionné dans Google.

Montre le trafic mensuel estimé pour cet article selon les données Ahrefs. Le trafic organique réel (issu de Google Analytics) est généralement 3 à 5 fois plus élevé.

Le nombre de fois que cet article a été partagé sur Twitter.

    Google­bot est le crawler web util­isé par Google pour rassem­bler les infor­ma­tions dont il a besoin et con­stru­ire son index du web. Google­bot a des crawlers mobile et desk­top ain­si que des crawlers spé­cial­isés pour les actu­al­ités, images et vidéos.

    Il y a encore plus de crawlers que Google utilise pour des tâch­es spé­ci­fiques, cha­cun va s’i­den­ti­fi­er avec un texte dif­férent appelé “user agent”. Google bot est “ever­green”, c’est-à-dire qu’il voit les sites comme un util­isa­teur avec la dernière ver­sion de Chrome.

    Google­bot tourne sur des mil­liers de machines. Elles déter­mi­nent à quelle vitesse et quoi explor­er sur les sites. Mais les bots vont ralen­tir si leur explo­ration risque de sub­merg­er un site.

    Voyons de plus près le proces­sus pour la créa­tion d’un index du web.

    Comment Google explore et indexe le web

    Google a partagé quelques ver­sions de son proces­sus par le passé. Celui-ci est le dernier en date.

    Il analyse cela de nou­veau et regarde s’il voit des change­ments dans la page ou de nou­veaux liens. Le con­tenu des pages ren­dues est stocké dans l’index de Google, dans lequel on fait des recherch­es. Tout nou­veau lien trou­vé va être ren­voyé dans la liste d’URL à explorer.

    Nous don­nons plus de détails sur ce proces­sus dans notre arti­cle sur com­ment fonc­tion­nent les moteurs de recherche.

    Comment contrôler Googlebot

    Google vous donne quelques moyens pour con­trôler ce qui va être exploré et indexé.

    Moyens de contrôler l’exploration

    Moyens de contrôler l’indexation

    • Effac­er votre con­tenu – Si vous effacez une page, il n’y a plus rien à index­er. Le prob­lème est que per­son­ne n’y a accès non plus.
    • Restrein­dre l’accès au con­tenu – Google ne se logue pas aux sites, donc toute forme de pro­tec­tion par mot de passe ou authen­tifi­ca­tion va l’empêcher de voir le contenu.
    • Noin­dex – une balise meta robot noin­dex indique aux moteurs de recherche de ne pas index­er la page. 
    • Out­il de retrait d’URL – le nom de cet out­il de Google peut prêter à con­fu­sion, il fonc­tionne en cachant tem­po­raire­ment le con­tenu. Google va tou­jours le voir et l’explorer, mais les pages n’ap­pa­raîtront plus dans les résul­tats de recherche.
    • Robots.txt (images unique­ment) – Empêch­er Google­bot Image d’explorer va empêch­er l’indexation de vos images.

    Si vous n’êtes pas sûr de quel out­il de con­trôle d’indexation utilis­er, vous pou­vez regarder notre tableau expli­catif sur retir­er des URL de la recherche Google.

    Est-ce que c’est vraiment Googlebot ?

    Beau­coup d’outils SEO et cer­tains bots malveil­lants vont pré­ten­dre être Google­bot. Cela peut leur per­me­t­tre d’accéder à des sites qui voudraient les bloquer.

    Aupar­a­vant, vous auriez eu besoin de lancer un DNS lookup pour véri­fi­er Google­bot. Mais, récem­ment, Google a sim­pli­fié tout cela en four­nissant une liste d’IP publiques que vous pou­vez utilis­er pour véri­fi­er que les requêtes vien­nent bien de Google. Vous pou­vez com­par­er ces don­nées à celles de vos logs serveur.

    Vous pou­vez aus­si accéder au rap­port “crawl stats” (sta­tis­tiques d’exploration) dans la Google Search Con­sole. Si vous allez dans Set­tings > Crawl stats, le rap­port con­tient beau­coup d’informations sur com­ment Google explore votre site. Vous pou­vez véri­fi­er quel Google­bot crawle quels fichiers et quand il y a accédé.

    Conclusion

    Le web est un endroit immense et chao­tique. Google­bot a besoin de nav­iguer à tra­vers dif­férentes con­fig­u­ra­tions, avec des restric­tions et des pannes de serveurs pour rassem­bler les don­nées dont son moteur de recherche a besoin.

    Pour l’anecdote amu­sante, Google­bot est générale­ment représen­té par un robot logique­ment appelé “Google­bot”. Il y a aus­si une mas­cotte qui ressem­ble à une araignée et qui s’appelle “Craw­ley”.

    Vous avez encore des ques­tions ? Je suis sur Twit­ter.

    • Backlinks 3
    Données de Explorateur de contenu