Qu’est-ce que Googlebot et comment il fonctionne ?

Qu’est-ce que Googlebot et comment il fonctionne ?

Patrick Stox
Patrick Stox est conseiller produit, spécialiste SEO technique et ambassadeur à Ahrefs. Il co-organise divers évènements comme le Raleigh SEO Meetup, Raleigh SEO Conference, Beer & SEO Meetup et Findability Conference. Il est aussi modérateur sur /r/TechSEO.
Google­bot est le crawler web util­isé par Google pour rassem­bler les infor­ma­tions dont il a besoin et con­stru­ire son index du web. Google­bot a des crawlers mobile et desk­top ain­si que des crawlers spé­cial­isés pour les actu­al­ités, images et vidéos.

Il y a encore plus de crawlers que Google utilise pour des tâch­es spé­ci­fiques, cha­cun va s’i­den­ti­fi­er avec un texte dif­férent appelé “user agent”. Google bot est “ever­green”, c’est-à-dire qu’il voit les sites comme un util­isa­teur avec la dernière ver­sion de Chrome.

Google­bot tourne sur des mil­liers de machines. Elles déter­mi­nent à quelle vitesse et quoi explor­er sur les sites. Mais les bots vont ralen­tir si leur explo­ration risque de sub­merg­er un site.

Voyons de plus près le proces­sus pour la créa­tion d’un index du web.

Comment Google explore et indexe le web

Google a partagé quelques ver­sions de son proces­sus par le passé. Celui-ci est le dernier en date.

Il analyse cela de nou­veau et regarde s’il voit des change­ments dans la page ou de nou­veaux liens. Le con­tenu des pages ren­dues est stocké dans l’index de Google, dans lequel on fait des recherch­es. Tout nou­veau lien trou­vé va être ren­voyé dans la liste d’URL à explorer.

Nous don­nons plus de détails sur ce proces­sus dans notre arti­cle sur com­ment fonc­tion­nent les moteurs de recherche.

Comment contrôler Googlebot

Google vous donne quelques moyens pour con­trôler ce qui va être exploré et indexé.

Moyens de contrôler l’exploration

Moyens de contrôler l’indexation

  • Effac­er votre con­tenu – Si vous effacez une page, il n’y a plus rien à index­er. Le prob­lème est que per­son­ne n’y a accès non plus.
  • Restrein­dre l’accès au con­tenu – Google ne se logue pas aux sites, donc toute forme de pro­tec­tion par mot de passe ou authen­tifi­ca­tion va l’empêcher de voir le contenu.
  • Noin­dex – une balise meta robot noin­dex indique aux moteurs de recherche de ne pas index­er la page. 
  • Out­il de retrait d’URL – le nom de cet out­il de Google peut prêter à con­fu­sion, il fonc­tionne en cachant tem­po­raire­ment le con­tenu. Google va tou­jours le voir et l’explorer, mais les pages n’ap­pa­raîtront plus dans les résul­tats de recherche.
  • Robots.txt (images unique­ment) – Empêch­er Google­bot Image d’explorer va empêch­er l’indexation de vos images.

Si vous n’êtes pas sûr de quel out­il de con­trôle d’indexation utilis­er, vous pou­vez regarder notre tableau expli­catif sur retir­er des URL de la recherche Google.

Est-ce que c’est vraiment Googlebot ?

Beau­coup d’outils SEO et cer­tains bots malveil­lants vont pré­ten­dre être Google­bot. Cela peut leur per­me­t­tre d’accéder à des sites qui voudraient les bloquer.

Aupar­a­vant, vous auriez eu besoin de lancer un DNS lookup pour véri­fi­er Google­bot. Mais, récem­ment, Google a sim­pli­fié tout cela en four­nissant une liste d’IP publiques que vous pou­vez utilis­er pour véri­fi­er que les requêtes vien­nent bien de Google. Vous pou­vez com­par­er ces don­nées à celles de vos logs serveur.

Vous pou­vez aus­si accéder au rap­port “crawl stats” (sta­tis­tiques d’exploration) dans la Google Search Con­sole. Si vous allez dans Set­tings > Crawl stats, le rap­port con­tient beau­coup d’informations sur com­ment Google explore votre site. Vous pou­vez véri­fi­er quel Google­bot crawle quels fichiers et quand il y a accédé.

Conclusion

Le web est un endroit immense et chao­tique. Google­bot a besoin de nav­iguer à tra­vers dif­férentes con­fig­u­ra­tions, avec des restric­tions et des pannes de serveurs pour rassem­bler les don­nées dont son moteur de recherche a besoin.

Pour l’anecdote amu­sante, Google­bot est générale­ment représen­té par un robot logique­ment appelé “Google­bot”. Il y a aus­si une mas­cotte qui ressem­ble à une araignée et qui s’appelle “Craw­ley”.

Vous avez encore des ques­tions ? Je suis sur Twit­ter.