Qu’est-ce que le budget de crawl et a‑t-il un impact en SEO ?

Qu’est-ce que le budget de crawl et a‑t-il un impact en SEO ?

Patrick Stox
Patrick Stox est conseiller produit, spécialiste SEO technique et ambassadeur à Ahrefs. Il co-organise divers évènements comme le Raleigh SEO Meetup, Raleigh SEO Conference, Beer & SEO Meetup et Findability Conference. Il est aussi modérateur sur /r/TechSEO.
Le bud­get de crawl est le nom­bre de pages et à quelle vitesse les moteurs de recherche vont vouloir explor­er (crawl) votre site. Il est lié aux ressources qu’un crawler va vouloir dépenser sur votre site et la quan­tité d’exploration que votre serveur peut supporter.

Plus d’exploration ne veut pas dire que vous serez mieux posi­tion­né, mais si vos pages ne sont pas explorées et indexées elles ne pour­ront pas ranker.

Pour la plu­part des sites, il n’y a pas besoin de s’inquiéter du bud­get de crawl, mais pour cer­tains cas, il va fal­loir y jeter un œil. Voyons cer­tains d’entre eux.

En règle générale, il n’est pas néces­saire de s’inquiéter du bud­get de crawl pour les pages les plus pop­u­laires. Les pages qui ne sont pas sou­vent explorées sont les plus récentes, celles qui ne reçoivent pas beau­coup de liens ou qui ne con­nais­sent pas beau­coup de changement.

Le bud­get de crawl peut être une ques­tion à exam­in­er pour les sites les plus récents, surtout s’ils ont beau­coup de pages. Votre serveur est peut-être en mesure de sup­port­er beau­coup d’exploration, mais comme votre site est nou­veau et n’est sans doute pas pop­u­laire pour le moment, un moteur de recherche pour­rait ne pas vouloir faire beau­coup de crawl dessus. C’est sou­vent déce­vant : vous voulez que vos pages soient explorées et indexées mais Google ne sait pas si cela vaut le coup d’indexer vos pages et ne va pas autant explor­er votre site que vous le voudriez.

Le bud­get de crawl peut aus­si être prob­lé­ma­tique pour de gros sites avec des mil­lions de pages ou bien qui sont fréquem­ment mis à jour. Si vous avez beau­coup de pages qui ne sont pas explorées ou dont l’indexation n’est pas mise à jour autant que vous le voudriez, il va fal­loir trou­ver des moyens d’accélérer le crawl. Nous allons en par­ler plus loin dans cet article.

Si vous souhaitez un aperçu de l’activité de crawl de Google et des éventuels prob­lèmes qu’il aurait iden­ti­fiés, le meilleur endroit pour véri­fi­er cela est le rap­port de sta­tis­tiques de crawl dans la Google Search Console.

Il existe plusieurs rap­ports qui peu­vent vous aider à iden­ti­fi­er les change­ments dans les com­porte­ments d’exploration, les prob­lèmes de crawl­ing et vous y obtien­drez plus d’in­for­ma­tions sur la manière dont Google explore votre site.

Il faut impéra­tive­ment véri­fi­er les codes de réponse d’explorations comme ceux mon­trés ici :

Vous ver­rez égale­ment les dates aux­quelles les pages ont été explorées la dernière fois.

Si vous voulez voir les traces de tous les bots et util­isa­teurs, il va vous fal­loir un accès aux logs. En fonc­tion de votre héberge­ment et paramé­trages, vous allez peut-être y avoir accès via des out­ils comme Awstats ou Webal­iz­er comme vous pou­vez le voir ici, ou bien avec un cPan­el sur un héberge­ment mutu­al­isé. Ces out­ils vont vous mon­tr­er quelques don­nées agrégées de votre fichi­er log.

Sur des sys­tèmes plus com­plex­es, vous allez avoir besoin d’accéder à des fichiers logs bruts et de les stock­er, le tout sans doute de sources dif­férentes. Il vous fau­dra égale­ment des out­ils spé­cial­isés pour les pro­jets les plus impor­tants, comme le stack ELK (elas­tic­search, logstash, kibana) qui va vous per­me­t­tre de stock­er, traiter et visu­alis­er les don­nées. Il existe aus­si des out­ils d’analyse de log comme Splunk.

Toutes les requêtes et URLs comptent dans le bud­get de crawl. Cela prend en compte les URLs alter­na­tives comme l’AMP ou les pages m‑dot, hre­flang, CSS et le JavaScript, dont les requêtes XHR.

Les URLs peu­vent être trou­vées pen­dant l’exploration et l’analyse des pages ou via d’autres sources comme les sitemaps, les flux RSS, la soumis­sion d’URL pour index­a­tion dans la Google Search Con­sole ou encore via l’API d’indexation.

Il existe de plus de mul­ti­ples Google­bots qui vont partager un bud­get de crawl. Vous pou­vez trou­ver la liste des divers Google­bots qui explorent votre site dans le rap­port de sta­tis­tiques de crawl dans la GSC.

Chaque site va se voir octroy­er dif­férents bud­gets de crawl selon quelques critères spécifiques.

Demande de crawl

La demande de crawl, c’est tout sim­ple­ment à quel point Google va vouloir explor­er votre site. Les pages les plus pop­u­laires et celles qui sont régulière­ment mod­i­fiées en pro­fondeur seront plus sou­vent explorées.

Les pages pop­u­laires, ou celles qui ont le plus de liens entrants vont générale­ment avoir la pri­or­ité sur les autres. Sou­venez-vous que Google doit bien choisir un ordre de pri­or­ité d’une manière ou d’une autre, les liens entrants sont une méth­ode sim­ple pour déter­min­er la pop­u­lar­ité des pages d’un site. Pas que pour votre site d’ailleurs, toutes les pages de tous les sites du web doivent être classées par ordre de priorité.

Vous pou­vez utilis­er le rap­port Meilleure par lien de l’Explo­rateur de site pour avoir une indi­ca­tion des pages qui vont avoir le plus de chance d’être explorées sou­vent. Cela va aus­si vous mon­tr­er quand Ahrefs a exploré votre site la dernière fois.

Il y a égale­ment la ques­tion de l’immobilisme. Si Google voit qu’une page ne change pas, il va l’explorer moins sou­vent. Par exem­ple, s’il explore une page et ne voit aucun change­ment au bout d’une journée, il va peut-être atten­dre trois jours avant de l’explorer à nou­veau. Puis 10 jours la fois suiv­ante, puis 30, puis 100 etc. Il n’y a pas vrai­ment de “tim­ing” défi­ni entre les crawls, mais ils vont être de moins en moins fréquents au fil du temps. Cela dit, si Google voit des change­ments impor­tants à l’échelle de tout le site, il va générale­ment aug­menter sa fréquence d’exploration, au moins temporairement.

Limite de vitesse d’exploration

La lim­ite de vitesse d’exploration est la quan­tité de crawl que votre site peut sup­port­er. Les sites peu­vent soutenir une cer­taine quan­tité d’exploration avant de ren­con­tr­er des prob­lèmes de sta­bil­ité serveur comme des ralen­tisse­ments ou des erreurs. La plu­part des crawlers vont cess­er leur explo­ration s’ils com­men­cent à voir ce genre de prob­lèmes afin de ne pas nuire au site.

Google va ajuster sa vitesse selon la san­té du site. Si ce dernier sup­porte plus d’exploration, la lim­ite va aug­menter, s’il ren­con­tre des prob­lèmes, Google va ralen­tir sa vitesse d’exploration.

Il y a quelques élé­ments sur lesquels vous pou­vez avoir une influ­ence afin que votre site puisse sup­port­er plus d’exploration et aug­menter la demande de crawl. Voyons ces options

Accélérez votre serveur / améliorez les ressources

La manière dont Google explore les pages est glob­ale­ment de télécharg­er toutes les ressources d’une page et de les traiter de son côté. La vitesse de page (page speed) perçue par votre util­isa­teur n’est pas la même chose. Ce qui va avoir un impact sur le bud­get de crawl est la vitesse avec laque­lle Google va pou­voir se con­necter à vos ressources et à la télécharg­er, et c’est donc une ques­tion de serveur et de ressources.

Plus de liens, externes & internes

Sou­venez-vous que la demande de crawl est générale­ment basée sur la pop­u­lar­ité ou les liens ; vous pou­vez amélior­er votre bud­get en aug­men­tant le nom­bre de liens externes (back­links) et/ou vos liens internes. Ajouter des liens internes est bien plus facile car vous avez le con­trôle de votre site. Vous pou­vez trou­ver des sug­ges­tions d’ajout de lien interne dans le rap­port d’Oppor­tu­nité de liens de l’Audit de site, qui con­tient d’ailleurs un tuto­riel pour expli­quer son fonctionnement.

Corrigez les liens cassés et les redirections

Con­serv­er des liens cassés ou redirigés vers des pages de votre site va avoir un léger impact sur le bud­get de crawl. Générale­ment, les pages qui reçoivent ces liens vont avoir une pri­or­ité basse car elles n’ont sans doute pas changé depuis longtemps. Mais cor­riger tous ces petits prob­lèmes va amélior­er votre site dans sa glob­al­ité et légère­ment aider votre bud­get de crawl.

Vous pou­vez trou­ver liens cassé (4xx) ou redirigés (3xx) de votre site facile­ment avec le rap­port Pages internes de l’Audit de site.

Pour trou­ver des liens cassés ou redirigés dans le sitemap, véri­fiez le rap­port tous les prob­lèmes à la recherche de “3xx redi­rec­tion dans le sitemap” et “pages 4xx dans le sitemap”.

Utilisez le GET plutôt que le POST quand vous le pouvez.

Ceci est un petit peu plus tech­nique et implique des méth­odes de requête HTTP. N’utilisez pas les requêtes POST là où des requêtes GET peu­vent fonc­tion­ner. Le principe est GET (pull) con­tre POST (push). Les requêtes POST ne sont pas mis­es en cache donc vont avoir un impact sur le bud­get de crawl, les requêtes GET peu­vent être mis­es en cache.

Utilisez une API d’indexation

Si vous avez besoin que vos pages soient explorées plus vite, véri­fiez si votre site est éli­gi­ble à l’API d’indexation de Google. Ce n’est pour le moment disponible que pour cer­tains cas comme des annonces d’emploi ou des vidéos live.

Bing pro­pose aus­si une API d’in­dex­a­tion ouverte à tout le monde.

Ce qui ne va pas marcher

Cer­tains essayent par­fois des astuces qui n’auront pour­tant aucun impact sur le bud­get de crawl

  • Petits change­ments sur le site. Faire de petits change­ments sur les pages comme met­tre à jour les dates, mod­i­fi­er les espaces ou la ponc­tu­a­tion dans l’espoir d’aug­menter la fréquence de crawl. Google est plutôt doué pour déter­min­er si les change­ments sur une page sont d’im­por­tance ou non. Ces petites mod­i­fi­ca­tions ne vont pas avoir d’impact sur le bud­get de crawl.
  • Direc­tives de retarde­ment de crawl dans robots.txt. Cette direc­tive va ralen­tir beau­coup de bots, mais Google­bot n’en tient pas compte et cela n’aura donc pas d’impact. Notre bot Ahrefs respecte par con­tre cette direc­tive, si vous avez un jour besoin de ralen­tir notre vitesse de crawl vous pou­vez le faire via votre fichi­er robots.txt.
  • Retir­er des scripts tiers. Les scripts tiers n’entrent pas en compte dans le bud­get de crawl, les retir­er n’aidera pas.
  • Nofol­low. Bon, celui-ci est un peu spé­cial, par le passé les liens nofol­low n’auraient pas util­isé de bud­get de crawl. Aujourd’hui le nofol­low est plutôt con­sid­éré comme une indi­ca­tion à Google qui peut tout de même choisir d’aller explor­er ces liens.

Il y a une bonne méth­ode pour ralen­tir l’exploration de Google. Il existe encore d’autres ajuste­ments qui pour­raient tech­nique­ment ralen­tir votre site, mais je ne vous le recom­mande pas.

Ajustement lent, mais garanti

Le prin­ci­pal con­trôle que Google nous donne pour ralen­tir son explo­ration est le réglage de fréquence d’exploration au sein de la Google Search Con­sole. Vous pou­vez ralen­tir la fréquence de crawl avec cet out­il mais il peut se pass­er jusqu’à deux jours pour que ce soit pris en compte.

Ajustement rapide, mais avec des risques

Si vous avez besoin d’une solu­tion immé­di­ate, vous pou­vez tir­er par­ti des ajuste­ments de la vitesse d’ex­plo­ration en lien avec la san­té de votre site. Si vous don­nez à Google une erreur “503 Ser­vice Unavail­able” ou “429 Too Many Request” sur cer­taines pages, le bot va ralen­tir son explo­ration voir l’interrompre tem­po­raire­ment. En revanche, ne faites pas cela plus de quelques jours, sinon vos pages vont finir par per­dre leurs places dans l’index.

Conclusion

Je voudrais le répéter encore une fois : pour la plus grande par­tie des gens, le bud­get de crawl ne devrait pas être une inquié­tude. Si vous aviez des ques­tions sur le sujet, j’espère que ce guide vous a aidé.

Je ne m’en inquiète réelle­ment que lorsque j’ai des pages qui ne sont pas explorées ou indexées, quand je dois expli­quer à quelqu’un pourquoi il n’a pas à s’en inquiéter ou si je vois quelque chose d’étrange dans le rap­port d’exploration de la Google Search Console.

Vous avez des ques­tions ? Dites-le-moi sur Twit­ter.