General SEO

L’évolution du PageRank de Google

Patrick Stox
Patrick Stox est conseiller produit, spécialiste SEO technique et ambassadeur à Ahrefs. Il co-organise divers évènements comme le Raleigh SEO Meetup, Raleigh SEO Conference, Beer & SEO Meetup et Findability Conference. Il est aussi modérateur sur /r/TechSEO.
Le PageR­ank (PR) est un algo­rithme de Google qui classe les pages web dans les résul­tats de recherche en éval­u­ant le nom­bre et la qual­ité des liens pointant vers une page. Il fonc­tionne selon le principe que les pages rece­vant plus de liens de haute qual­ité sont con­sid­érées comme plus impor­tantes et sont donc mieux classées. 

PageR­ank a été créé par les cofon­da­teurs de Google, Sergey Brin et Lar­ry Page, en 1997 lorsqu’ils étaient à l’U­ni­ver­sité de Stan­ford. Le nom fait référence à la fois à Lar­ry Page et au terme “page web”.

À bien des égards, cela ressem­ble à une métrique appelée “fac­teur d’im­pact” pour les revues sci­en­tifiques, où plus cité = plus impor­tant. La dif­férence réside dans le fait que PageR­ank con­sid­ère cer­tains votes plus impor­tants que d’autres.

En util­isant les liens ain­si que le con­tenu pour class­er les pages, les résul­tats de Google étaient meilleurs que ceux de ses con­cur­rents. Les liens sont devenus la mon­naie du web.

Vous voulez en savoir plus sur PageR­ank ? Plon­geons-nous dans le sujet.

En ter­mes de SEO mod­erne, le PageR­ank est l’un des algo­rithmes qui com­posent l’Expe­ri­ence Exper­tise Author­i­ta­tive­ness Trust­wor­thi­ness (E‑E-A‑T).

Les algo­rithmes de Google iden­ti­fient des sig­naux sur les pages qui sont cor­rélés avec la fia­bil­ité et l’au­torité. Le sig­nal le plus con­nu est le PageR­ank, qui utilise les liens sur le web pour com­pren­dre l’autorité.

Source: How Google Fights Disinformation

Nous avons égale­ment eu con­fir­ma­tion de la part des représen­tants de Google comme Gary Illyes, qui a déclaré que Google utilise tou­jours le PageR­ank et que les liens sont util­isés pour l’E-A‑T (main­tenant E‑E-A‑T).

Saviez-vous qu’après 18 ans, nous util­isons tou­jours PageR­ank (et des cen­taines d’autres sig­naux) dans notre classe­ment ? Voulez-vous savoir com­ment ça fonctionne ?

@Marie_Haynes a inter­rogé @methode au sujet de l’EAT. Il a répon­du que c’est large­ment basé sur les liens et les men­tions sur les sites faisant autorité. #SMX

Lorsque j’ai mené une étude pour mesur­er l’impact des liens en les sup­p­ri­mant effec­tive­ment à l’aide de l’outil de désaveu, la baisse était évi­dente. Les liens comptent tou­jours pour le classement.

Impact sur le trafic quand les liens sont désavoués

Le PageR­ank est égale­ment un fac­teur con­fir­mé en ce qui con­cerne le bud­get de crawl. Il est logique que Google veuille explor­er plus sou­vent les pages importantes.

Le PageR­ank est aus­si un sig­nal de canon­i­cal­i­sa­tion. Les pages ayant un PageR­ank plus élevé sont plus sus­cep­ti­bles d’être choisies comme ver­sion canon­ique indexée et mon­trée aux utilisateurs.

Fait sur­prenant : la for­mule pub­liée dans l’ar­ti­cle orig­i­nal sur le PageR­ank était erronée. Voici pourquoi.

Le PageR­ank était décrit dans l’arti­cle orig­i­nal comme une dis­tri­b­u­tion de prob­a­bil­ité — ou la prob­a­bil­ité que vous vous trou­viez sur une page don­née du web. Cela sig­ni­fie que si vous addi­tion­nez le PageR­ank de toutes les pages du web, vous devriez obtenir un total de 1.

Voici la for­mule com­plète du PageR­ank pub­liée en 1997 :

PR(A) = (1‑d) + d (PR(T1)/C(T1) + … + PR(Tn)/C(Tn))

Sim­pli­fiée et en sup­posant que le fac­teur d’amor­tisse­ment (d) est de 0,85 comme men­tion­né par Google dans l’ar­ti­cle (j’ex­pli­querai ce qu’est le fac­teur d’amor­tisse­ment plus tard), cela donne :

PageR­ank d’une page = 0,15 + 0,85 (une por­tion du PageR­ank de chaque page liante répar­tie sur ses liens sortants)

Dans l’ar­ti­cle, ils indi­quaient que la somme du PageR­ank de toutes les pages devait être égale à 1. Mais ce n’est pas pos­si­ble avec la for­mule de l’ar­ti­cle. Chaque page aurait un PageR­ank min­i­mum de 0,15 (1‑d). Quelques pages suf­fi­raient à dépass­er 1. On ne peut pas avoir une prob­a­bil­ité supérieure à 100%. Il y a une erreur !

La for­mule devrait en fait divis­er ce (1‑d) par le nom­bre de pages sur inter­net pour fonc­tion­ner comme décrit. Ce serait :

PageR­ank d’une page = (0,15/nombre de pages sur inter­net) + 0,85 (une por­tion du PageR­ank de chaque page liante répar­tie sur ses liens sortants)

C’est encore com­pliqué, donc voyons si je peux l’ex­pli­quer avec des visuels.

1. Une page reçoit un score de PageR­ank ini­tial basé sur les liens qui pointent vers elle. Dis­ons que j’ai cinq pages sans aucun lien. Cha­cune obtient un PageR­ank de (1/5) ou 0,2.

Exemple de PageRank de cinq pages sans aucun lien pour le moment

2. Ce score est ensuite dis­tribué aux autres pages via les liens sur la page. Si j’a­joute des liens aux cinq pages ci-dessus et que je cal­cule le nou­veau PageR­ank pour cha­cune, j’ob­tiens ceci:

Exemple de PageRank pour 5 Pages Après 1 Itération

Vous remar­querez que les scores favorisent les pages avec plus de liens vers elles.

3. Ce cal­cul est répété à mesure que Google explore le Web. Si je cal­cule à nou­veau le PageR­ank (appelé une itéra­tion), vous ver­rez que les scores changent. Ce sont les mêmes pages avec les mêmes liens, mais le PageR­ank de base de chaque page a changé, donc le PageR­ank résul­tant est différent.

Exemple de PageRank pour 5 Pages Après 2 Itérations

La for­mule du PageR­ank a égale­ment un soi-dis­ant “fac­teur d’amor­tisse­ment”, le “d” dans la for­mule, qui simule la prob­a­bil­ité qu’un util­isa­teur aléa­toire con­tin­ue à cli­quer sur des liens pen­dant sa nav­i­ga­tion sur le Web.

Pensez‑y comme ceci : la prob­a­bil­ité que vous cliquiez sur un lien sur la pre­mière page que vous vis­itez est raisonnable­ment élevée. Mais la prob­a­bil­ité que vous cliquiez ensuite sur un lien sur la page suiv­ante est légère­ment plus faible, et ain­si de suite.

Si une page forte est directe­ment reliée à une autre page, elle va trans­met­tre beau­coup de valeur. Si le lien est à qua­tre clics de dis­tance, la valeur trans­férée de cette page forte sera beau­coup moins impor­tante en rai­son du fac­teur d’amortissement.

Exemple illustrant le Facteur d'Amortissement du PageRank
Histoire du PageRank

Le pre­mier brevet PageR­ank a été déposé le 9 jan­vi­er 1998. Il s’in­ti­t­u­lait “Méth­ode de classe­ment des nœuds dans une base de don­nées liée”. Ce brevet a expiré le 9 jan­vi­er 2018 et n’a pas été renouvelé.

Google a ren­du pub­lic le PageR­ank pour la pre­mière fois lors du lance­ment du Google Direc­to­ry le 15 mars 2000. C’é­tait une ver­sion de l’Open Direc­to­ry Project triée par PageR­ank. L’an­nu­aire a été fer­mé le 25 juil­let 2011.

C’est le 11 décem­bre 2000 que Google a lancé le PageR­ank dans la barre d’outils Google, ver­sion sur laque­lle la plu­part des référenceurs se sont focalisés.

Voici à quoi cela ressem­blait lorsque PageR­ank était inclus dans la barre d’outils de Google.

PageRank 8/10 dans l'ancienne barre d'outils de Google

PageR­ank dans la barre d’outils a été mis à jour pour la dernière fois le 6 décem­bre 2013 et a finale­ment été sup­primé le 7 mars 2016.

Le PageR­ank affiché dans la barre d’outils était un peu dif­férent. Il util­i­sait un sys­tème de numéro­ta­tion sim­ple de 0 à 10 pour représen­ter le PageR­ank. Mais PageR­ank lui-même est une échelle log­a­rith­mique où attein­dre chaque nom­bre supérieur devient de plus en plus difficile.

PageR­ank a même fait son appari­tion dans Google Sitemaps (main­tenant con­nu sous le nom de Google Search Con­sole) le 17 novem­bre 2005. Il était affiché dans des caté­gories élevées, moyennes, faibles ou N/A. Cette fonc­tion­nal­ité a été sup­primée le 15 octo­bre 2009.

Spam de liens

Au fil des années, les SEO ont trou­vé de nom­breuses façons dif­férentes d’abuser du sys­tème dans la recherche de plus de PageR­ank et de meilleurs classe­ments. Google a une liste com­plète de sys­tèmes de liens qui comprennent :

  • L’achat ou la vente de liens — l’échange de liens con­tre de l’ar­gent, des biens, des pro­duits ou des services.
  • Les échanges exces­sifs de liens.
  • L’u­til­i­sa­tion de logi­ciels pour créer automa­tique­ment des liens.
  • L’ex­i­gence de liens dans le cadre des con­di­tions d’u­til­i­sa­tion, d’un con­trat ou d’un autre accord.
  • Les annonces textuelles qui n’u­tilisent pas les attrib­uts nofol­low ou sponsored.
  • Les pub­lire­portages ou la pub­lic­ité native qui inclu­ent des liens qui trans­met­tent du crédit de classement.
  • Les arti­cles, les bil­lets d’in­vités ou les blogs avec des liens de texte d’an­crage optimisés.
  • Les réper­toires de faible qual­ité ou les liens de signets sociaux.
  • Les liens rich­es en mots-clés, cachés ou de faible qual­ité inté­grés dans des wid­gets qui sont placés sur d’autres sites web.
  • Les liens large­ment dis­tribués dans les pieds de page ou les mod­èles. Par exem­ple, coder en dur un lien vers votre site web dans le thème WP que vous vendez ou don­nez gratuitement.
  • Les com­men­taires de forum avec des liens opti­misés dans le mes­sage ou la signature.

Les sys­tèmes de lutte con­tre le spam de liens ont évolué au fil des années. Exam­inons quelques-unes des prin­ci­pales mis­es à jour.

Nofollow

Le 18 jan­vi­er 2005, Google a annon­cé qu’il s’é­tait asso­cié à d’autres grands moteurs de recherche pour intro­duire l’at­trib­ut rel=“nofollow”. Il a encour­agé les util­isa­teurs à ajouter l’at­trib­ut nofol­low aux com­men­taires de blog, aux rétroliens et aux listes de référents pour aider à lut­ter con­tre le spam.

Voici un extrait de la déc­la­ra­tion offi­cielle de Google sur l’in­tro­duc­tion de nofollow :

En tant que blogueur (ou lecteur de blogs), vous avez sûre­ment été con­fron­té à ces per­son­nes qui ten­tent d’amélior­er le référence­ment de leurs sites web en postant des com­men­taires avec des liens du type « Vis­itez ma bou­tique de médica­ments à prix cassés ». Ce procédé, appelé spam de com­men­taires, nous déplaît autant qu’à vous. C’est pourquoi nous avons mis au point une nou­velle balise pour le con­tr­er. Doré­na­vant, lorsque Google détectera l’at­trib­ut (rel=“nofollow”) sur les liens hyper­textes, ceux-ci ne génèreront aucun crédit pour le classe­ment des sites web dans nos résul­tats de recherche.

Presque tous les sys­tèmes mod­ernes utilisent l’at­trib­ut nofol­low sur les liens des com­men­taires de blog.

Les SEO ont même com­mencé à abuser de nofol­low — parce que bien sûr, nous l’avons fait. Nofol­low a été util­isé pour la sculp­ture de PageR­ank, où les gens met­taient en nofol­low cer­tains liens sur leurs pages pour ren­dre d’autres liens plus forts. Google a finale­ment mod­i­fié le sys­tème pour empêch­er cet abus.

En 2009, Matt Cutts de Google a con­fir­mé que cela ne fonc­tion­nerait plus et que le PageR­ank serait dis­tribué sur les liens même si un attrib­ut nofol­low était présent (mais seule­ment trans­mis par le lien suivi).

Google a ajouté quelques attrib­uts de lien sup­plé­men­taires qui sont des ver­sions plus spé­ci­fiques de l’at­trib­ut nofol­low le 10 sep­tem­bre 2019. Il s’agis­sait notam­ment de rel=“ugc” des­tiné à iden­ti­fi­er le con­tenu généré par les util­isa­teurs et de rel=“sponsored” des­tiné à iden­ti­fi­er les liens payants ou d’affiliation.

Algorithmes ciblant le spam de liens

Alors que les SEO trou­vaient de nou­velles façons de jouer avec les liens, Google tra­vail­lait sur de nou­veaux algo­rithmes pour détecter ce spam.

Lorsque l’al­go­rithme orig­i­nal Pen­guin a été lancé le 24 avril 2012, il a nui à de nom­breux sites web et pro­prié­taires de sites web. Google a don­né aux pro­prié­taires de sites un moyen de se rétablir plus tard cette année-là en intro­duisant l’out­il de désaveu le 16 octo­bre 2012.

Lorsque Pen­guin 4.0 a été lancé le 23 sep­tem­bre 2016, il a apporté un change­ment bien­venu dans la façon dont Google gérait le spam de liens. Au lieu de nuire aux sites web, il a com­mencé à déval­oris­er les liens de spam. Cela sig­nifi­ait égale­ment que la plu­part des sites n’avaient plus besoin d’u­tilis­er l’outil de désaveu.

Google a lancé sa pre­mière mise à jour de spam de liens le 26 juil­let 2021. Cette mise à jour a récem­ment évolué et une mise à jour de spam de liens le 14 décem­bre 2022 a annon­cé l’u­til­i­sa­tion d’un sys­tème de détec­tion basé sur l’IA appelé Spam­Brain pour neu­tralis­er la valeur des liens non naturels.

Selon un ancien employé de Google, la ver­sion orig­i­nale de PageR­ank n’a pas été util­isée depuis 2006. L’employé a déclaré qu’elle avait été rem­placée par un autre algo­rithme moins gour­mand en ressources.

Ils l’ont rem­placé en 2006 par un algo­rithme qui donne des résul­tats à peu près sim­i­laires mais qui est beau­coup plus rapi­de à cal­culer. L’al­go­rithme de rem­place­ment est le nom­bre qui a été rap­porté dans la barre d’outils, et ce que Google revendique comme PageR­ank (il a même un nom sim­i­laire, et donc l’af­fir­ma­tion de Google n’est pas tech­nique­ment incor­recte). Les deux algo­rithmes sont en O(N log N) mais le rem­plaçant a une con­stante beau­coup plus petite sur le fac­teur log N, parce qu’il élim­ine la néces­sité d’itér­er jusqu’à ce que l’al­go­rithme con­verge. C’est assez impor­tant car le web est passé d’en­v­i­ron 1 à 10 mil­lions de pages à plus de 150 milliards.

Vous vous sou­venez de ces itéra­tions et de la façon dont PageR­ank changeait à chaque itéra­tion ? Il sem­ble que Google ait sim­pli­fié ce système.

Quels sont les autres changements ?

Certains liens valent plus que d’autres

Plutôt que de répar­tir le PageR­ank équitable­ment entre tous les liens d’une page, certains liens ont plus de valeur que d’autres. Des brevets sug­gèrent que Google est passé d’un mod­èle de sur­feur aléa­toire (où un util­isa­teur peut cli­quer sur n’im­porte quel lien) à un mod­èle de sur­feur raisonnable (où cer­tains liens sont plus sus­cep­ti­bles d’être cliqués et ont donc plus de poids).

Certains liens sont ignorés

Plusieurs sys­tèmes ont été mis en place pour ignor­er la valeur de cer­tains liens, notamment :

  • Les attrib­uts nofol­low, UGC et sponsored
  • L’al­go­rithme Pen­guin de Google
  • L’outil de désaveu
  • Les mis­es à jour anti-spam de liens

Google ne compt­abilise pas non plus les liens présents sur les pages blo­quées par le fichi­er robots.txt. Il ne pour­ra pas explor­er ces pages pour voir les liens qu’elles con­ti­en­nent. Ce sys­tème était prob­a­ble­ment en place dès le début.

Certains liens sont consolidés

Google dis­pose d’un sys­tème de canon­i­cal­i­sa­tion qui l’aide à déter­min­er quelle ver­sion d’une page doit être indexée et à con­solid­er les sig­naux provenant des pages dupliquées vers cette ver­sion principale.

Signaux de canonicalisation

Les élé­ments de lien canon­iques ont été intro­duits le 12 févri­er 2009, et per­me­t­tent aux util­isa­teurs de spé­ci­fi­er leur ver­sion préférée.

Les redi­rec­tions devaient ini­tiale­ment trans­met­tre la même quan­tité de PageR­ank qu’un lien. Mais à un cer­tain moment, ce sys­tème a changé et aucun PageR­ank n’est désor­mais perdu.

Les redi­rec­tions 30x ne per­dent plus de PageRank.

Une part d’inconnu persiste

Lorsque les pages sont mar­quées comme noin­dex, nous ne savons pas exacte­ment com­ment Google traite les liens. Même les employés de Google ont des déc­la­ra­tions contradictoires.

Selon John Mueller, les pages mar­quées noin­dex seront finale­ment traitées comme noin­dex, nofol­low. Cela sig­ni­fie que les liens finis­sent par ne plus trans­met­tre de valeur.

Selon Gary, Google­bot décou­vri­ra et suiv­ra les liens tant qu’une page a encore des liens pointant vers elle.

Ces déc­la­ra­tions ne sont pas néces­saire­ment con­tra­dic­toires. Mais si l’on suit la déc­la­ra­tion de Gary, il pour­rait s’é­couler un très long temps avant que Google ne cesse d’ex­plor­er et de compt­abilis­er les liens — peut-être même jamais.

Il n’ex­iste actuelle­ment aucun moyen de voir le PageR­ank de Google.

L’URL Rat­ing (UR) est une bonne métrique de rem­place­ment car elle a beau­coup en com­mun avec la for­mule PageR­ank. Elle mon­tre la force du pro­fil de liens d’une page sur une échelle de 100 points. Plus le nom­bre est élevé, plus le pro­fil de liens est fort.

Capture d'écran montrant le score UR de l'aperçu Ahrefs 2.0

Le PageR­ank et l’UR pren­nent en compte les liens internes et externes dans leur cal­cul. De nom­breuses autres métriques de force util­isées dans l’in­dus­trie ignorent com­plète­ment les liens internes. Je dirais que les link builders devraient davan­tage se pencher sur UR que sur des métriques comme DR, qui ne tien­nent compte que des liens provenant d’autres sites.

Cepen­dant, ce n’est pas exacte­ment la même chose. UR ignore la valeur de cer­tains liens et ne compte pas les liens nofol­low. Nous ne savons pas exacte­ment quels liens Google ignore et nous ne savons pas quels liens les util­isa­teurs ont pu désavouer, ce qui aura un impact sur le cal­cul du PageR­ank de Google. Nous pou­vons égale­ment pren­dre des déci­sions dif­férentes sur la façon dont nous traitons cer­tains des sig­naux de canon­i­cal­i­sa­tion comme les élé­ments de lien canon­iques et les redirections.

Notre con­seil est donc de l’u­tilis­er, mais de savoir qu’il peut ne pas être exacte­ment comme le sys­tème de Google.

Nous avons égale­ment le Page Rat­ing (PR) dans l’ex­plo­rateur de pages de Site Audit. Il s’ag­it d’un cal­cul sim­i­laire au PageR­ank interne et il peut être utile pour voir quelles sont les pages les plus fortes de votre site en fonc­tion de votre struc­ture de liens internes.

Page Rating dans Site Audit d'Ahrefs


Puisque le PageR­ank est basé sur les liens, pour l’aug­menter, vous avez besoin de meilleurs liens. Voici vos options.

Rediriger les pages cassées

Rediriger les anci­ennes pages de votre site vers de nou­velles pages per­ti­nentes peut aider à récupér­er et con­solid­er les sig­naux comme le PageR­ank. Les sites web changent avec le temps, et les gens ne sem­blent pas aimer met­tre en place des redi­rec­tions appro­priées. C’est peut-être la vic­toire la plus facile, puisque ces liens pointent déjà vers vous mais ne comptent pas actuelle­ment pour vous.

Voici com­ment trou­ver ces opportunités :

  • Collez votre domaine dans Site Explor­er (égale­ment acces­si­ble gra­tu­ite­ment dans Ahrefs Web­mas­ter Tools)
  • Allez dans le rap­port Meilleures par liens
  • Ajoutez un fil­tre de réponse Code HTTP “404 Non trouvé”

Je trie générale­ment par “Domaines référents”.

Rapport Meilleures par liens filtré par le code de statut 404 pour afficher les pages que vous pourriez vouloir rediriger

Prenez ces pages et redirigez-les vers les pages actuelles de votre site. Si vous ne savez pas exacte­ment où elles vont ou si vous n’avez pas le temps, j’ai un script de redi­rec­tion automa­tisé qui peut vous aider. Il exam­ine l’an­cien con­tenu d’archive.org et le fait cor­re­spon­dre au con­tenu actuel le plus proche de votre site. C’est prob­a­ble­ment là que vous voulez rediriger les pages.

Liens internes

Les back­links ne sont pas tou­jours sous votre con­trôle. Les gens peu­vent créer des liens vers n’im­porte quelle page de votre site, et ils peu­vent utilis­er le texte d’an­crage de leur choix.

Les liens internes sont dif­férents. Vous en avez le con­trôle total.

Créez des liens internes là où cela a du sens. Par exem­ple, vous pou­vez vouloir créer plus de liens vers les pages qui sont plus impor­tantes pour vous.

Nous avons un out­il dans Site Audit appelé Oppor­tu­nités de liens internes qui vous aide à localis­er rapi­de­ment ces opportunités.

Cet out­il fonc­tionne en recher­chant les men­tions de mots-clés pour lesquels vous êtes déjà classé sur votre site. Ensuite, il les sug­gère comme des oppor­tu­nités de liens internes contextuels.

Par exem­ple, l’outil mon­tre une men­tion de “nav­i­ga­tion facettée” dans notre guide sur le con­tenu dupliqué. Comme Site Audit sait que nous avons une page sur la nav­i­ga­tion facettée, il sug­gère d’a­jouter un lien interne vers cette page.

Exemple d'une opportunité de lien interne

Liens externes

Vous pou­vez égale­ment obtenir plus de liens d’autres sites vers le vôtre pour aug­menter votre PageR­ank. Nous avons déjà de nom­breux guides sur la con­struc­tion de liens. Voici un mes préférés :

Link Build­ing pour le SEO : Le guide du débutant

Conclusion

Même si PageR­ank a changé, nous savons que Google l’u­tilise tou­jours. Nous ne con­nais­sons peut-être pas tous les détails ou tout ce qui est impliqué, mais il est encore facile de voir l’im­pact des liens.

De plus, Google ne sem­ble tout sim­ple­ment pas pou­voir se pass­er d’u­tilis­er les liens et PageR­ank. Il a une fois expéri­men­té de ne pas utilis­er les liens dans son algo­rithme et a décidé de ne pas le faire.

Donc, nous n’avons pas une ver­sion comme celle-là qui est exposée au pub­lic, mais nous avons nos pro­pres expéri­ences comme celle-là en interne et la qual­ité sem­ble bien pire. Il s’avère que les back­links, même s’il y a du bruit et cer­taine­ment beau­coup de spam, sont pour la plu­part encore une très grande vic­toire en ter­mes de qual­ité des résul­tats de recherche.

Nous avons joué avec l’idée de dés­ac­tiv­er la per­ti­nence des back­links et, au moins pour l’in­stant, la per­ti­nence des back­links nous aide vrai­ment à nous assur­er que nous trou­vons les meilleurs résul­tats de recherche, les plus per­ti­nents et les plus thématiques.

Source : YouTube (Google Search Central)

Si vous avez des ques­tions, envoyez-moi un mes­sage sur Twit­ter.