PageRank a été créé par les cofondateurs de Google, Sergey Brin et Larry Page, en 1997 lorsqu’ils étaient à l’Université de Stanford. Le nom fait référence à la fois à Larry Page et au terme “page web”.
À bien des égards, cela ressemble à une métrique appelée “facteur d’impact” pour les revues scientifiques, où plus cité = plus important. La différence réside dans le fait que PageRank considère certains votes plus importants que d’autres.
En utilisant les liens ainsi que le contenu pour classer les pages, les résultats de Google étaient meilleurs que ceux de ses concurrents. Les liens sont devenus la monnaie du web.
Vous voulez en savoir plus sur PageRank ? Plongeons-nous dans le sujet.
En termes de SEO moderne, le PageRank est l’un des algorithmes qui composent l’Experience Expertise Authoritativeness Trustworthiness (E‑E-A‑T).
Les algorithmes de Google identifient des signaux sur les pages qui sont corrélés avec la fiabilité et l’autorité. Le signal le plus connu est le PageRank, qui utilise les liens sur le web pour comprendre l’autorité.
Source: How Google Fights Disinformation
Nous avons également eu confirmation de la part des représentants de Google comme Gary Illyes, qui a déclaré que Google utilise toujours le PageRank et que les liens sont utilisés pour l’E-A‑T (maintenant E‑E-A‑T).
DYK that after 18 years we’re still using PageRank (and 100s of other signals) in ranking?
— Gary 鯨理/경리 Illyes (so official, trust me) (@methode) February 9, 2017
Wanna know how it works?https://t.co/CfOlxGauGF pic.twitter.com/3YJeNbXLml
Saviez-vous qu’après 18 ans, nous utilisons toujours PageRank (et des centaines d’autres signaux) dans notre classement ? Voulez-vous savoir comment ça fonctionne ?
.@Marie_Haynes asked @methode about EAT. He said it’s largely based on links and mentions on authoritative sites. #SMX
— Patrick Stox (@patrickstox) March 15, 2018
@Marie_Haynes a interrogé @methode au sujet de l’EAT. Il a répondu que c’est largement basé sur les liens et les mentions sur les sites faisant autorité. #SMX
Lorsque j’ai mené une étude pour mesurer l’impact des liens en les supprimant effectivement à l’aide de l’outil de désaveu, la baisse était évidente. Les liens comptent toujours pour le classement.
Le PageRank est également un facteur confirmé en ce qui concerne le budget de crawl. Il est logique que Google veuille explorer plus souvent les pages importantes.
Le PageRank est aussi un signal de canonicalisation. Les pages ayant un PageRank plus élevé sont plus susceptibles d’être choisies comme version canonique indexée et montrée aux utilisateurs.
Fait surprenant : la formule publiée dans l’article original sur le PageRank était erronée. Voici pourquoi.
Le PageRank était décrit dans l’article original comme une distribution de probabilité — ou la probabilité que vous vous trouviez sur une page donnée du web. Cela signifie que si vous additionnez le PageRank de toutes les pages du web, vous devriez obtenir un total de 1.
Voici la formule complète du PageRank publiée en 1997 :
PR(A) = (1‑d) + d (PR(T1)/C(T1) + … + PR(Tn)/C(Tn))
Simplifiée et en supposant que le facteur d’amortissement (d) est de 0,85 comme mentionné par Google dans l’article (j’expliquerai ce qu’est le facteur d’amortissement plus tard), cela donne :
PageRank d’une page = 0,15 + 0,85 (une portion du PageRank de chaque page liante répartie sur ses liens sortants)
Dans l’article, ils indiquaient que la somme du PageRank de toutes les pages devait être égale à 1. Mais ce n’est pas possible avec la formule de l’article. Chaque page aurait un PageRank minimum de 0,15 (1‑d). Quelques pages suffiraient à dépasser 1. On ne peut pas avoir une probabilité supérieure à 100%. Il y a une erreur !
La formule devrait en fait diviser ce (1‑d) par le nombre de pages sur internet pour fonctionner comme décrit. Ce serait :
PageRank d’une page = (0,15/nombre de pages sur internet) + 0,85 (une portion du PageRank de chaque page liante répartie sur ses liens sortants)
C’est encore compliqué, donc voyons si je peux l’expliquer avec des visuels.
1. Une page reçoit un score de PageRank initial basé sur les liens qui pointent vers elle. Disons que j’ai cinq pages sans aucun lien. Chacune obtient un PageRank de (1/5) ou 0,2.
2. Ce score est ensuite distribué aux autres pages via les liens sur la page. Si j’ajoute des liens aux cinq pages ci-dessus et que je calcule le nouveau PageRank pour chacune, j’obtiens ceci:
Vous remarquerez que les scores favorisent les pages avec plus de liens vers elles.
3. Ce calcul est répété à mesure que Google explore le Web. Si je calcule à nouveau le PageRank (appelé une itération), vous verrez que les scores changent. Ce sont les mêmes pages avec les mêmes liens, mais le PageRank de base de chaque page a changé, donc le PageRank résultant est différent.
La formule du PageRank a également un soi-disant “facteur d’amortissement”, le “d” dans la formule, qui simule la probabilité qu’un utilisateur aléatoire continue à cliquer sur des liens pendant sa navigation sur le Web.
Pensez‑y comme ceci : la probabilité que vous cliquiez sur un lien sur la première page que vous visitez est raisonnablement élevée. Mais la probabilité que vous cliquiez ensuite sur un lien sur la page suivante est légèrement plus faible, et ainsi de suite.
Si une page forte est directement reliée à une autre page, elle va transmettre beaucoup de valeur. Si le lien est à quatre clics de distance, la valeur transférée de cette page forte sera beaucoup moins importante en raison du facteur d’amortissement.
Le premier brevet PageRank a été déposé le 9 janvier 1998. Il s’intitulait “Méthode de classement des nœuds dans une base de données liée”. Ce brevet a expiré le 9 janvier 2018 et n’a pas été renouvelé.
Google a rendu public le PageRank pour la première fois lors du lancement du Google Directory le 15 mars 2000. C’était une version de l’Open Directory Project triée par PageRank. L’annuaire a été fermé le 25 juillet 2011.
C’est le 11 décembre 2000 que Google a lancé le PageRank dans la barre d’outils Google, version sur laquelle la plupart des référenceurs se sont focalisés.
Voici à quoi cela ressemblait lorsque PageRank était inclus dans la barre d’outils de Google.
PageRank dans la barre d’outils a été mis à jour pour la dernière fois le 6 décembre 2013 et a finalement été supprimé le 7 mars 2016.
Le PageRank affiché dans la barre d’outils était un peu différent. Il utilisait un système de numérotation simple de 0 à 10 pour représenter le PageRank. Mais PageRank lui-même est une échelle logarithmique où atteindre chaque nombre supérieur devient de plus en plus difficile.
PageRank a même fait son apparition dans Google Sitemaps (maintenant connu sous le nom de Google Search Console) le 17 novembre 2005. Il était affiché dans des catégories élevées, moyennes, faibles ou N/A. Cette fonctionnalité a été supprimée le 15 octobre 2009.
Spam de liens
Au fil des années, les SEO ont trouvé de nombreuses façons différentes d’abuser du système dans la recherche de plus de PageRank et de meilleurs classements. Google a une liste complète de systèmes de liens qui comprennent :
- L’achat ou la vente de liens — l’échange de liens contre de l’argent, des biens, des produits ou des services.
- Les échanges excessifs de liens.
- L’utilisation de logiciels pour créer automatiquement des liens.
- L’exigence de liens dans le cadre des conditions d’utilisation, d’un contrat ou d’un autre accord.
- Les annonces textuelles qui n’utilisent pas les attributs nofollow ou sponsored.
- Les publireportages ou la publicité native qui incluent des liens qui transmettent du crédit de classement.
- Les articles, les billets d’invités ou les blogs avec des liens de texte d’ancrage optimisés.
- Les répertoires de faible qualité ou les liens de signets sociaux.
- Les liens riches en mots-clés, cachés ou de faible qualité intégrés dans des widgets qui sont placés sur d’autres sites web.
- Les liens largement distribués dans les pieds de page ou les modèles. Par exemple, coder en dur un lien vers votre site web dans le thème WP que vous vendez ou donnez gratuitement.
- Les commentaires de forum avec des liens optimisés dans le message ou la signature.
Les systèmes de lutte contre le spam de liens ont évolué au fil des années. Examinons quelques-unes des principales mises à jour.
Nofollow
Le 18 janvier 2005, Google a annoncé qu’il s’était associé à d’autres grands moteurs de recherche pour introduire l’attribut rel=“nofollow”. Il a encouragé les utilisateurs à ajouter l’attribut nofollow aux commentaires de blog, aux rétroliens et aux listes de référents pour aider à lutter contre le spam.
Voici un extrait de la déclaration officielle de Google sur l’introduction de nofollow :
En tant que blogueur (ou lecteur de blogs), vous avez sûrement été confronté à ces personnes qui tentent d’améliorer le référencement de leurs sites web en postant des commentaires avec des liens du type « Visitez ma boutique de médicaments à prix cassés ». Ce procédé, appelé spam de commentaires, nous déplaît autant qu’à vous. C’est pourquoi nous avons mis au point une nouvelle balise pour le contrer. Dorénavant, lorsque Google détectera l’attribut (rel=“nofollow”) sur les liens hypertextes, ceux-ci ne génèreront aucun crédit pour le classement des sites web dans nos résultats de recherche.
Presque tous les systèmes modernes utilisent l’attribut nofollow sur les liens des commentaires de blog.
Les SEO ont même commencé à abuser de nofollow — parce que bien sûr, nous l’avons fait. Nofollow a été utilisé pour la sculpture de PageRank, où les gens mettaient en nofollow certains liens sur leurs pages pour rendre d’autres liens plus forts. Google a finalement modifié le système pour empêcher cet abus.
En 2009, Matt Cutts de Google a confirmé que cela ne fonctionnerait plus et que le PageRank serait distribué sur les liens même si un attribut nofollow était présent (mais seulement transmis par le lien suivi).
Google a ajouté quelques attributs de lien supplémentaires qui sont des versions plus spécifiques de l’attribut nofollow le 10 septembre 2019. Il s’agissait notamment de rel=“ugc” destiné à identifier le contenu généré par les utilisateurs et de rel=“sponsored” destiné à identifier les liens payants ou d’affiliation.
Algorithmes ciblant le spam de liens
Alors que les SEO trouvaient de nouvelles façons de jouer avec les liens, Google travaillait sur de nouveaux algorithmes pour détecter ce spam.
Lorsque l’algorithme original Penguin a été lancé le 24 avril 2012, il a nui à de nombreux sites web et propriétaires de sites web. Google a donné aux propriétaires de sites un moyen de se rétablir plus tard cette année-là en introduisant l’outil de désaveu le 16 octobre 2012.
Lorsque Penguin 4.0 a été lancé le 23 septembre 2016, il a apporté un changement bienvenu dans la façon dont Google gérait le spam de liens. Au lieu de nuire aux sites web, il a commencé à dévaloriser les liens de spam. Cela signifiait également que la plupart des sites n’avaient plus besoin d’utiliser l’outil de désaveu.
Google a lancé sa première mise à jour de spam de liens le 26 juillet 2021. Cette mise à jour a récemment évolué et une mise à jour de spam de liens le 14 décembre 2022 a annoncé l’utilisation d’un système de détection basé sur l’IA appelé SpamBrain pour neutraliser la valeur des liens non naturels.
Selon un ancien employé de Google, la version originale de PageRank n’a pas été utilisée depuis 2006. L’employé a déclaré qu’elle avait été remplacée par un autre algorithme moins gourmand en ressources.
Ils l’ont remplacé en 2006 par un algorithme qui donne des résultats à peu près similaires mais qui est beaucoup plus rapide à calculer. L’algorithme de remplacement est le nombre qui a été rapporté dans la barre d’outils, et ce que Google revendique comme PageRank (il a même un nom similaire, et donc l’affirmation de Google n’est pas techniquement incorrecte). Les deux algorithmes sont en O(N log N) mais le remplaçant a une constante beaucoup plus petite sur le facteur log N, parce qu’il élimine la nécessité d’itérer jusqu’à ce que l’algorithme converge. C’est assez important car le web est passé d’environ 1 à 10 millions de pages à plus de 150 milliards.
Vous vous souvenez de ces itérations et de la façon dont PageRank changeait à chaque itération ? Il semble que Google ait simplifié ce système.
Quels sont les autres changements ?
Certains liens valent plus que d’autres
Plutôt que de répartir le PageRank équitablement entre tous les liens d’une page, certains liens ont plus de valeur que d’autres. Des brevets suggèrent que Google est passé d’un modèle de surfeur aléatoire (où un utilisateur peut cliquer sur n’importe quel lien) à un modèle de surfeur raisonnable (où certains liens sont plus susceptibles d’être cliqués et ont donc plus de poids).
Certains liens sont ignorés
Plusieurs systèmes ont été mis en place pour ignorer la valeur de certains liens, notamment :
- Les attributs nofollow, UGC et sponsored
- L’algorithme Penguin de Google
- L’outil de désaveu
- Les mises à jour anti-spam de liens
Google ne comptabilise pas non plus les liens présents sur les pages bloquées par le fichier robots.txt. Il ne pourra pas explorer ces pages pour voir les liens qu’elles contiennent. Ce système était probablement en place dès le début.
Certains liens sont consolidés
Google dispose d’un système de canonicalisation qui l’aide à déterminer quelle version d’une page doit être indexée et à consolider les signaux provenant des pages dupliquées vers cette version principale.
Les éléments de lien canoniques ont été introduits le 12 février 2009, et permettent aux utilisateurs de spécifier leur version préférée.
Les redirections devaient initialement transmettre la même quantité de PageRank qu’un lien. Mais à un certain moment, ce système a changé et aucun PageRank n’est désormais perdu.
Les redirections 30x ne perdent plus de PageRank.
Une part d’inconnu persiste
Lorsque les pages sont marquées comme noindex, nous ne savons pas exactement comment Google traite les liens. Même les employés de Google ont des déclarations contradictoires.
Selon John Mueller, les pages marquées noindex seront finalement traitées comme noindex, nofollow. Cela signifie que les liens finissent par ne plus transmettre de valeur.
Selon Gary, Googlebot découvrira et suivra les liens tant qu’une page a encore des liens pointant vers elle.
Ces déclarations ne sont pas nécessairement contradictoires. Mais si l’on suit la déclaration de Gary, il pourrait s’écouler un très long temps avant que Google ne cesse d’explorer et de comptabiliser les liens — peut-être même jamais.
Il n’existe actuellement aucun moyen de voir le PageRank de Google.
L’URL Rating (UR) est une bonne métrique de remplacement car elle a beaucoup en commun avec la formule PageRank. Elle montre la force du profil de liens d’une page sur une échelle de 100 points. Plus le nombre est élevé, plus le profil de liens est fort.
Le PageRank et l’UR prennent en compte les liens internes et externes dans leur calcul. De nombreuses autres métriques de force utilisées dans l’industrie ignorent complètement les liens internes. Je dirais que les link builders devraient davantage se pencher sur UR que sur des métriques comme DR, qui ne tiennent compte que des liens provenant d’autres sites.
Cependant, ce n’est pas exactement la même chose. UR ignore la valeur de certains liens et ne compte pas les liens nofollow. Nous ne savons pas exactement quels liens Google ignore et nous ne savons pas quels liens les utilisateurs ont pu désavouer, ce qui aura un impact sur le calcul du PageRank de Google. Nous pouvons également prendre des décisions différentes sur la façon dont nous traitons certains des signaux de canonicalisation comme les éléments de lien canoniques et les redirections.
Notre conseil est donc de l’utiliser, mais de savoir qu’il peut ne pas être exactement comme le système de Google.
Nous avons également le Page Rating (PR) dans l’explorateur de pages de Site Audit. Il s’agit d’un calcul similaire au PageRank interne et il peut être utile pour voir quelles sont les pages les plus fortes de votre site en fonction de votre structure de liens internes.
Puisque le PageRank est basé sur les liens, pour l’augmenter, vous avez besoin de meilleurs liens. Voici vos options.
Rediriger les pages cassées
Rediriger les anciennes pages de votre site vers de nouvelles pages pertinentes peut aider à récupérer et consolider les signaux comme le PageRank. Les sites web changent avec le temps, et les gens ne semblent pas aimer mettre en place des redirections appropriées. C’est peut-être la victoire la plus facile, puisque ces liens pointent déjà vers vous mais ne comptent pas actuellement pour vous.
Voici comment trouver ces opportunités :
- Collez votre domaine dans Site Explorer (également accessible gratuitement dans Ahrefs Webmaster Tools)
- Allez dans le rapport Meilleures par liens
- Ajoutez un filtre de réponse Code HTTP “404 Non trouvé”
Je trie généralement par “Domaines référents”.
Prenez ces pages et redirigez-les vers les pages actuelles de votre site. Si vous ne savez pas exactement où elles vont ou si vous n’avez pas le temps, j’ai un script de redirection automatisé qui peut vous aider. Il examine l’ancien contenu d’archive.org et le fait correspondre au contenu actuel le plus proche de votre site. C’est probablement là que vous voulez rediriger les pages.
Liens internes
Les backlinks ne sont pas toujours sous votre contrôle. Les gens peuvent créer des liens vers n’importe quelle page de votre site, et ils peuvent utiliser le texte d’ancrage de leur choix.
Les liens internes sont différents. Vous en avez le contrôle total.
Créez des liens internes là où cela a du sens. Par exemple, vous pouvez vouloir créer plus de liens vers les pages qui sont plus importantes pour vous.
Nous avons un outil dans Site Audit appelé Opportunités de liens internes qui vous aide à localiser rapidement ces opportunités.
Cet outil fonctionne en recherchant les mentions de mots-clés pour lesquels vous êtes déjà classé sur votre site. Ensuite, il les suggère comme des opportunités de liens internes contextuels.
Par exemple, l’outil montre une mention de “navigation facettée” dans notre guide sur le contenu dupliqué. Comme Site Audit sait que nous avons une page sur la navigation facettée, il suggère d’ajouter un lien interne vers cette page.
Liens externes
Vous pouvez également obtenir plus de liens d’autres sites vers le vôtre pour augmenter votre PageRank. Nous avons déjà de nombreux guides sur la construction de liens. Voici un mes préférés :
Link Building pour le SEO : Le guide du débutant
Conclusion
Même si PageRank a changé, nous savons que Google l’utilise toujours. Nous ne connaissons peut-être pas tous les détails ou tout ce qui est impliqué, mais il est encore facile de voir l’impact des liens.
De plus, Google ne semble tout simplement pas pouvoir se passer d’utiliser les liens et PageRank. Il a une fois expérimenté de ne pas utiliser les liens dans son algorithme et a décidé de ne pas le faire.
Donc, nous n’avons pas une version comme celle-là qui est exposée au public, mais nous avons nos propres expériences comme celle-là en interne et la qualité semble bien pire. Il s’avère que les backlinks, même s’il y a du bruit et certainement beaucoup de spam, sont pour la plupart encore une très grande victoire en termes de qualité des résultats de recherche.
Nous avons joué avec l’idée de désactiver la pertinence des backlinks et, au moins pour l’instant, la pertinence des backlinks nous aide vraiment à nous assurer que nous trouvons les meilleurs résultats de recherche, les plus pertinents et les plus thématiques.
Source : YouTube (Google Search Central)
Si vous avez des questions, envoyez-moi un message sur Twitter.