Etude : À quelle fréquence les IA hallucinent-ils des liens ? (16 millions d’URL analysées)

Manuel Casalta Petitjean
Manuel cumule 15+ ans d'expertise en stratégie/production digitale et SEO. Formé chez McCann Erickson France, il a conseillé 3 entreprises du CAC 40, dont 8 ans Unibail-Rodamco-Westfield. AFK, Il pratique la boxe anglaise et organise des galas caritatifs à Londres. Vivant entre le Royaume-Uni et la Corse, il s'intéresse au paysagisme et à la protection de l'environnement local.
Les assistants IA comme ChatGPT et Claude peuvent “halluciner” des URL et diriger les visiteurs vers des pages inexistantes sur votre site web. Mais à quelle fréquence cela se produit-il ?

Pour le découvrir, nous avons examiné le statut HTTP de 16 millions d’URL uniques citées par ChatGPT, Perplexity, Copilot, Gemini, Claude et Mistral.

Graphique montrant que les assistants IA génèrent des liens morts 2,87 fois plus souvent que la recherche Google

Nous avons découvert que les assistants IA envoient les visiteurs vers des pages 404 2,87 fois plus souvent que la recherche Google.

ChatGPT est le plus mauvais élève, avec 1,01 % des URL cliquées et 2,38 % de toutes les URL citées renvoyant un statut 404 (comparé aux taux de référence de 0,15 % et 0,84 % respectivement).

Voici ce que nous avons trouvé :

Pour ce premier test, nous avons utilisé des données anonymisées provenant de notre outil d’analyse gratuit, Web Analytics. Cela nous a permis de voir les visites réelles vers des URL recommandées par l’IA sur de vrais sites web.

Voici la méthodologie :

  • Nous avons utilisé les données de Web Analytics pour trouver toutes les URL ayant un assistant IA (comme ChatGPT ou Perplexity) comme référent (referrer).
  • Nous avons marqué les URL comme étant potentiellement des pages 404 si le titre de la page contenait soit “404”, soit l’expression “not found” (non trouvé).
  • Pour chaque assistant IA, nous avons comparé le nombre de pages 404 probables au nombre total d’URL référées pour trouver leur taux d’erreur 404.
Graphique comparant le taux de pages 404 probables entre ChatGPT, Claude, Copilot, Perplexity, Gemini et Mistral

ChatGPT affiche le taux de pages 404 le plus élevé, avec 1,01 % de toutes les URL citées contenant “404” ou “not found” dans leur titre de page.

Claude suit avec 0,58 %, suivi de Copilot (0,34 %), Perplexity (0,31 %) et Gemini (0,21 %). Mistral a le taux le plus bas (0,12 %), mais envoie également le plus faible volume de trafic référent, ce qui en fait le plus petit échantillon de ce test.

RéférentPages 404 probablesTotal URL UniquesTaux de 404
ChatGPT84 4658 332 4361,01 %
Perplexity3 5291 133 0840,31 %
Copilot1 466431 3190,34 %
Gemini734351 2420,21 %
Claude55095 2930,58 %
Mistral86 7600,12 %

Le taux de base 404 de Google

Ce test n’est pas parfait. Certaines pages 404 peuvent ne pas inclure “404” ou “not found” dans leur titre. De plus, tous les liens hallucinés par les assistants IA ne reçoivent pas de clics (et n’apparaissent donc pas dans les données Web Analytics), il est donc probable que nous sous-estimions le nombre total d’URL hallucinées.

Une partie de ces pages 404 peut également être de véritables pages 404 légitimes, et non des hallucinations. Nous pouvons ajouter du contexte à ces données en les comparant à un “taux de base” de pages 404. Pour ce faire, nous avons examiné le taux de 404 pour toutes les URL uniques ayant Google comme référent (629 millions d’URL uniques). Ce taux était de 0,15 %.

Comparaison du taux d'erreur 404 de Google (0,15%) avec celui des assistants IA

Avec ce contexte supplémentaire, il est évident que les taux d’erreur des assistants IA sont significativement plus élevés que le taux de base de Google. Il semble probable que ChatGPT, Claude, Copilot, Perplexity et Gemini créent tous des URL hallucinées.

Le taux moyen de 404 pour l’ensemble des assistants IA était de 0,43 %. Comparé au taux de 404 des URL référées par Google, les assistants IA envoient les visiteurs vers des pages 404 à un taux 2,87 fois supérieur à celui de la recherche Google (0,43 / 0,15).

Graphique illustrant que les assistants IA génèrent 2,87 fois plus d'erreurs 404 que Google

Nous avons également mené un test similaire en utilisant Brand Radar, notre base de données massive contenant des millions de prompts et de réponses d’assistants IA. Grâce à ces données, nous pouvons voir toutes les URL citées par les assistants IA, et pas seulement celles qui ont reçu un clic.

  • Nous avons trouvé toutes les URL citées par ChatGPT, Perplexity, Copilot et Gemini dans nos bases de données Brand Radar.
  • Pour les URL également stockées dans notre base de données de crawl (65 % du total), nous avons récupéré le statut HTTP le plus récent.
  • Pour chaque assistant IA, nous avons calculé le taux de 404 des URL citées présentes dans notre base de crawl.
Graphique des taux d'erreur 404 pour les URL citées par ChatGPT, Perplexity, Gemini et Copilot dans Brand Radar

Le taux de 404 des URL citées (et non pas seulement cliquées) est beaucoup plus élevé que dans notre test précédent.

Encore une fois, ChatGPT affiche le taux le plus élevé de pages 404 (2,38 %), suivi de près par Perplexity (0,87 %) et Gemini (0,86 %). Copilot a le taux le plus bas, à 0,54 %.

Ce test a aussi ses limites. Comme précédemment, un certain nombre de ces pages renvoient une erreur 404 pour une raison autre que l’hallucination. Nous sous-estimons également le nombre total d’URL 404, car nous ne pouvons voir le statut HTTP que pour les URL présentes dans notre base de données de crawl (et je m’attends à ce qu’un pourcentage décent d’URL hallucinées soit absent de notre base, car elles n’ont jamais existé).

Comme avant, nous voulions comparer ces chiffres à un taux de référence. Pour ce faire, nous avons extrait toutes les URL uniques des 20 premières positions de 400 000 SERPs (pages de résultats de recherche).

67 % de ces URL étaient également dans notre base de données, nous permettant de déterminer un taux de référence de 0,84 %. (En termes simples, 0,84 % des URL dans le top 20 de Google renvoient un statut 404).

Comparaison des taux d'erreur 404 des IA avec le taux de base de 0,84% des SERPs Google

Les taux de 404 pour Perplexity (0,87 %) et Gemini (0,86 %) sont extrêmement proches du taux pour les SERPs Google (0,84 %).

Cela pourrait s’expliquer par le fait que Gemini et Perplexity utilisent l’index de recherche Google pour récupérer les URL : leurs taux de 404 reflètent donc le taux de la source sous-jacente, Google. Si c’est le cas, il est probable qu’ils aient un taux d’hallucination inférieur à celui de ChatGPT.

Copilot utilise l’index de recherche Bing, il est donc possible que le taux de Copilot reflète celui de Bing.

Assis­tant IAURL Uniques CitéesURL dans la BDD CrawlerTaux de 404
Chat­G­PT2 452 7761 524 2772,38 %
Per­plex­i­ty3 471 7542 450 0160,87 %
Copi­lot1 485 3551 120 7800,54 %
Gem­i­ni1 354 171641 6030,86 %

Je soupçonne deux causes principales aux liens hallucinés.

  1. Une partie des URL citées était valide auparavant mais renvoie maintenant une 404. Les assistants IA utilisent une combinaison de recherche web et de leur propre connaissance interne. Il est possible que certaines URL citées aient existé à un moment donné, mais aient été supprimées ou déplacées depuis (sans redirection) — surtout lorsque l’IA s’appuie uniquement sur sa connaissance interne.

    (Cela explique aussi pourquoi un grand nombre de ces pages 404 existent dans notre base de données de crawl.)
  2. Une autre partie des URL citées sont de véritables hallucinations, dans le sens où elles correspondent au modèle d’URL attendu pour un site donné, mais n’existent pas réellement.

Pour le blog Ahrefs, les URL hallucinées les plus visitées sont des pages comme /blog/internal-links/ et /blog/newsletter/. Étant donné que nous écrivons sur des sujets SEO et que nous avons une newsletter, ces URL correspondent au modèle typique des pages du blog Ahrefs, mais elles n’existent pas.

Liste des URL 404 sur le blog Ahrefs montrant des exemples d'hallucinations de liens par l'IA

Certains de ces liens hallucinés peuvent également être présents dans notre base de données. Si du contenu généré par l’IA et publié contient une URL hallucinée, notre crawler tentera de l’atteindre. Avec 74 % des nouvelles pages web contenant une part de contenu généré par IA, cela semble très plausible.

Si vous souhaitez mesurer l’impact des URL hallucinées, la meilleure source de données à votre disposition est votre propre outil d’analyse. Vous avez deux solutions :
1. Passez par Ahrefs MCP et demander un rapport 

2. Trouver les URls hallucinées via la plateforme Ahrefs : 

1. Filtrez vos analyses pour afficher le trafic IA

Commencez par filtrer vos données pour montrer les visites reçues depuis les assistants IA. Si vous utilisez GA4, vous devrez appliquer une expression régulière (Regex) à la dimension “Source de la session” dans un rapport d’exploration.

Thierry Ngutegure de SALT.agency recommande la regex suivante (à mettre à jour lorsque de nouveaux assistants apparaissent ou changent leurs informations de référent) :

.*gpt.*|.*chatgpt.*|.*openai.*|.*writesonic.*|.*nimble.*|.*perplexity.*|.*claude.*|.*gemini.*google.*|.*copilot.*microsoft*|.*outrider.*|.*google.*bard.*|.*bard.*google.*|.*bard.*|.*deepseek.*|.*mistral.*|.*edgeservices.*|.*neeva.*

Si vous utilisez Ahrefs Web Analytics, utilisez simplement le filtre de canal intégré “Recherche AI” :

Interface de Ahrefs Web Analytics montrant le filtre de canal 'AI Search'

Sélectionnez la période qui vous intéresse et exportez vos données vers Google Sheets.

2. Générez un Apps Script pour vérifier le statut HTTP

Ensuite, demandez à ChatGPT (ou votre assistant préféré) de générer un Apps Script pour retourner le statut HTTP des URL dans une feuille Google Sheet. Dans votre feuille, allez dans Extensions > Apps Script, collez et sauvegardez votre script.

Capture d'écran de l'interface Google Apps Script pour ajouter le code de vérification HTTP

Créez une nouvelle colonne dans votre Google Sheet, appelez votre script en ciblant la cellule contenant votre URL (ex : =GetHttpStatus(A2)), et appliquez la formule à toute la colonne.

(Cela peut prendre du temps si vous avez des milliers d’URL — pour les gros sites, il vaut mieux utiliser un crawler).

3. Filtrez pour le statut 404 et >10 visiteurs

Ensuite, filtrez votre feuille pour n’afficher que les URL renvoyant un code 404 et recevant des visiteurs.

J’ai fixé le seuil aux URL recevant plus de 10 visiteurs par mois, mais vous pouvez utiliser le seuil qui fait sens pour votre site.

Feuille Google Sheets filtrée montrant les URL avec un statut 404 et plus de 10 visiteurs

Vous pouvez inspecter manuellement certaines de ces URL pour confirmer qu’il s’agit bien d’hallucinations (et non de vraies pages indisponibles pour une autre raison).

4. Faites une redirection 301 (si c’est pertinent)

Si vous avez des pages hallucinées recevant un nombre important de visites, cela peut valoir le coup de mettre en place une redirection 301 de l’URL hallucinée vers une page pertinente de votre site (si vous en avez une).

Vous devrez deviner quel était le sujet de la page hallucinée, mais souvent, l’URL seule suffit pour faire une estimation éclairée (les visiteurs de l’URL hallucinée /blog/keywords/ bénéficieront probablement de notre vrai guide sur la recherche de mots-clés).

Sinon, si vous ne voulez pas créer une toile d’araignée de redirections 301, vous pouvez mettre à jour votre page 404 pour inclure une liste de ressources utiles que les visiteurs déçus par les LLM pourraient trouver pertinentes (comme votre contenu le plus populaire ou votre page d’inscription à la newsletter).

À notre dernière mesure, les assistants IA (principalement ChatGPT) représentaient 0,25 % du trafic total d’un site web, contre 39,35 % pour Google. Avec 1,01 % du trafic référé par ChatGPT menant à une page 404, les URL hallucinées impactent un petit pourcentage d’un pourcentage déjà faible du trafic moyen d’un site.

C’est un exercice utile pour comprendre une autre bizarrerie de la recherche IA, mais cela ne représente pas un levier de croissance énorme. Cependant, si vous pouvez minimiser l’impact des URL hallucinées avec très peu d’efforts, cela en vaut probablement la peine.

Pour cette raison, nous sommes sur le point d’ajouter un nouveau filtre à Web Analytics qui vous aidera à trouver les URL hallucinées en deux clics seulement. Si vous cherchez une alternative simple à Google Analytics, gratuite jusqu’à 1 million d’événements par mois, jetez-y un œil :

Aperçu de l'outil Ahrefs Web Analytics et de son interface simplifiée

Des questions ou des commentaires sur cette recherche ? Faites-le-moi savoir sur LinkedIn.