¿Con qué frecuencia alucinan enlaces los asistentes de IA? (16 millones de URLs analizadas)

Ryan Law
Ryan is the Director of Content Marketing at Ahrefs. He helps the team with spicy opinions, deep research, and wild experiments.
Los asistentes de IA como ChatGPT y Claude pueden alucinar URLs y dirigir a los visitantes a páginas que no existen en tu sitio web. Pero, ¿con qué frecuencia ocurre?

Para averiguarlo, analizamos el estado HTTP de 16 millones de URLs únicas citadas por ChatGPT, Perplexity, Copilot, Gemini, Claude y Mistral.

Gráfico que muestra que los asistentes de IA envían a los usuarios a páginas 404 con más frecuencia que la Búsqueda de Google.

Enlace de un asistente de IA a una URL de Ahrefs que no existe

Descubrimos que los asistentes de IA envían a los visitantes a páginas 404 2,87 veces más a menudo que la búsqueda de Google.

ChatGPT es el mayor infractor, con un 1,01 % de las URLs clicadas y un 2,38 % de todas las URLs citadas que devuelven un estado 404 (en comparación con las tasas de referencia de 404 del 0,15 % y 0,84 % respectivamente).

Esto es lo que encontramos:

Para la primera prueba, usamos datos anonimizados de nuestra herramienta de análisis gratuita, Web Analytics. Esto nos permitió ver las visitas reales a las URLs recomendadas por la IA en sitios web reales.

Esta es la metodología:

  • Usamos los datos de Web Analytics para encontrar todas las URLs con un asistente de IA (como ChatGPT o Perplexity) como referente.
  • Marcamos las URLs como una posible página 404 si el título de la página contenía “404” o la frase “not found”.
  • Para cada asistente de IA, comparamos el número de posibles páginas 404 con el número total de URLs referidas para encontrar su tasa de 404.

Gráfico de barras que compara la tasa de 404 de varios asistentes de IA, mostrando que ChatGPT tiene la tasa más alta.

ChatGPT tiene la tasa más alta de páginas 404, con un 1,01 % de todas las URLs citadas que contienen “404” o “not found” en el título de su página.

Le sigue Claude con un 0,58 % de las URLs, seguido de Copilot (0,34 %), Perplexity (0,31 %) y Gemini (0,21 %). Mistral tiene la tasa de 404 más baja (0,12 %), pero también envía la menor cantidad de tráfico de referencia, lo que la convierte en la muestra más pequeña de esta prueba.

ReferentePosibles páginas 404Total de URLs únicasTasa de error 404
ChatGPT8446583324361,01%
Perplexity352911330840,31%
Copilot14664313190,34%
Gemini7343512420,21%
Claude550952930,58%
Mistral867600,12%

Tasa base de error 404 de Google

Esta no es una prueba perfecta. Es posible que algunas páginas 404 no incluyan “404” o “not found” en el título de la página. Y no todos los enlaces alucinados por los asistentes de IA recibirán clics (y, por lo tanto, no aparecerán en los datos de Web Analytics), por lo que es probable que estemos informando por debajo del número total de URLs alucinadas.

Una parte de estas páginas 404 también pueden ser páginas 404 genuinas, y no URLs alucinadas. Podemos añadir contexto adicional a estos datos comparándolos con una “tasa base” de páginas 404. Para ello, analizamos la tasa de 404 de todas las URLs únicas con Google como referente (629 millones de URLs únicas). Esta tasa de 404 fue del 0,15 %.

Gráfico de barras que compara la tasa de 404 de los asistentes de IA con la tasa base de 404 de Google.

Con este contexto adicional, es obvio que las tasas de 404 de los asistentes de IA son significativamente más altas que la tasa de 404 “base” de Google. Parece probable que ChatGPT, Claude, Copilot, Perplexity y Gemini creen URLs alucinadas.

La tasa media de 404 en todos los asistentes de IA fue del 0,43 %. En comparación con la tasa de 404 de las URLs referidas por Google, los asistentes de IA envían a los visitantes a páginas 404 a una tasa 2,87 veces mayor que la Búsqueda de Google (0,43/0,15).

Gráfico que ilustra que los asistentes de IA envían a los visitantes a páginas 404 2,87 veces más que Google.

También realizamos una prueba similar utilizando Brand Radar de Ahrefs, nuestra enorme base de datos de búsqueda de millones de prompts y respuestas de asistentes de IA. Con estos datos, podemos ver todas las URLs citadas por los asistentes de IA, y no solo aquellas que recibieron un clic.

  • Encontramos todas las URLs citadas por ChatGPT, Perplexity, Copilot y Gemini en nuestras bases de datos de Brand Radar.
  • Para aquellas URLs también almacenadas en nuestra base de datos del rastreador (65 % del total de URLs), recuperamos el estado HTTP más reciente.
  • Para cada asistente de IA, calculamos la tasa de 404 de las URLs citadas en nuestra base de datos del rastreador.

Gráfico de barras que muestra la tasa de 404 de las URLs citadas por los asistentes de IA en Brand Radar.

La tasa de 404 de las URLs citadas (y no solo las URLs citadas y clicadas) es mucho más alta que en nuestra prueba anterior.

De nuevo, ChatGPT tiene la tasa más alta de páginas 404 (2,38 %), seguido de cerca por Perplexity (0,87 %) y Gemini (0,86 %). Copilot tiene la tasa de 404 más baja, con un 0,54 %.

Esta prueba también tiene limitaciones. Como antes, un número de estas páginas 404 devolverá un estado 404 por alguna razón que no sea una alucinación. También estamos subestimando el número total de URLs 404, porque solo podemos ver el estado HTTP de aquellas URLs que están en nuestra base de datos del rastreador (y esperaría que un porcentaje decente de las URLs alucinadas estuviera ausente de nuestra base de datos del rastreador, porque nunca han existido).

Como antes, queríamos comparar estas cifras con una tasa de 404 “de referencia”. Para ello, extrajimos todas las URLs únicas de las 20 primeras posiciones de 400.000 SERP.

El 67 % de estas URLs también estaban en nuestra base de datos del rastreador, lo que nos permitió determinar una tasa de 404 del 0,84 %. (O dicho de forma sencilla, el 0,84 % de las URLs en el top 20 de Google devuelven un estado 404).

Gráfico que compara la tasa de 404 de las URLs citadas por la IA con la tasa de 404 de las SERPs de Google.

Las tasas de 404 para Perplexity (0,87 %) y Gemini (0,86 %) están extremadamente cerca de la tasa de 404 de las SERP de Google (0,84 %).

Esto puede deberse a que Gemini y Perplexity utilizan el índice de la Búsqueda de Google para recuperar URLs: sus tasas de 404 reflejan la tasa de 404 de las URLs en la fuente subyacente, Google. Si es así, parece probable que tengan una tasa de alucinación más baja que ChatGPT.

Copilot utiliza el índice de búsqueda de Bing, por lo que es posible que la tasa de 404 de Copilot refleje la tasa de 404 de Bing.

Asistente de IAURLs únicas citadasURLs en la BD del rastreadorTasa de error 404
ChatGPT2,452,7761,524,2772,38%
Perplexity3,471,7542,450,0160,87%
Copilot1,485,3551,120,7800,54%
Gemini1,354,171641,6030,86%

Sospecho que hay dos causas principales de los enlaces alucinados.

Una parte de las URLs citadas solían ser válidas, pero ahora devuelven un estado 404. Los asistentes de IA utilizan una combinación de búsqueda web y su propio conocimiento interno. Es posible que algunas de las URLs que citan hayan existido en algún momento, pero desde entonces han sido eliminadas o movidas (sin redirigir la página original)—especialmente cuando se basan únicamente en el conocimiento interno.

(Esto también explica por qué un gran número de estas páginas 404 existen en nuestra base de datos del rastreador).

Otra parte de las URLs citadas son verdaderas alucinaciones, en el sentido de que se ajustan al patrón esperado de URLs para un sitio web determinado, pero en realidad no existen.

Para el blog de Ahrefs, las URLs alucinadas más visitadas son páginas como /blog/internal-links/ y /blog/newsletter/. Dado que escribimos sobre temas de SEO en nuestro blog y tenemos una newsletter, estas URLs se ajustan al patrón de las páginas típicas del blog de Ahrefs, pero en realidad no existen.

Captura de pantalla de Ahrefs Web Analytics que muestra las URLs 404 más visitadas, como /blog/internal-links/ y /blog/newsletter/.

Algunos de estos enlaces alucinados también pueden estar presentes en nuestra base de datos del rastreador. Si el contenido generado por IA publicado contiene una URL alucinada, nuestro rastreador intentará buscarla. Con el 74 % de las nuevas páginas web que contienen alguna cantidad de contenido generado por IA, esto parece muy posible.

Si quieres medir el impacto de las URLs alucinadas, la mejor fuente de datos a tu disposición son tus propias analíticas web. A continuación te explicamos cómo probarlo por ti mismo:

1. Filtra las analíticas de tu sitio web para mostrar el tráfico de IA

Empieza por filtrar las analíticas de tu sitio web para mostrar las visitas recibidas de los asistentes de IA. Si usas GA4, tendrás que aplicar una expresión regular a la dimensión “Fuente de la sesión” dentro de un informe de Exploración.

Thierry Ngutegure en SALT.agency recomienda la siguiente regex. Tendrás que actualizar la expresión cuando aparezcan nuevos asistentes de IA, o cuando cambien su información de referente:

.*gpt.*|.*chatgpt.*|.*openai.*|.*writesonic.*|.*nimble.*|.*perplexity.*|.*claude.*|.*gemini.*google.*|.*copilot.*microsoft*|.*outrider.*|.*google.*bard.*|.*bard.*google.*|.*bard.*|.*deepseek.*|.*mistral.*|.*edgeservices.*|.*neeva.*

Si usas Web Analytics de Ahrefs, solo tienes que usar el filtro de canal “Búsqueda de IA” incorporado:

Captura de pantalla que muestra cómo filtrar el tráfico por el canal "Búsqueda de IA" en Ahrefs Web Analytics.

Selecciona el periodo de tiempo que te interese y exporta tus datos a Google Sheets.

2. Genera un Apps Script para devolver el estado HTTP

A continuación, pide a ChatGPT (o a tu asistente de IA preferido) que genere un Apps Script para devolver el estado HTTP de las URLs en una hoja de Google Sheets. Luego, en tu hoja de Google Sheets, ve a Extensiones > Apps Script, y pega y guarda tu script.

Captura de pantalla que muestra el editor de Apps Script en Google Sheets con un script para obtener el estado HTTP de una URL.

Crea una nueva columna en tu hoja de Google Sheets, llama a tu script, apunta a la celda que contiene tu URL (p. ej., =GetHttpStatus(A2)) y aplícalo a toda la columna.

(Esto puede llevar un tiempo si tienes miles de URLs; para sitios web grandes, sería mejor usar un rastreador).

3. Filtra por estado 404 y >10 visitantes

A continuación, filtra tu hoja para mostrar solo las URLs que devuelven un código de estado 404 y que reciben visitantes.

Establecí el umbral en URLs que reciben más de 10 visitantes al mes, pero puedes usar el umbral que tenga sentido para tu sitio web.

Captura de pantalla de Ahrefs Web Analytics que muestra las URLs 404 más visitadas, como /blog/internal-links/ y /blog/newsletter/.

Puedes inspeccionar manualmente algunas de estas URLs para confirmar que son alucinadas (y no páginas reales del sitio web que no están disponibles por alguna otra razón).

4. Aplica una redirección 301 (si tiene sentido)

Si tienes páginas alucinadas que reciben un número considerable de visitas, podría valer la pena hacer una redirección 301 de la URL alucinada a una página relevante en tu sitio web (si tienes una).

Tendrás que adivinar de qué podría haber tratado la página alucinada, pero a menudo, la URL por sí sola será suficiente para hacer una suposición fundamentada (los visitantes de la URL alucinada /blog/keywords/ probablemente se beneficiarán de nuestra guía real sobre investigación de palabras clave).

O, si no quieres crear una telaraña de redirecciones 301, podrías actualizar tu página 404 para incluir una lista de recursos útiles que los visitantes decepcionados de los LLM podrían encontrar útiles (como tu contenido más popular o tu página de suscripción a la newsletter).

En nuestra última medición, los asistentes de IA (principalmente ChatGPT) representaron el 0,25 % del tráfico total de un sitio web, en comparación con el 39,35 % de Google. Con un 1,01 % del tráfico referido de ChatGPT que conduce a una página 404, las URLs alucinadas afectan a un pequeño porcentaje de un porcentaje ya pequeño del tráfico de un sitio web promedio.

Este es un ejercicio útil para entender otra idiosincrasia de la búsqueda con IA, pero no representa una gran palanca de crecimiento. Si puedes minimizar el impacto de las URLs alucinadas con muy poco esfuerzo, probablemente valga la pena.

Por esa razón, estamos a punto de añadir un nuevo filtro a Web Analytics de Ahrefs que te ayudará a encontrar URLs alucinadas en solo dos clics. Si estás buscando una alternativa sencilla a Google Analytics, gratuita hasta 1 millón de eventos cada mes, échale un vistazo:

Promoción de Ahrefs Web Analytics como una alternativa gratuita a Google Analytics.

¿Preguntas o comentarios sobre esta investigación? Estamos en LinkedIn y en X.