Estas webs pueden ser pozos llenos de errores técnicos, enterrados tras varias generaciones de agencias que pasaban por ahí, que ralentizan y dificultan el progreso de los esfuerzos en SEO.
Y cuando eres el encargado de limpiarlo, encontrar soluciones rápidas es tu tarea principal.
Así que puedes empezar con una auditoría básica del sitio y encontrar varias páginas huérfanas. Probablemente has oído que las páginas huérfanas son malas para una web, pero no entiendes completamente lo que son ni cómo arreglarlas.
En este artículo vas a aprender:
- Qué son las páginas huérfanas
- Cuál es la causa de las páginas huérfanas
- Por qué las páginas huérfanas son malas para el SEO
- Cómo encontrar páginas huérfanas
- Cómo arreglar las páginas huérfanas
- Cómo prevenir las páginas huérfanas
Las páginas huérfanas son páginas que los motores de búsqueda tienen problemas para descubrir porque no tienen enlaces internos desde otra parte de tu sitio web.
Estas URLs suelen caer en el olvido porque los rastreadores o arañas de los motores de búsqueda solo pueden descubrir páginas a partir del archivo del sitemap o enlaces externos, y los usuarios solo pueden llegar a la página si conocen la URL.
Normalmente, las páginas huérfanas son algo accidental que ocurre por distintas razones. La causa más habitual es no tener procesos para la migración web, cambios en la navegación, rediseños, productos fuera de stock, pruebas o páginas de desarrollo.
Las páginas huérfanas también pueden ser intencionadas, como pasa con las páginas de publicidad de pago y las landing pages, o en cualquier caso en el que no quieres que la página sea parte del viaje del usuario.
Los motores de búsqueda tienen dificultades al encontrar las páginas huérfanas porque usan los enlaces como ayuda para descubrir contenido nuevo y entender el significado de la página.
Aquí tienes lo que dice Google:
La Búsqueda de Google es un buscador completamente automatizado que utiliza programas de software denominados “rastreadores web” para explorar la Web periódicamente en busca de páginas que pueda añadir a su índice. De hecho, la mayoría de las páginas que se muestran en los resultados de la Búsqueda no se envían manualmente, sino que se encuentran y se añaden automáticamente cuando nuestros rastreadores web exploran la Web.
Por ejemplo, pongamos que has publicado una nueva página y has olvidado enlazarla desde otra parte de tu web. Si la página no está en tu sitemap y no tiene backlinks, Google no la encontrará ni la indexará. Eso es porque su rastreador web no sabe que existe.
Peor todavía, la página no puede recibir PageRank.
Si no has oído antes el término “PageRank”, es algo muy importante.
En general, PageRank es la forma que tiene Google de comprender la importancia de la página contando el número de “votos” que recibe una página. Puedes leer más sobre cómo funciona PageRank y cómo afecta al SEO aquí.
Para encontrar páginas huérfanas en tu sitio necesitas comparar una lista de URLs rastreables (lo que Google puede encontrar) con una lista de URLs que las personas están visitando en tu sitio.
Esto puede que suene bastante técnico, pero no te desanimes. Hemos dividido cómo encontrar páginas huérfanas en tres sencillos pasos usando herramientas que ya conoces.
1. Encuentra URLs rastreables
Hay muchas herramientas que puedes usar para conseguir una lista de las URLs rastreables. Vamos a usar Site Audit de Ahrefs porque es completamente gratis con una cuenta de Ahrefs Webmaster Tools y tienes la opción de usar enlaces externos como fuente para encontrar más URLs.
Aquí tienes cómo hacerlo:
- Ve a Site Audit.
- Haz clic en + New Project (nuevo proyecto).
- Sigue las instrucciones hasta el paso 3. Haz clic en la pestaña Fuentes de URL y marca Enlaces como fuente de URLs, además de las que ya están seleccionadas por defecto.
- Haz clic en Continuar, sigue las instrucciones para completar la configuración, después ejecuta el rastreo.
Los datos de enlaces son útiles para encontrar páginas huérfanas porque incluyen URLs del índice de enlaces de Ahrefs.
Si una página no tiene ningún enlace interno, un rastreador básico no la puede encontrar.
Pero si una página tiene un backlink, Ahrefs encontrará la URL en tu sitio y sabrá que con el rastreo no encontró enlaces internos, por lo que tiene que ser una página huérfana.
Cuando la auditoría del sitio está terminada, exporta todas las páginas internas desde Page Explorer (explorador de páginas) y guárdalas. Las usarás en el paso 3.
Como Site Audit usa sitemaps y enlaces como fuente de URLs, hace un buen trabajo encontrando páginas huérfanas sin trabajo extra. Para verlas, ve a Page Explorer, haz clic en Enlaces, y elige Orphan pages (páginas huérfanas):
Sin embargo, aquí solo verás páginas huérfanas que se hayan encontrado a partir de enlaces o sitemaps. Si tienes páginas huérfanas que no estén incluidas en sitemaps y sin enlaces, Ahrefs no será capaz de encontrarlas.
Sigue leyendo si crees que este puede ser tu caso y quieres profundizar un poco más en busca de páginas huérfanas.
2. Encuentra URLs con visitas
El siguiente paso es conseguir una lista de todas las URLs con visitas en tu web.
Hay algunas formas de hacer esto y lo mejor siempre es usar tantas fuentes de datos como tengas disponibles.
Si tienes acceso, los archivos de logs funcionan bien porque son datos del lado del servidor, lo que los hace más precisos. No vamos a entrar en los detalles de cómo acceder a estos datos, porque depende de cómo esté configurado tu servidor.
Pero si eliges esta opción, aquí tienes las tres guías oficiales para los tipos de servidor más habituales:
- Acceder a los logs en Apache (Linux)
- Acceder a los logs en NGINX (Linux)
- Acceder a los logs en IIS (Windows)
En este artículo, usaremos Google Analytics (GA4) y Google Search Console porque el proceso es más o menos el mismo para todo el mundo.
Así puedes encontrar URLs con visitas en Google Analytics (GA4):
- Entra en tu cuenta de Data Studio.
- Crea un nuevo informe vacío.
- Conecta Google Analytics como tu fuente de datos.
- Elige la cuenta que estás analizando > elige la propiedad de GA4.
- Añade una tabla básica a tu informe.
- Establece la fuente de datos como la propiedad de GA4 que creaste en el paso 4.
- Establece la dimensión en Ruta de página.
- Establece la métrica en Vistas.
- Ordena por Vistas en orden descendente.
- Establece el rango de fechas por defecto a antes de que GA4 fuera instalado en el sitio.
Para exportar los resultados de tu tabla, haz clic en tres puntos verticales en la esquina superior derecha de la misma, pulsa en Exportar y elige “Hojas de cálculo de Google”. Puedes poner un nombre fácil de recordar como “fecha_GA_URLs_que_visitan_usuarios_nombre_marca”, porque lo usaremos en breve.
Como hemos exportado la ruta de página y no la URL completa, tenemos que añadir el dominio al principio de todas las celdas de nuestra hoja de cálculo de Google, algo bastante fácil de hacer. Inserta una columna a la izquierda y pega esta fórmula en la celda A1 (asegúrate de reemplazar ejemplo.com con tu dominio):
=IFERROR(ARRAYFORMULA(IF(ISBLANK(B:B),"",IF(B:B="Page Path","",IF(B:B="(not set)","","https://example.com" & B:B)))))
Ya que contar con varias fuentes de URLs es siempre mejor, también vamos a recoger datos de Google Search Console (GSC).
GSC limita las exportaciones a las primeras 1.000 URLs, pero Google Data Studio tiene un truquillo que te permite recoger más.
Aquí te cuento cómo se hace:
- Reabre tu informe de Data Studio.
- Crea una nueva página (comando + M).
- Abre Recurso > Gestionar las fuentes añadidas.
- Haz clic en AÑADIR UNA FUENTE DE DATOS.
- Elige Search Console.
- Elige el sitio que estás analizando > Impresión de la URL > web.
- Añade una tabla básica a tu informe.
- Establece la dimensión en Landing page (página landing).
- Establece la métrica en Impressions (impresiones).
- Aumenta las filas por página a 5.000.
- Edita el rango de fechas para ver al menos los últimos tres meses.
- Exporta los resultados de tu tabla.
Pon un nombre a tu hoja de cálculo con algo identificable como “fecha GSC_URLs_visitas_recibidas_nombre_marca” porque lo vas a necesitar de nuevo en breve.
Ahora, combina todas las URLs que está visitando la gente desde distintas fuentes en una hoja de cálculo y limpia los datos eliminando duplicados.
3. Haz referencias cruzadas entre las dos fuentes de URL
¡Estás en la recta final! El último paso es hacer una referencia cruzada entre las URLs rastreables (a partir de Site Audit de Ahrefs) y las URLs con visitas (provenientes de GA y GSC). Para hacer esto, crea una hoja en blanco en Google Sheets y crea tres pestañas. Nómbralas como rastreo, vistas y referencia cruzada.
En la primera hoja, rastreo, y pega todas las URLs rastreables de Site Audit de Ahrefs.
Para encontrarlas, abre el CSV que exportaste en el paso 1 y filtra por resultados con incomingAllLinks igual a cero. Esto es muy importante porque son páginas huérfanas, así que incluirlas en la pestaña de “rastreo” nos llevará a resultados erróneos al hacer la referencia cruzada.
En su lugar, deberías copiar estas URLs y añadirlas a la pestaña de “vistas”.
Después, copia y pega las URLs restantes de la exportación de Ahrefs en la pestaña de rastreo de tu hoja de cálculo de Google.
En la segunda hoja, vistas, copia y pega todas las URLs del paso 2. Estas son las páginas que encontraste usando Google Analytics, Google Search Console o tus logs. Incluye las páginas web que tus usuarios han visitado.
En la tercera hoja, referencia cruzada, introduce esta función en la primera celda:
=UNIQUE(FILTER(vistas!A:A, ISNA(MATCH (vistas!A:A, rastreo!A:A, 0))))
Pulsa intro. La función retirará automáticamente todas las páginas huérfanas para un análisis fácil.
Es habitual que los profesionales del marketing cometan el error de simplemente añadir enlaces internos a todas las páginas huérfanas.
Lo malo de este enfoque es que por el simple hecho de que se pueda aplicar una solución rápida a todas las páginas, no significa que debamos hacerlo.
Algunas páginas huérfanas son intencionadas, como las páginas landing que se usan en campañas PPC, mientras que otras se pueden eliminar, como las páginas de prueba.
No queremos desperdiciar recursos arreglando lo que no está estropeado o que es improbable que tenga un impacto positivo.
Para ayudar a resolver este problema, usa este árbol de decisión:
La idea es usar el pensamiento crítico en cada página huérfana para decidir la mejor solución, ya sea no indexarla, borrarla, fusionarla con otra o simplemente añadir un enlace interno.
Por ejemplo, si una página se perdió durante la migración de un sitio y esa página no aporta valor a los usuarios, borrarla probablemente sea la mejor opción. Sin embargo, si la página tiene enlaces, puede que merezca la pena redirigir la URL a otra página relevante para mantener el valor del enlace.
Revisar páginas huérfanas con enlaces en lote (hasta 200 URLs cada vez) es fácil con la herramienta de análisis por lotes de Ahrefs. Simplemente pega URLs de tu hoja de referencia cruzada y haz clic en Análisis.
Vamos a ver las cuatro estrategias para resolver el problema de las páginas huérfanas.
Enlazado interno
Las páginas huérfanas que son de valor para los usuarios deberían incorporarse a la estructura de enlazado interno de tu sitio para asegurarte de que son fáciles de encontrar tanto por los usuarios como por los motores de búsqueda.
Por ejemplo, pongamos que un artículo se quedó olvidado durante una migración de sitio o un rediseño. Necesitamos enlazarlo internamente desde una página relevante que sepamos que Google va a (volver a) rastrear pronto.
Aquí tienes una forma fácil de hacerlo en Ahrefs:
- Ve a Site Audit
- Abre el rastreo más reciente de tu web
- En Tools (herramientas) > abre Page Explorer (explorador de páginas)
- Busca una palabra o frase en el Page text (texto de la página)
- Ordena los resultados por tráfico por Organic traffic (tráfico orgánico)
Esto encuentra oportunidades de enlazado interno contextuales en páginas que reciben tráfico orgánico, lo que significa que es probable que Google las vuelva a rastrear más pronto que tarde y vea nuestros cambios.
Aprende más: Cómo usar Page Explorer
Noindex
Las páginas huérfanas que de forma intencionada no estaban enlazadas, como páginas landing que se usan en anuncios, deberían cambiarse a noindex para evitar que aparezcan en resultados de búsqueda orgánicos.
La mayor parte de plugins de SEO facilitan esto con algo tan fácil como marcar una casilla, pero puedes hacerlo manualmente copiando y pegando esto en la sección <head> de la página:
<meta name="robots" content="noindex" />
Fusionar/consolidar
Las páginas huérfanas con contenido parecido o idéntico al de otra página deberían fusionarse. Esto implica consolidar el contenido y redirigir la URL de la página huérfana a la otra página.
Por ejemplo, pongamos que tienes dos fichas de producto para el mismo producto. Una de ellas es una página huérfana; la otra, no lo es. Deberías recopilar toda información de valor que solo esté en la página huérfana y añadirla a la otra página antes de redirigirla al nuevo destino.
Eliminar
Las páginas huérfanas que no ofrecen valor a los usuarios y que no tienen otra utilidad (como, por ejemplo, campañas de tráfico pagado) deberían borrarse.
Por ejemplo, una plantilla del tema del CMS que no se usa se puede borrar. Esto generará una página de error 404 y desaparecerá de los resultados de búsqueda de forma natural con el tiempo.
Como puedes ver, auditar las páginas huérfanas lleva tiempo. Así que una vez que te has puesto, quieres evitar que vuelvan a aparecer en el futuro. Aquí van unas pocas políticas y procedimientos que puedes tener en cuenta.
Ten un plan para las migraciones del sitio
Sé proactivo contando con un plan cada vez que hagas una migración web. Puedes evitar los enlaces rotos y las confusiones en tu sitio web redirigiendo las páginas antiguas a nuevas versiones con una redirección 301.
Establece adecuadamente la estructura de tu sitio
Si tienes que añadir manualmente los enlaces internos a nuevas páginas, es fácil que te dejes alguno y termines con páginas huérfanas. Por eso deberías elegir una estructura de sitio que gestione el enlazado interno por ti.
La mayoría de los CMS hacen esto por defecto. Por ejemplo, cada vez que publicamos un post en el blog, WordPress añade un enlace interno desde la página principal de nuestro blog y desde el archivo.
Sin embargo, si usas una solución personalizada, necesitas asegurarte de que el código necesario para generar una buena estructura de sitio está en su sitio.
Aprende más: Arquitectura Web: cómo construir tus bases SEO
Borra los productos descatalogados adecuadamente
Si tienes un ecommerce, deberías eliminar los productos descatalogados junto a todos los enlaces internos que apuntan a ellos, y establecer un código de estado de 404 o 410. No eliminar esos enlaces internos hacia productos descatalogados es una causa habitual de páginas huérfanas.
Si la página tiene muy buenos enlaces y existe una versión mejorada o actualizada del producto, puede que prefieras mantener la página para mantener el valor de los backlinks.
Para hacerlo, actualiza el contenido de la página para explicar por qué el producto está ya no disponible, incluyendo la introducción de nuevas funcionalidades y enlazando a la nueva página de producto.
De esta forma el usuario no llega a una página sin ninguna relación ni recibe un 404.
Haz auditorías de sitio con frecuencia
Al hacer auditorías de sitio cada mes, permaneces al tanto de cualquier página huérfana que se cuele por accidente. Puedes hacer esto fácilmente con la función de programación de Site Audit de Ahrefs.
Reflexiones finales
Revisar filas y filas de errores de páginas huérfanas e intentar entender lenguaje técnico complejo intimida.
Aunque encontrar y solucionar páginas huérfanas lleva tiempo, no tiene que ser algo complicado. Usar Site Audit de Ahrefs y el gráfico de páginas te ayudará a agilizar el proceso.
¿Alguna pregunta? Escríbenos por Twitter.