Cómo eliminar unas URLs de la búsqueda de Google (5 métodos)

Cómo eliminar unas URLs de la búsqueda de Google (5 métodos)

Avatar
Jefe de Contenido de Ahrefs (o también se puede decir que soy el responsable de asegurar que cada entrada del blog que publiquemos sea ÉPICO).
Hay muchas formas de eliminar las URL de Google, pero no existe un enfoque único para todos. Todo depende de tus circunstancias.

Ese es un punto importante de entender. El uso del método incorrecto no solo ocasionará que las páginas no se eliminen del índice según lo previsto, sino que también puede tener un efecto negativo en el SEO.

Para ayudarte a decidir rápidamente qué método de eliminación es más conveniente, creamos una guía gráfica para que puedas ir a la sección correspondiente del artículo.

Guía gráfica para ayudarle a decidir cómo eliminar sus páginas de Google.

En esta publicación, aprenderás:

Lo que generalmente veo que hacen los SEO para verificar si el contenido está indexado es usar un “sitio:” para buscar en Google (por ejemplo, sitio: https: //ahrefs.com). Si bien el “sitio:”  en las búsquedas pueden ser útil para identificar las páginas o secciones de un sitio web que pueden ser problemáticas si se muestran en los resultados de búsqueda, debes tener cuidado porque no son consultas normales y en realidad no te dirán si una página está indexada. Pueden mostrarse páginas conocidas por Google, pero eso no significa que sean elegibles para mostrarse en los resultados de búsqueda normales sin el operador sitio:.

Por ejemplo, aún pueden mostrar páginas que redirigen o se canonizan a otra página. Cuando solicita un sitio específico, Google puede mostrar una página de ese dominio con el contenido, el título y la descripción de otro dominio. Tomemos por ejemplo moz.com que solía ser seomoz.org. Cualquier consulta regular de usuarios que conduzca a páginas en moz.com mostrará moz.com en los SERPs, mientras que el sitio: seomoz.org mostrará seomoz.org en los resultados de búsqueda como se muestra a continuación.

seomoz site search serp

La razón por la que se trata de una distinción importante es que puede llevar a los SEO a cometer errores como bloquear o eliminar activamente las URLs del índice para el dominio anterior, lo que impide la consolidación de señales como PageRank. He visto muchos casos con migraciones de dominios en los que las personas piensan que cometieron un error durante la migración porque estas páginas aún se muestran para el sitio: old-domain.com busca y termina perjudicando activamente su sitio web al intentar “solucionar” el problema.

El mejor método para verificar la indexación es usar el informe de cobertura de índice en Google Search Console o la herramienta de inspección de URL para una URL individual. Estas herramientas te indican si una página está indexada y proporcionan información adicional sobre cómo Google trata la página. Si no tienes acceso a esto, simplemente busca en Google la URL completa de tu página.

url inspection tool

Captura de pantalla de la herramienta de inspección de URL en Google Search Console.

En Ahrefs, si encuentras la página en nuestro informe o clasificación de “Páginas principales” para palabras clave orgánicas, generalmente significa que la vimos clasificada para consultas de búsqueda normales y es una buena indicación de que la página se indexó. Ten en cuenta que las páginas se indexaron cuando las vimos, pero eso puede haber cambiado. Verifica la fecha en que vimos la página por última vez para una consulta.

keyword update top pages

Si hay un problema con una URL en particular y necesita eliminarse del índice, sigue la guía gráfica al comienzo del artículo para encontrar la opción de eliminación correcta, luego vé a la sección correspondiente.

Si eliminas la página y muestra un código de estado 404 (no encontrado) o 410 (desaparecido), la página se eliminará del índice poco después de que se vuelva a rastrear. Hasta que se elimine, la página aún puede aparecer en los resultados de búsqueda. E incluso si la página en sí ya no está disponible, una versión en caché de la página puede estar disponible temporalmente.

Casos en los que se necesita una opción diferente:

  • Necesito una eliminación más inmediata. Consulta la sección de la herramienta de eliminación de URL.
  • Necesito consolidar señales como enlaces. Ve a la sección de canonicalización.
  • Necesito la página disponible para los usuarios. Mira  si las secciones noindex o de acceso restringido se ajustan a su situación.

Opción de eliminación 2: Noindex

Una etiqueta de meta robots noindex o una respuesta de encabezado x-robots le indicará a los motores de búsqueda que eliminen una página del índice. La etiqueta meta robots funciona para páginas donde la respuesta de x-robots funciona para páginas y tipos de archivos adicionales como archivos PDF. Para que se vean estas etiquetas, un motor de búsqueda debe poder rastrear las páginas, así que asegúrate de que no estén bloqueadas en robots.txt. Además, ten en cuenta que eliminar páginas del índice puede evitar la consolidación de enlaces y otras señales.

Ejemplo de una meta robots noindex:

<meta name="robots" content="noindex">

Ejemplo de etiqueta noindex de x-robots en la respuesta del encabezado:

HTTP/1.1 200 OK
X-Robots-Tag: noindex

Casos en los que necesitas una opción diferente:

  • No quiero que los usuarios accedan a estas páginas. Ve a la sección de restricción de acceso.
  • Necesito consolidar señales como enlaces. Ve a la sección de canonicalización.

Opción de eliminación 3: restricción de acceso

Si deseas que la página sea accesible para algunos usuarios pero no para los motores de búsqueda, entonces lo que probablemente quieres es una de estas tres opciones:

  1. algún tipo de sistema de inicio de sesión;
  2. Autenticación HTTP (donde se requiere una contraseña para acceder);
  3. Lista blanca de IP (que solo permite que direcciones IP específicas accedan a las páginas)

Este tipo de configuración es mejor para cosas como redes internas, contenido solo para miembros o sitios de preparación, prueba o desarrollo. Permite que un grupo de usuarios acceda a la página, pero los motores de búsqueda no podrán acceder a ellos y no indexarán las páginas.

Casos en los que necesitas una opción diferente:

  • Necesito una eliminación más inmediata. Consulta la sección de la herramienta de eliminación de URL. En este caso particular, es posible que desees una eliminación más inmediata si el contenido que estas tratando de ocultar se ha almacenado en caché, y debe evitar que los usuarios vean ese contenido.

Opción de eliminación 4: Herramienta de eliminación de URL

El nombre de esta herramienta de Google es ligeramente engañoso, ya que la forma en que funciona es que ocultará temporalmente el contenido. Google seguirá viendo y rastreando este contenido, pero las páginas no aparecerán para los usuarios. Este efecto temporal dura seis meses en Google, mientras que Bing tiene una herramienta similar que dura tres meses. Estas herramientas deben usarse en los casos más extremos para cosas como problemas de seguridad, fugas de datos, información de identificación personal (PII), etc. Para Google, usa la Herramienta de eliminación y para Bing, vea cómo bloquear las URL.

Todavía necesitas aplicar otro método junto con el uso de la herramienta de eliminación para que las páginas se eliminen durante un período más largo (sin índice o eliminar) o evitar que los usuarios accedan al contenido si todavía tienen los enlaces (eliminar o restringir el acceso). Esto solo te brinda una forma más rápida de ocultar las páginas, mientras que la eliminación tiene tiempo para procesarse. La solicitud puede demorar hasta un día en procesarse.

Opción de eliminación 5: Canonicalización

Cuando tienes varias versiones de una página y deseas consolidar señales como enlaces a una sola versión, lo que tienes quehacer es alguna forma de canonicalización. Esto es principalmente para evitar contenido duplicado mientras se consolidan varias versiones de una página en una sola URL indexada.

Tienes varias opciones de canonicalización:

  • Etiqueta canónica. Esto especifica otra URL como la versión canónica o la versión que deseas que se muestre. Si las páginas están duplicadas o son muy similares, esto debería estar bien. Cuando las páginas son demasiado diferentes, el canónico puede ignorarse ya que es una pista y no una directiva
  • Redirecciones. Una redirección lleva a un usuario y un robot de búsqueda de una página a otra. 301 es la redirección más utilizada por los SEO, y le dice a los motores de búsqueda que desea que la URL final sea la que se muestra en los resultados de búsqueda y dónde se consolidan las señales. Una redirección 302 o temporal indica a los motores de búsqueda que desea que la URL original sea la que permanezca en el índice y consolide las señales allí.
  • Manejo de parámetros de URL. Se agrega un parámetro al final de la URL y generalmente incluye un signo de interrogación, como ahrefs.com?this=parameter. Esta herramienta de Google le permite decirles cómo tratar las URL con parámetros específicos. Por ejemplo, puede especificar si el parámetro cambia el contenido de la página o si solo está destinado a rastrear el uso.

Si tienes varias páginas que eliminar del índice de Google, entonces debes priorizarlas consecuentemente.

Máxima prioridad: estas páginas suelen estar relacionadas con la seguridad o con datos confidenciales. Esto incluye contenido que contiene datos personales (PII), datos de clientes o información patentada.

Prioridad media: esto generalmente implica contenido destinado a un grupo específico de usuarios. Intranet de la empresa o portales de empleados, contenido destinado solo a miembros y entornos de preparación, prueba o desarrollo.

Prioridad baja: estas páginas suelen incluir contenido duplicado de algún tipo. Algunos ejemplos de esto incluirían páginas servidas desde múltiples URL, URL con parámetros, y nuevamente podrían incluir entornos de preparación, prueba o desarrollo.

Quiero cubrir algunas de las formas en que generalmente veo las eliminaciones realizadas incorrectamente y lo que sucede en cada escenario para ayudar a las personas a entender por qué no funcionan.

Noindex en robots.txt

Si bien Google solía soportar no oficialmente noindex en robots.txt, nunca fue un estándar oficial y ahora han eliminado formalmente el soporte. Muchos de los sitios que estaban haciendo esto lo estaban haciendo incorrectamente y se dañaban a sí mismos.

Bloqueo del rastreo en robots.txt

El rastreo no es lo mismo que la indexación. Incluso si Google no puede rastrear páginas, si hay enlaces internos o externos a una página, aún pueden indexarla. Google no sabrá qué hay en la página porque no lo rastreará, pero sabe que existe una página e incluso escribirá un título para mostrar en los resultados de búsqueda en función de señales como el texto de anclaje de los enlaces a la página.

Nofollow

Esto comúnmente se confunde con noindex, y algunas personas lo usarán a nivel de página esperando que la página no se indexe. Nofollow es una pista, y aunque originalmente detuvo los enlaces en la página y los enlaces individuales con el atributo nofollow de ser rastreados, ese ya no es el caso. Google ahora puede rastrear estos enlaces si así lo desea. Nofollow también se usó en enlaces individuales para tratar de evitar que Google rastree páginas específicas y para esculpir PageRank. De nuevo, esto ya no funciona ya que nofollow es una pista. En el pasado, si la página tenía otro enlace, Google aún podía descubrirlo a través de esta ruta de rastreo alternativa.

Tenga en cuenta que puede encontrar páginas no seguidas a granel utilizando este filtro en el Explorador de páginas en la Auditoría del sitio de Ahrefs.

nofollow site audit

Como rara vez tiene sentido no seguir todos los enlaces en una página, el número de resultados debe ser cero o cercano a cero. Si hay resultados coincidentes, te recomiendo que compruebes si la directiva nofollow se agregó accidentalmente en lugar de noindex y que elijas un método de eliminación más apropiado si es necesario.

También puedes encontrar enlaces individuales marcados con nofollow usando este filtro en el Explorador de enlaces.

nofollow internal links

Noindex y canónico a otra URL

Estas señales son contradictorias. Noindex dice que elimine la página del índice, y canonical dice que otra página es la versión que debe indexarse. En realidad, esto puede funcionar para la consolidación, ya que Google generalmente elegirá ignorar el noindex y, en su lugar, usará el canónico como la señal principal. Sin embargo, este no es un comportamiento absoluto. Hay un algoritmo involucrado y existe el riesgo de que la etiqueta noindex sea la señal contada. Si ese es el caso, las páginas no se consolidarán correctamente.

Ten en cuenta que puedes encontrar páginas no indexadas con canónicos no autorreferenciales utilizando este conjunto de filtros en el Explorador de páginas en Auditoría del sitio:

noindex non self canonical site audit

Noindex, espera a que Google rastree, luego bloquea el rastreo

Hay un par de formas en que esto suele suceder:

  1. Las páginas ya están bloqueadas pero están indexadas, las personas agregan noindex y desbloquean para que Google pueda rastrear y ver el noindex, y luego bloquear las páginas para que no vuelvan a rastrearse.
  2. Las personas agregan etiquetas noindex a las páginas que desean eliminar y después de que Google haya rastreado y procesado la etiqueta noindex, bloquean el rastreo de las páginas.

De cualquier manera, el estado final está bloqueado para que no se rastree. Si recuerdas, anteriormente, hablamos sobre cómo rastrear no es lo mismo que indexar. Aunque estas páginas están bloqueadas, aún pueden terminar en el índice.

Si posees el contenido que se estás utilizando en otro sitio web, es posible que puedas presentar una reclamación basada en la Digital Millennium Copyright Act (DMCA). Puedes usar la herramienta de eliminación de derechos de autor de Google para hacer lo que se denomina eliminación de DMCA, que solicita la eliminación de cualquier material con derechos de autor.

¿Qué sucede si se trata de contenido sobre ti pero en un sitio que no es de tu propiedad?

Si te encuentras en la UE, puede eliminar contenido que contenga información sobre ti gracias a una orden judicial para el derecho a ser olvidado. Puedes solicitar que se elimine la información personal mediante el formulario de eliminación de privacidad de la UE.

Para eliminar imágenes de Google, la forma más fácil es con robots.txt. Si bien el soporte no oficial para eliminar páginas se eliminó de robots.txt como mencionamos anteriormente, simplemente no permitir el rastreo de imágenes es la forma correcta de eliminar imágenes.

Para una sola imagen:

User-agent: Googlebot-Image
Disallow: /images/dogs.jpg

Para todas las imágenes:

User-agent: Googlebot-Image
Disallow: /

Conclusión

La forma de eliminar las URL es bastante situacional. Hemos hablado sobre varias opciones, pero si todavía estás confundido sobre cuál es el adecuado parat i, consulta la guía gráfica del comienzo.

También puedes pasar por el solucionador de problemas legales provisto por Google para la eliminación de contenido.

¿Tienes preguntas? Avísame en Twitter