En Ahrefs, utilizamos dos rastreadores web principales, AhrefsBot y AhrefsSiteAudit, para respaldar nuestro conjunto de herramientas y servicios. El objetivo de nuestro rastreo es ayudar a los propietarios de sitios a mejorar su presencia en línea, al tiempo que minimizamos la carga en sus servidores y garantizamos un comportamiento de rastreo seguro y transparente.
Obeys robots.txt: Yes
Obeys crawl delay: Yes
Obeys robots.txt: Yes by default (website owners can request to disobey robots.txt on their sites)
Obeys crawl delay: Yes by default (website owners can request to disobey crawl delay on their sites)
Cloudflare, una empresa líder en seguridad y rendimiento web, reconoce a AhrefsBot y aAhrefsSiteAudit como bots "buenos" verificados.
Yep, un motor de búsqueda desarrollado por Ahrefs, es un participante oficial en el protocolo IndexNow, junto con otros motores de búsqueda importantes. Ayudamos a los propietarios de sitios web a notificarnos inmediatamente cuando el contenido se actualiza, lo que garantiza una indexación más oportuna y precisa.
Rastrearemos desde rangos de IP públicas. Puedes extraer nuestras direcciones IP como rangos de IP o IP individuales. Encontrarás más información sobre cómo incluir nuestras IP en la lista blanca en el artículo de ayuda.
El sufijo DNS inverso del nombre de host de las IP siempre es ahrefs.com o ahrefs.net.
Puedes verificar el estado de tu sitio web tal como lo ven nuestros bots y comprobar si pueden rastrearlo:
AhrefsBot indexa información precisa y actualizada sobre sitios web y sus contenidos, así como también indexa la forma en la que se enlazan entre sí. Estos datos son de gran utilidad y se pueden aprovechar de formas muy diversas:
Ambos bots respetan estrictamente el archivo robots.txt, tanto en las reglas de no permitir (disallow) como en las de permitir (allow), así como las directivas de retraso de rastreo. Solo los propietarios de sitios verificados pueden permitir que el rastreador AhrefsSiteAudit desobedezca al archivo robots.txt en su sitio para comprobar si existen problemas en las secciones del sitio donde normalmente no está permitido rastrear.
El retraso de rastreo se respeta estrictamente al solicitar páginas HTML para no sobrepasar los límites de velocidad establecidos. Sin embargo, no puede aplicarse al renderizar JavaScript. Cuando nuestros bots renderizan una página, podrían solicitar simultáneamente múltiples recursos (p. ej., imágenes, scripts, hojas de estilos), lo que puede generar más solicitudes en los registros del servidor de las permitidas por el retraso de rastreo. Este comportamiento simula la experiencia de un usuario real, ya que las páginas web modernas a menudo requieren la carga de múltiples recursos al instante para un correcto renderizado y funcionamiento.
Durante los rastreos, almacenamos en caché los archivos solicitados frecuentemente (imágenes, CSS, JS) para minimizar la obtención reiterada, lo que reduce el consumo de ancho de banda y la carga del servidor.
Si encontramos códigos de estado distintos a 200, especialmente errores 4XX o 5XX, automáticamente reducimos nuestra velocidad de rastreo para ese sitio. Esto garantiza una carga mínima en los sitios que pueden estar experimentando interrupciones o sobrecargas del servidor.
Entendemos que es posible que los proveedores de hosting, redes de distribución de contenidos y plataformas CMS quieran gestionar cómo los bots interactúan con los sitios de sus clientes. Nuestras direcciones IP y cadenas de agente de usuario públicas te permiten a ti, o a tus proveedores, verificar rápidamente el tráfico legítimo de Ahrefs. Estamos comprometidos con la transparencia en nuestras actividades de rastreo para fomentar la confianza y la colaboración. Si tienes alguna duda, ponte en contacto con nosotros a través de [email protected] y haremos todo lo posible por ayudarte.
Ofrecemos opciones claras y sencillas para controlar nuestros bots:
Para cambiar la frecuencia con la que AhrefsBot o AhrefsSiteAudit visitan tu sitio, especifica el retraso mínimo adecuado entre dos solicitudes consecutivas en tu archivo robots.txt:
(Donde el valor del retraso de rastreo representa tiempo en segundos).
Si no deseas que AhrefsBot o AhrefsSiteAudit visite tu sitio o una parte de él, utiliza las directivas de desautorización:
Ten en cuenta que AhrefsBot podría necesitar un tiempo para detectar los cambios en tu archivo robots.txt. Esta acción se realiza antes del próximo rastreo programado. Los propietarios de sitios verificados pueden permitir que el rastreador AhrefsSiteAudit desobedezca al archivo robots.txt en su sitio para comprobar si existen problemas en las secciones del sitio donde normalmente no está permitido rastrear.
Además, si tu archivo robots.txt contiene errores, nuestros bots no podrán reconocer tus comandos y seguirán rastreando tu sitio web de la misma forma que lo hacían antes. Obtén más información sobre robots.txt en www.robotstxt.org.
Puedes reducir temporalmente la velocidad de rastreo de AhrefsBot. Puede ser útil en casos de interrupciones o cambios en la infraestructura, cuando es necesario disminuir la carga en el sitio. Para ello, puedes devolver códigos de estado HTTP 4XX o 5XX durante el tiempo que dure la interrupción o el mantenimiento. Nuestro bot detectará estos errores y reducirá automáticamente la frecuencia de rastreo.
El bot AhrefsSiteAudit previene una carga excesiva en los servidores de los sitios web limitando el rastreo a 30 URL por minuto como máximo. Si tienes un sitio web, puedes rastrear tus sitios a velocidades más elevadas si deseas conocer más rápido los problemas del sitio. Para ello, deberás verificar la propiedad en la herramienta Site Audit.
Si tienes alguna duda sobre nuestra frecuencia de rastreo o si detectas tráfico sospechoso que deseas confirmar, ponte en contacto con nosotros a través de [email protected]. Estamos aquí para ayudarte a aclarar y resolver cualquier problema.