В Ahrefs ми використовуємо два основних веб-сканери — AhrefsBot і AhrefsSiteAudit — для підтримки нашого набору інструментів і послуг. Метою нашого сканування є надати допомогу власникам сайтів у покращенні їхньої присутності в мережі, з одночасною мінімізацією навантаження на їхні сервери та забезпеченням безпечної, прозорої поведінки сканування.
Obeys robots.txt: Yes
Obeys crawl delay: Yes
Obeys robots.txt: Yes by default (website owners can request to disobey robots.txt on their sites)
Obeys crawl delay: Yes by default (website owners can request to disobey crawl delay on their sites)
Обидва боти — AhrefsBot і AhrefsSiteAudit — визнані перевіреними «хорошими» ботами компанією Cloudflare — провідною компанією в галузі веббезпеки та ефективності.
Ми скануємо з публічно опублікованих діапазонів IP. Ви можете отримати наші IP-адреси у вигляді діапазонів IP або індивідуальних IP. Інформацію про те, як додати наші IP-адреси до білого списку, можна знайти у статті
Зворотний DNS-суфікс імені хоста IP-адреси завжди ahrefs.com або ahrefs.net.
Ви можете перевірити статус вашого сайту, як його бачать наші боти, і чи можуть вони його сканувати:
AhrefsBot індексує свіжу, точну інформацію про сайти та їхній контент, а також про те, як вони пов'язані між собою. Ці дані неймовірно корисні, і їх можна використовувати по-різному:
Обидва боти суворо дотримуються robots.txt на обидві директиви заборони і дозволу, а також директиви crawl-delay. Тільки перевірені власники сайтів можуть дозволити сканеру AhrefsSiteAudit не виконувати robots.txt на своєму сайті, щоб перевірити проблеми в розділах сайту, які зазвичай заборонені для сканування.
Під час запиту HTML-сторінок відбувається суворе дотримання затримки сканування, що гарантує, що ми не перевищимо зазначені обмеження за швидкістю. Проте, це не можна враховувати при відтворенні JavaScript. Коли наші боти відтворюють сторінку, вони можуть одночасно запитувати кілька ресурсів (наприклад, зображення, скрипти, стилі), що може призвести до запитів, які з'являються в журналах сервера частіше, ніж дозволено налаштуваннями затримки сканування. Така поведінка імітує можливості реального користувача, оскільки сучасні вебсторінки часто вимагають завантаження кількох ресурсів одночасно для належного відображення та функціонування.
Під час сканування ми кешуємо часто запитувані файли (зображення, CSS, JS) для зменшення повторних завантажень, що знижує споживання пропускної здатності та навантаження на сервер.
Якщо ми зустрічаємо коди статусу, відмінні від 200, особливо помилки 4xx або 5xx, ми автоматично зменшуємо швидкість сканування для цього сайту. Це забезпечує мінімальне навантаження на сайти, які можуть зазнавати перебоїв у роботі або високого навантаження на сервер.
Ми розуміємо, що провайдери хостингу, CDN та платформи CMS можуть захотіти керувати тим, як боти взаємодіють з сайтами їх клієнтів. Наші загальнодоступні IP-адреси та рядки користувача-агента дозволяють вам або вашим постачальникам послуг швидко перевірити законний трафік Ahrefs. Ми зобов'язуємося бути прозорими у своїй діяльності зі сканування для сприяння довіри та співпраці. Якщо у вас є будь-які питання, зв'яжіться з [email protected], і ми зробимо все можливе, щоб допомогти.
Ми надаємо зрозумілі, дружні до користувача опції для управління нашими ботами:
Щоб змінити частоту відвідування вашого сайту з боку AhrefsBot або AhrefsSiteAudit, просто вкажіть у файлі robots.txt мінімальну прийнятну затримку між двома послідовними запитами:
(Де значення Crawl-Delay — це час у секундах.)
Якщо ви хочете заборонити AhrefsBot або AhrefsSiteAudit відвідувати ваш сайт або певний його розділ, використовуйте директиви Disallow:
Зверніть увагу, що AhrefsBot може знадобитися час для внесення змін до файлу robots.txt. Це відбувається перед наступним запланованим скануванням. Перевірені власники сайтів можуть дозволити сканеру AhrefsSiteAudit ігнорувати robots.txt на своєму сайті, щоб перевірити наявність проблем у розділах сайту, які зазвичай заборонені для сканування.
Крім того, якщо ваш файл robots.txt містить помилки, наші боти не зможуть розпізнати ваші команди та продовжать сканування вашого вебсайту, як і раніше. Докладніше про robots.txt на www.robotstxt.org.
Ви можете тимчасово зменшити швидкість сканування AhrefsBot. Це може бути корисним у випадках перебоїв або інфраструктурних змін, коли навантаження на сайт потрібно зменшити. Тимчасове зменшення швидкості сканування можна зробити, повертаючи HTTP коди статусу 4xx або 5xx під час простою або вікна обслуговування. Наш бот автоматично визначить ці помилки та зменшить свою активність.
Бот AhrefsSiteAudit запобігає надмірному навантаженню на сервери сайтів, обмежуючи сканування до 30 URL-адрес на хвилину максимум. Якщо ви власник сайту, ви можете сканувати власні сайти на більшій швидкості, якщо хочете отримувати сповіщення про проблеми з сайтом швидше. Для цього вам потрібно підтвердити право власності в інструменті Site Audit.
Якщо у вас є будь-які питання про те, як часто ми скануємо, або якщо ви бачите підозрілий трафік, який потрібно підтвердити, зв'яжіться з [email protected]. Ми завжди готові допомогти з'ясувати та розв'язати будь-які питання.