W Ahrefs korzystamy z dwóch podstawowych robotów indeksujących – AhrefsBot i AhrefsSiteAudit – aby wspierać nasz zestaw narzędzi i usług. Naszym celem jest pomoc właścicielom stron w poprawie ich obecności online, przy jednoczesnym minimalizowaniu obciążenia ich serwerów oraz zapewnieniu bezpiecznego i przejrzystego działania bota.
Obeys robots.txt: Yes
Obeys crawl delay: Yes
Obeys robots.txt: Yes by default (website owners can request to disobey robots.txt on their sites)
Obeys crawl delay: Yes by default (website owners can request to disobey crawl delay on their sites)
Zarówno AhrefsBot, jak i AhrefsSiteAudit są uznawane za zweryfikowane „dobre” boty przez Cloudflare, wiodącą firmę zajmującą się bezpieczeństwem i wydajnością sieci.
Indeksujemy publicznie opublikowane zakresy adresów IP. Nasze adresy IP można pobrać jako zakresy IP lub poszczególne IP. Informacje na temat umieszczania naszych adresów IP na białej liście można znaleźć w artykule pomocy.
Odwrotny sufiks DNS dla nazwy hosta IP to zawsze ahrefs.com lub ahrefs.net.
Można sprawdzić status witryny, ponieważ jest ona widziana przez nasze boty, i to, czy może być przez nie indeksowana:
AhrefsBot indeksuje świeże, dokładne informacje o stronach internetowych i ich treści oraz sposobie, w jaki łączą się one między sobą. Te dane są niezwykle użyteczne i mogą być wykorzystywane na wiele sposobów:
Oba boty ściśle przestrzegają robots.txt dla reguł disallow i allow, jak również dyrektyw crawl-delay. Tylko zweryfikowani właściciele witryn mogą zezwolić crawlerowi AhrefsSiteAudit na nieprzestrzeganie pliku robots.txt na ich witrynie, dzięki czemu mogą oni sprawdzać błędy w sekcjach witryny normalnie niedozwolonych do indeksowania.
Opóźnienie indeksowania jest ściśle przestrzegane podczas żądania stron HTML, co zapewnia, że nie przekroczymy określonych limitów szybkości. Nie można go jednak przestrzegać podczas renderowania JavaScript. Gdy nasze boty renderują stronę, mogą zażądać wielu zasobów (np. obrazów, skryptów, arkuszy stylów) jednocześnie, co może skutkować częstszymi żądaniami pojawiającymi się w dziennikach serwera niż dozwolone przez ustawienie opóźnienia indeksowania. Takie zachowanie naśladuje rzeczywiste doświadczenie użytkownika, ponieważ nowoczesne strony internetowe często wymagają jednoczesnego załadowania wielu zasobów w celu prawidłowego renderowania i funkcjonalności.
Podczas indeksowania buforujemy często wymagane pliki (obrazy, CSS, JS), aby zminimalizować wielokrotne pobieranie, co zmniejsza zużycie przepustowości i obciążenie serwera.
Jeśli napotkamy kody stanu inne niż 200, zwłaszcza błędy 4xx lub 5xx, automatycznie zmniejszamy prędkość indeksowania dla tej witryny. Zapewnia to minimalne obciążenie witryn, które mogą doświadczać przestojów lub dużego obciążenia serwera.
Rozumiemy, że dostawcy usług hostingowych, sieci CDN i platformy CMS mogą chcieć zarządzać interakcją botów z witrynami swoich klientów. Nasze publicznie dostępne adresy IP i ciągi agentów użytkownika pozwalają tobie lub twoim dostawcom usług szybko zweryfikować legalny ruch Ahrefs. Dążymy do przejrzystości naszych działań związanych z indeksowaniem, aby wspierać zaufanie i współpracę. Jeśli masz jakiekolwiek wątpliwości, skontaktuj się z [email protected], a my dołożymy wszelkich starań, aby pomóc.
Oferujemy jasne, przyjazne dla użytkownika opcje kontrolowania naszych botów:
Aby zmienić częstotliwość, z jaką AhrefsBot lub AhrefsSiteAudit odwiedzają twoją stronę, po prostu określ minimalne dopuszczalne opóźnienie między dwoma kolejnymi żądaniami w pliku robots.txt:
(Gdzie wartość Crawl-Delay to czas mierzony w sekundach).
Jeśli chcesz uniemożliwić AhrefsBot lub AhrefsSiteAudit odwiedzanie Twojej witryny lub jej sekcji, użyj dyrektyw Disallow:
Należy pamiętać, że AhrefsBot może potrzebować trochę czasu, aby wychwycić zmiany w pliku robots.txt. Jest to wykonywane przed następnym zaplanowanym wyszukiwaniem. Zweryfikowani właściciele witryn mogą pozwolić na ignorowanie przez AhrefsSiteAudit pliku robots.txt, aby mogli sprawdzić problemy w sekcjach witryny, które są normalnie niedozwolone do indeksowania.
Ponadto, jeśli plik robots.txt zawiera błędy, nasze boty nie będą w stanie rozpoznać poleceń i będą kontynuować indeksowanie witryny w sposób, w jaki robiły to wcześniej. Przeczytaj więcej o robots.txt na www.robotstxt.org.
Możesz tymczasowo zmniejszyć prędkość indeksowania AhrefsBot. Może to być przydatne w przypadku awarii lub zmian infrastrukturalnych, gdy obciążenie witryny powinno zostać zmniejszone. Tymczasowe zmniejszenie szybkości indeksowania można osiągnąć poprzez zwrócenie kodów stanu HTTP 4xx lub 5xx na czas przerwy lub okna konserwacji. Nasz bot wykryje te błędy i automatycznie się wycofa.
Bot AhrefsSiteAudit zapobiega nadmiernemu obciążeniu serwerów witryn internetowych, ograniczając indeksowanie do maksymalnie 30 adresów URL na minutę. Jeśli jesteś właścicielem witryny, możesz indeksować własne witryny z większą prędkością, jeśli chcesz szybciej otrzymywać powiadomienia o problemach z witryną. Aby to zrobić, musisz zweryfikować własność w narzędziu Site Audit.
Jeśli masz jakiekolwiek wątpliwości dotyczące częstotliwości naszego indeksowania lub jeśli widzisz podejrzany ruch, który chcesz potwierdzić, skontaktuj się z nami pod adresem [email protected]. Jesteśmy tutaj, aby pomóc wyjaśnić i rozwiązać wszelkie problemy.