Что такое краулинговый бюджет и стоит ли SEO-специалистам беспокоиться о нем?

Patrick Stox
Патрик Стокс — консультант по продукту, технический SEO-специалист и амбассадор бренда в Ahrefs. Он является организатором Raleigh SEO Meetup, конференции Raleigh SEO, Beer & SEO Meetup, конференции Findability и модератором /r/TechSEO.
    Краулинговый бюджет — это количество страниц, которые поисковая система хочет сканировать на вашем сайте, и частота их сканирования. На него влияет количество ресурсов, которые краулер хочет потратить на вашем сайте, и объем сканирования, поддерживаемый вашим сервером.

    Выделение больших ресурсов на сканирование не означает, что вы будете ранжироваться лучше, но если ваши страницы не будут просканированы и проиндексированы, вы вообще не сможете ранжироваться. 

    Большинству сайтов не нужно беспокоиться о краулинговом бюджете, но есть несколько случаев, в которых вам может быть полезно его проверить. Давайте рассмотрим некоторые из этих случаев.

    Обычно вам не нужно беспокоиться о краулинговом бюджете для популярных страниц. Реже сканируются более новые страницы, на которые ведет мало ссылок и которые мало изменяются.

    Краулинговый бюджет может быть проблемой для новых сайтов, особенно с большим количеством страниц. Ваш сервер может поддерживать частое сканирование, но поскольку ваш сайт новый и, вероятно, еще не очень популярен, поисковая система может не захотеть сканировать ваш сайт достаточно глубоко. В основном это несовпадение ожиданий. Вам нужно, чтобы ваши страницы сканировались и индексировались, но Google не знает, стоит ли их индексировать, и может решить не сканировать столько страниц, сколько нужно вам.

    Краулинговый бюджет также может быть проблемой для крупных сайтов с миллионами страниц или сайтов, которые часто обновляются. В целом, если много ваших страниц не сканируются и не обновляются так часто, как вам хотелось бы, то вы можете попытаться ускорить сканирование. Мы поговорим о том, как это сделать, дальше в статье.

    Если вы хотите увидеть обзор активности краулера Google и любых выявленных во время сканирования проблем, лучше всего посмотреть Статистику сканирования в Google Search Console.

    В нем представлены различные отчеты, которые помогут вам выявить изменения в поведении краулеров, проблемы со сканированием и предоставят дополнительную информацию о том, как Google сканирует ваш сайт.

    Вам определенно нужно проверить любые отмеченные статусы сканирования, подобные этим:

    В этих отчетах также есть метки времени, когда страницы сканировались в последний раз. 

    Если вы хотите увидеть операции всех ботов и пользователей, вам потребуется доступ к логам. В зависимости от хостинга и настроек у вас может быть доступ к таким инструментам, как Awstats и Webalizer, как показано здесь, на общем хосте с cPanel. Эти инструменты показывают некоторые агрегированные данные из ваших логов.

    Для более сложных настроек вам потребуется получить доступ и сохранить данные из необработанных логов. Возможно, из нескольких источников. Вам также могут понадобиться специализированные инструменты для более крупных проектов, такие как ELK Stack (Elasticsearch, Logstash, Kibana), который позволяет хранить, обрабатывать и визуализировать логи. Также существуют инструменты анализа логов, такие как Splunk.

    Все URL-адреса и запросы идут в счет вашего краулингового бюджета. Сюда входят альтернативные URL-адреса, такие как страницы AMP или отдельная мобильная версия на поддомене, hreflang, CSS и JavaScript, в том числе запросы XHR.

    Эти URL-адреса могут быть найдены путем сканирования и анализа страниц или из множества других источников, включая карты сайта, RSS-каналы, добавление URL-адресов для индексации в Google Search Console или использование API индексирования.

    Существуют также различные роботы Google, которые используют один краулинговый бюджет. Вы можете найти список различных роботов Google, сканирующих ваш веб-сайт, в отчете “Статистика сканирования” в GSC.

    У каждого веб-сайта свой краулинговый бюджет, состоящий из разных входных данных.

    Спрос на сканирование 

    Спрос на сканирование — это то, какой объем вашего сайта хочет сканировать Google. Более популярные страницы и страницы, подвергшиеся значительным изменениям, будут сканироваться чаще.

    Популярные страницы или страницы, на которые указывает большое количество ссылок, обычно получают приоритет перед другими страницами. Помните, что Google должен каким-то образом расставить приоритеты для сканирования ваших страниц, а ссылки — это простой способ определить, какие страницы вашего сайта более популярны. Но учитывается не только ваш сайт, а все страницы на всех сайтах в Интернете, для которых Google должен расставить приоритеты сканирования.


    Вы можете использовать отчет Лучшие по ссылкам в Сайт Эксплорере, чтобы определить, какие страницы будут сканироваться чаще. Он также показывает, когда Ahrefs последний раз сканировал ваши страницы.

    Есть еще понятие застоя. Если Google обнаружит, что страница не меняется, они будут сканировать ее реже. Например, если они просканируют страницу и не увидят никаких изменений через день, они могут подождать три дня перед следующим сканированием, затем увеличить это время до десяти дней, 30 дней, 100 дней и т. д. Нет установленного периода ожидания между сканированиями, но со временем время между сканированиями увеличивается. В то же время, если Google видит большие изменения на сайте в целом или перемещение сайта, они обычно увеличивают частоту сканирования, по крайней мере, временно. 

    Ограничение частоты сканирования

    Предел частоты сканирования — это объем сканирования, который поддерживает ваш сайт. У веб-сайтов есть определенный объем сканирования, который они могут обеспечить, прежде чем возникнут проблемы со стабильностью сервера, такие как замедление работы или ошибки. Большинство краулеров прекратят сканирование, если начнут замечать эти проблемы, чтобы не навредить сайту.

    Google будет корректировать их работу в зависимости от состояния сканируемого сайта. Если сайт хорошо переносит сканирование, это ограничение будет увеличено. Если на сайте возникают проблемы, Google уменьшит частоту его сканирования.

    Вы можете сделать несколько вещей, чтобы убедиться, что ваш сайт поддерживает увеличенный объем сканирования и увеличить спрос на сканирование вашего сайта. Давайте рассмотрим несколько вариантов.

    Ускорьте свой сервер/увеличьте ресурсы

    Google сканирует страницы, по сути, загружая ресурсы, а затем обрабатывая их на своей стороне. Скорость загрузки вашей страницы, как ее воспринимает пользователь, работает по-другому. На краулинговый бюджет влияет то, насколько быстро Google сможет подключиться и загрузить ваши ресурсы, что больше связано с сервером и ресурсами. 

    Больше ссылок, внешних и внутренних

    Помните, что спрос на сканирование обычно основывается на популярности или количестве ссылок. Вы можете увеличить свой бюджет, увеличив количество внешних и/или внутренних ссылок. С внутренними ссылками проще, так как вы контролируете сайт. Вы можете найти рекомендации внутренних ссылок в отчете Возможности для ссылок в Аудите сайта, в котором вы также найдете руководство, объясняющее, как все это работает.

    Исправьте неработающие и перенаправленные ссылки

    Сохранение активных ссылок на неработающие или перенаправленные страницы вашего сайта окажет небольшое влияние на краулинговый бюджет. Как правило, такие страницы, на которые есть ссылки, имеют довольно низкий приоритет, потому что они, вероятно, не менялись какое-то время, но устранение любых проблем полезно для обслуживания веб-сайта в целом и немного поможет вашему краулинговому бюджету.

    Вы можете легко найти неработающие (4xx) и перенаправленные (3xx) ссылки на своем сайте в отчете Внутренние страницы в Аудите сайта.

    Наличие неработающих или перенаправленных ссылок в карте сайта можно проверить в отчете Все проблемы “3XX редирект в карте сайта” и “4XX в карте сайта”.

    Используйте GET вместо POST, когда можете

    Этот вариант немного более технический, поскольку включает в себя методы HTTP-запросов. Не используйте запросы POST там, где работают запросы GET. По сути, GET (получение) и POST (отправка) — противоположные запросы. Запросы POST не кешируются, поэтому они влияют на бюджет сканирования, в то время, как запросы GET можно кешировать.

    Используйте API индексирования

    Если вам нужно, чтобы страницы сканировались чаще, проверьте, можете ли вы использовать API индексирования Google. В настоящее время такая возможность есть только для нескольких сценариев использования, таких как сайты вакансий или прямые трансляции.

    У Bing также есть API индексирования, доступный каждому.

    Что никак не поможет

    Иногда люди используют некоторые вещи, которые на самом деле никак не помогают с краулинговым бюджетом.

    • Небольшие изменения на сайте. Внесение небольших изменений на страницах, например, обновление дат, перестановка пробелов или знаков препинания, в надежде на более частое сканирование страниц. Google довольно хорошо определяет, являются ли изменения существенными или нет, поэтому такие небольшие изменения вряд ли повлияют на сканирование.
    • Директива задержки сканирования в robots.txt. Эта директива замедлит частоту сканирования многими роботами. Однако робот Googlebot не использует ее, поэтому это никак не повлияет на него. Мы учитываем эту директиву в Ahrefs, поэтому, если вам когда-нибудь понадобится замедлить частоту сканирования, вы можете добавить такую задержку сканирования в свой файл robots.txt.
    • Удаление сторонних скриптов. Сторонние скрипты не учитываются в вашем бюджете сканирования, поэтому их удаление никак не поможет.
    • Атрибут nofollow. Этот способ ненадежный. Ранее ссылки с атрибутом nofollow не расходовали краулинговый бюджет. Однако сегодня атрибут nofollow рассматривается как подсказка, поэтому Google может решить просканировать эти ссылки.

    Есть всего пара хороших способов снизить частоту сканирования Google. Есть несколько других регулировок, которые технически вы могли бы сделать, например, замедлить работу вашего веб-сайта, но я бы не рекомендовал эти методы.

    Медленная, но гарантированная регулировка

    Главный элемент управления, который Google предоставляет нам для снижения частоты сканирования, — это ограничитель частоты в Google Search Console. Вы можете снизить частоту сканирования с помощью этого инструмента, но это может занять до двух дней.

    Быстрая, но рискованная регулировка

    Если вам нужно более быстрое решение, вы можете воспользоваться корректировками частоты сканирования Google, основанными на состоянии вашего сайта. Если вы покажете Googlebot статус-код 503 Service Unavailable или 429 Too Many Requests на страницах, они будут сканировать их реже или могут временно прекратить сканирование. Однако вам не стоит использовать это дольше нескольких дней, иначе Google может начать удалять эти страницы из индекса.

    Заключение

    Опять же, я хочу еще раз напомнить, что краулинговый бюджет — это не то, о чем нужно беспокоиться большинству людей. Если у вас есть основания для беспокойства, я надеюсь, что это руководство было полезно.

    Обычно я обращаю на него внимание только тогда, когда есть проблемы со страницами, которые не сканируются и не индексируются, мне нужно объяснить кому-то, почему не следует беспокоиться об этом, или я случайно замечаю что-то, что меня беспокоит, в отчете о статистике сканирования в Google Search Console. 

    Остались вопросы? Дайте знать в Twitter.