Как создать XML-карту сайта (и отправить ее в Google)

Avatar
Глава отдела контента в Ahrefs (проще говоря, я отвечаю за то, чтобы каждый пост в блоге был КРУТЫМ).
Статистика статьи
  • Ссылающиеся веб-сайты 6
Данные из Контент Эксплорер

Показывает, сколько различных веб-сайтов ссылаются на этот контент. Как правило, чем больше сайтов ссылаются на вас, тем выше вы ранжируетесь в Google.

Показывает ежемесячный рассчетный поисковый трафик на эту статью по данным Ahrefs. Фактический поисковый трафик (по данным Google Analytics) обычно в 3–5 раз больше.

Количество ретвитов этой статьи в Twitter.

    Так же, как вам может быть сложно найти новую дорогу без карты, Google может быть сложно найти все страницы на вашем сайте без карты сайта.

    К счастью, можно быстро и легко создать карту сайта в XML-формате и отправить ее в Google.

    Изучив основы, мы подробно рассмотрим, как это сделать.

    (Уже знаете все основы? Щелкните здесь, чтобы сразу перейти к созданию файла Sitemap.)

    Карта сайта (файл Sitemap) — это XML-файл, в котором перечислен весь важный контент вашего сайта. Все страницы или файлы, предназначенные для ранжирования в поисковиках, должны быть указаны в карте сайта.

    Интересный факт

    В картах сайта нельзя перечислять больше 50 000 ссылок, а их размер не должен превышать 50 МБ. Если содержимое файла Sitemap превышает один или несколько этих показателей, придется разбить его между несколькими картами.

    Sitemap.xml создается для поисковиков, а не людей. Он может выглядеть немного пугающе, если вы видите его впервые.

    <?xml version="1.0" encoding="UTF-8"?>
    <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
    	<url>
    		<loc>https://ahrefs.com/</loc>
    		<lastmod>2019-08-21T16:12:20+03:00</lastmod>
    	</url>
    	<url>
    		<loc>https://ahrefs.com.com/blog/</loc>
    		<lastmod>2019-07-31T07:56:12+03:00</lastmod>
    	</url>
    </urlset>
    

    Давайте разберемся.

    Объявление XML

    <?xml version="1.0" encoding="UTF-8"?>

    Эта строка сообщает поисковикам, что он имеет дело с XML-файлом. Здесь также указывается версия XML и используемая кодировка. Для карты сайта следует указать версию 1.0 и кодировку UTF‑8 (UTF‑8 использовать обязательно).

    URL set

    <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">

    Это хранилище всех URL-адресов в карте сайта. Эта строка также сообщает краулерам, какой стандарт протокола используется. Большинство карт указывают стандарт Sitemap 0.90, поддерживаемый Google, Yahoo и Microsoft.

    URL

    <url>
    <loc>https://ahrefs.com/</loc>
    <lastmod>2019-08-21T16:12:20+03:00</lastmod>
    </url>
    

    Это родительский тег для каждой записи URL-адреса. Вы должны указать расположение URL-адреса во вложенном теге <loc>. Что особенно важно, необходимо использовать абсолютные URL-адреса, не относительными и каноническими.

    Несмотря на то, что это единственный обязательный тег, у него могут быть дополнительные свойства:

    • <lastmod> — указывает дату последнего изменения файла. Она должна быть в формате W3C Datetime. Например, если вы обновили публикацию 25 сентября 2019 года, в атрибуте будет указано значение 2019-09-25. Дополнительно можно еще указать время.
    • <priority> — указывает приоритет URL-адреса относительно всех остальных URL-адресов на сайте. Значение указывается в диапазоне от 0.0 до 1.0. Чем больше значение, тем выше приоритет.
    • <changefreq> — указывает, как часто страница может меняться. Задача этого свойства — сообщить поисковикам о том, как часто им может понадобиться повторно сканировать URL-адреса. Допустимые значения: always (всегда), hourly (каждый час), daily (ежедневно), weekly (еженедельно), monthly (ежемесячно), yearly (ежегодно) и never (никогда).

    Ни один из этих дополнительных тегов не особо важен для SEO.

    Гэри Илш из Google утверждает, что они в основном игнорируют значение тега <lastmod>, поскольку в большинстве случаев “вебмастера совершенно не стараются следить за его точностью”. Это и неудивительно, ведь большинство генераторов карт сайтов устанавливают значение этого тега для всех страниц по текущей дате, а не по дате последнего изменения файла.

    Тег <priority> в Google, по их словам, игнорируется, потому что это просто “лишний шум”.

    Относительно тега <changefreq> Джон Мюллер говорит так: “Приоритет и изменение частоты на самом деле больше не играют такой большой роли, когда речь идет о карте сайта” .

    Google обнаруживает новый контент, сканируя веб-страницы. Когда он сканирует страницу, то обращает внимание и на внутренние, и на внешние ссылки на эту страницу. Если обнаруженный URL-адрес не содержится в их поисковом индексе, они могут спарсить по нему контент и проиндексировать его, если это целесообразно.

    Но таким образом Google не сможет найти весь контент. Если на страницу нет ссылок с других уже известных ему страниц, он ее вряд ли найдет ее.

    Вот тут-то и вступает в игру карта сайта.

    Карта сайта сообщает Google (и другим поисковикам), где найти наиболее важные страницы сайта, чтобы они могли их просканировать и проиндексировать. Это важно, потому что поисковики не могут ранжировать контент, предварительно не проиндексировав.

    Некоторые CMS сгенерируют карту сайта для вас. Она будет обновляться автоматически, когда вы будете добавлять или убирать страницы и посты на вашем сайте. Если ваша CMS этого не делает, скорее всего вы можете установить для нее соответствующий плагин, который это умеет.

    Создание карты сайта в WordPress

    Хоть на WordPress и работает 35,5% всех сайтов, эта CMS сама не генерирует карту сайта. Чтобы создать ее, вам понадобится плагин наподобие Yoast SEO.

    Чтобы установить Yoast SEO, перейдите в консоль WordPress.

    Выберите пункт Плагины > Добавить новый.

    image1

    Найдите “Yoast SEO”.

    Нажмите кнопку “Установить” возле первого полученного результата, а затем кнопку “Активировать”.

    image8

    Перейдите в раздел SEO > Общие > Возможности и убедитесь, что “XML-карта сайта” включена.

    image2

    Теперь вы сможете увидеть файл sitemap (или индекса sitemap) по адресу yourdomain.com/sitemap.xml или yourdomain.com/sitemap_index.xml.

    image10

    Примечание.
    Если у вас WordPress установлен в подпапке или на субдомене, ваша карта сайта будет находиться там же. Например, карта сайта нашего блога доступна по ahrefs.com/blog/sitemap_index.xml.
    СОВЕТ

    Если вы хотите четко указать, какие типы контента (страницы тегов, категорий и т. д.) включить или исключить из вашей карты сайта, перейдите в раздел настроек “Отображение в поисковой выдаче”.

    image4

    Вы также можете исключить отдельные посты или страницы в редакторе с помощью поля “Дополнительно”.

    image5

    ВАЖНО. Исключайте из карты сайта только те страницы, которые не должны отображаться в результатах поиска.

    Подробнее см. в нашем руководстве по SEO для WordPress.

    Создание карты сайта в Wix

    Wix автоматически создает для вас карту сайта. Она располагается по адресу yourwixsite.com/sitemap.xml.

    К сожалению, у вас практически нет возможностей контролировать, какие страницы включаются в карту сайта. Если вы хотите исключить страницу, перейдите на вкладку настройки “SEO (Google)” на нужной странице и отключите параметр “Show this page in search results” (Отображать эту страницу в результатах поиска).

    image3

    Отображать эту страницу в результатах поиска

    Стоит отметить, что таким образом на страницу добавляется мета-тег noindex, который исключает ее из показа в результатах поиска.

    Примечание.
    Если вы добавите каноникал на другой URL-адрес в Wix, то неканонический URL-адрес не будет удален из карты сайта. Хоть это и не повлияет на большинство пользователей, включение неканонических страниц в файле sitemap — не лучшая практика, а также неоднозначный сигнал для Google.

    Создание карты сайта в Squarespace

    Squarespace также создает для вас карту сайта автоматически. Обычно ее можно найти по адресу yoursquarespacesite.com/sitemap.xml.

    Ручное редактирование карты сайта в Squarespace невозможно, но вы можете исключить (используя тег noindex) страницы из выдачи поисковиков на вкладке “SEO”.

    image9

    Скрыть страницу в результатах поиска

    Такие страницы будут также исключены из вашей карты сайта.

    Создание карты сайта в Shopify

    Shopify генерирует для вас карту сайта автоматически. Ее можно найти по адресу yourstore.com/sitemap.xml.

    К сожалению, легкого способа исключить страницу из индекса в Shopify не существует. Вам придется напрямую редактировать файлы .liquid.

    Создание карты сайта без CMS

    Если на вашем сайте около 300 страниц или менее, установите бесплатный краулер Screaming Frog.

    После установки откройте раздел Mode > Spider.

    Вставьте URL-адрес главной страницы в поле с подписью “Enter URL to spider”.

    Нажмите кнопку “Start”.

    image6

    Примечание.
    Убедитесь, что используете каноническую (главную) версию стартовой страницы. Если вы этого не сделаете, Screaming Frog просканирует только один URL-адрес.

    Когда сканирование завершится, обратите внимание на нижний правый угол.

    Найдите похожую строку:

    image7

    Если указанное число не превышает 499, перейдите в раздел Sitemaps > XML sitemap.

    Поскольку для Google теги <lastmod>, <changefreq> и <priority> являются несущественными, мы рекомендуем не включать их в файл sitemap.xml.

    image11

    Нажмите “Next” (Далее) и сохраните файл sitemap на компьютере. Готово.

    Если в строке указано значение “500 из 500”, то нет смысла экспортировать файл sitemap. Почему? Потому что вы достигли лимита сканирования для вашего сайта, а это значит, что в экспортированном файле sitemap может не быть сотен страниц, что делает его непригодным для использования.

    Один из способов решить эту проблему — подобрать другой бесплатный генератор карты сайта. Их очень много.

    К сожалению, большинство таких генераторов ненадежны.

    Мы протестировали некоторые из наиболее популярных генераторов и обнаружили, что многие из них включают в карту сайта неканонические URL-адреса, неиндексируемые страницы и редиректы. Для SEO это плохо.

    ГенераторВключает канонизированные URL?Включает noindexed URL?Включает редиректы?
    xml-sitemaps.comДа ❌Нет ✅Нет ✅
    web-site-map.comДа ❌Нет ✅Нет ✅
    xmlsitemapgenerator.orgДа ❌Нет ✅Нет ✅
    smallseotools.com/xml-sitemap-generatorДа ❌Да ❌Да ❌
    freesitemapgenerator.comДа ❌Да ❌Да ❌
    duplichecker.com/xml-sitemap-generator.phpДа ❌Да ❌Да ❌
    xsitemap.comДа ❌Да ❌Да ❌

    Где же найти решение?

    Если Screaming Frog не смог просканировать весь ваш сайт, просканируйте его с помощью инструмента Аудит Сайта Ahrefs.

    https://www.youtube.com/watch?v=LjinWqfGyVE

    Примечание.
    Подтвердите, что это ваш сайт, чтобы сканирование прошло быстрее. Вот как это сделать.

    Как только сканирование завершится, перейдите в Page Explorer и добавьте следующие фильтры.

    Нажмите Export > Current table view.

    Откройте экспортированный CSV-файл, а затем скопируйте и вставьте все URL-адреса из столбца URL в этот инструмент.

    Нажмите кнопку “Add to queue” (Добавить в очередь), а затем “Export queue as sitemap.xml” (Экспортировать список в файл sitemap.xml).

    Полученный файл будет готовой картой вашего сайта.

    Для начала вам нужно узнать, где находится карта сайта.

    Если вы используете плагин, скорее всего правильный URL-адрес карты будет domain.com/sitemap.xml.

    Если вы делаете это вручную, назовите вашу карту сайта sitemap.xml и загрузите ее в корневой каталог вашего веб-сайта. После этого карта сайта станет доступна по адресу domain.com/sitemap.xml.

    Примечание.
    Вы можете выбрать любое имя для карты сайта, но наилучшей практикой будет придерживаться названия sitemap.xml. Если у вас несколько карт, можно использовать простую схему именования, например, sitemap_1.xml, sitemap_2.xml.

    Выберите Google Search Console > Файлы Sitemap > Добавить URL-адрес файла Sitemap, а затем нажмите кнопку “Отправить”

    image16

    Готово.

    СОВЕТ

    Хорошей практикой является добавление URL-адресов файлов sitemap в файл robots.txt.

    Вы можете найти этот файл в корневом каталоге вашего веб-сервера. Чтобы добавить URL-адрес файла sitemap, откройте файл robots.txt и вставьте следующую строку:

    Sitemap: https://www.yourdomain.com/sitemap.xml

    URL-адрес из примера необходимо заменить на URL-адрес вашей карты сайта.

    Если у вас несколько карт, добавьте такую строку для каждой из них.

    Sitemap: https://www.asos.com/sitemap_1.xml
    

    Sitemap: https://www.asos.com/sitemap_2.xml

    Google Search Console сообщает вам о большинстве технических ошибок, относящихся к карте сайта.

    Например, в этом предупреждении сообщается, что один из отправленных URL-адресов заблокирован в robots.txt:

    image12

    Вы можете больше узнать об этих проблемах и способах их решения здесь.

    Однако существуют проблемы, о которых Google вам не сообщит.

    Ниже приведены две наиболее распространенные такие проблемы, а также способы их выявления и устранения.

    Бесполезные страницы низкого качества в вашей карте сайта

    Каждая страница в вашей карте сайта должна быть индексируемой и канонической.

    К сожалению, это не означает, что все эти страницы высокого качества. Если у вас много контента, скорее всего в вашей карте найдется несколько страниц низкого качества.

    Например, эти две страницы в интернет-мазагине:

    image19

    image20

    Ни одна из них не несет ценности для пользователя, но все же они находятся в карте этого сайта, и Google проиндексировал обе из них.

    image17

    image18

    Чтобы найти эти страницы, перейдите в раздел Site Audit (Аудит сайта) > Duplicate content

    Ищите кластеры дублированных или частично дублированных (в большую сторону) страниц без каноникалов. Они представлены оранжевыми квадратиками. Щелкните по одному из них, чтобы увидеть все страницы из этой группы.

    Проверьте эти страницы, чтобы понять, представляют ли они какую-либо ценность.

    Держать на сайте страницы низкого качества плохо по трем причинам:

    • Они впустую расходуют краулинговый бюджет. Заставлять Google терять время и ресурсы, сканируя бесполезные страницы низкого качества — не лучшая идея. Он бы мог посвятить это время сканированию более важного контента. (Во избежание недоразумений: Google утверждает, что краулинговый бюджет — это не “что-то, о чем большинству издателей стоит беспокоиться”.)
    • Они “крадут” авторитетность ссылки у более важных страниц. Существует явная корреляция между авторитетностью страниц и их позициями в выдаче. Внутренние ссылки на страницы низкого качества снижают авторитетность, которая могла бы перетекать на более важные страницы. (Что примечательно, когда мы удалили почти ⅓ постов из блога Ahrefs, мы заметили увеличение трафика, а не его снижение.)
    • Они приводят к плохому взаимодействию с пользователем. Никакой пользы при посещении этих страниц пользователи не получают, и они могут сразу уйти, если решат, что ваш сайт низкого качества или вообще заброшен.

    Подводя итог, лучший план действий — это удалить страницы низкого качества с вашего сайта и, следовательно, из карты сайта. Если вы это сделаете, стоит помнить, что нужно также удалить все внутренние ссылки на эти страницы. Если вы об этом забудете, то вместо одной проблемы (низкокачественные страницы) вы приобретете другую (битые ссылки).

    Помимо дубликатов и неполных дубликатов, вы можете поискать страницы с бесполезным контентом.

    Просто проверьте отчет “On-Page” в инструменте “Аудит сайта” для страниц с предупреждением о малом количестве слов (Low word count).

    image14

    Страницы, исключенные из карты сайта по ошибке

    Если вы использовали любые из указанных ранее методов генерации карты сайта, то в нее не попадут страницы с тегами noindex или canonical (не ссылающиеся на себя).

    Это хорошо. Не стоит включать неканонические URL-адреса или неиндексируемые страницы в карту сайта.

    Таким образом, если у вас на сайте есть некорректные теги noindex, страницы могут быть исключены по ошибке.

    Чтобы проверить веб-сайт на наличие таких ошибок, воспользуйтесь отчетом “Indexability” (Индексируемость) в инструменте “Аудит сайта”. Обратите внимание на предупреждения “Noindex page” (Неиндексируемая страница), указывающие на все неиндексируемые страницы.

    image15

    Большая их часть, скорее всего, будет исключена из индекса специально, однако этот список стоит перепроверить. Обычно некорректные теги noindex легко заметить, поскольку они будут касаться целого подраздела вашего сайта.

    Если вы видите страницы, которые все же должны быть проиндексированы, удалите тег noindex со страницы и добавьте ее в вашу карту. Если вы используете CMS или плагин, добавление должно произойти автоматически.

    ПРОФЕССИОНАЛЬНЫЙ СОВЕТ

    Стоит проверить сайт на некорректные каноникалы и редиректы. Чтобы это сделать, перейдите в Page Explorer и используйте такие фильтры:

    Проверка некорректных каноникалов.

    Проверка некорректных редиректов.

    Удалите некорректно указанные каноникалы и редиректы, затем добавьте затронутые страницы в вашу карту сайта.

    Вопросы и ответы

    Вот несколько ответов на часто задаваемые вопросы о картах сайта. Сообщите нас, если у вас появился вопрос, на который в этом разделе нет ответа, и мы добавим его.

    Нужна ли карта сайта для страниц AMP?

    Нет.

    Для AMP-страниц карта сайта не нужна — ссылки rel=amphtml будет достаточно.

    Как создать карту сайта для проекта электронной коммерции?

    Карта для сайта электронной коммерции создается так же, как и для любого другого. Однако, в таких проектах стоит уделить особое внимание проверке страниц на дубликаты или неполные дубликаты, поскольку они часто проскальзывают сквозь пальцы в больших количествах из-за фасетной навигации.

    Заключение

    Создание карты сайта это вам не бином Ньютона, особенно если вы используете плагин, который все делает вместо вас. Не так уж сложно и создать карту с нуля — просто просканируйте сайт и отформатируйте список URL-адресов.

    Важно помнить, что Google не должен индексировать страницы в вашей карте сайта, а также то, что карта сайта никак не взаимосвязана с ранжированием.

    Если вы хотите ранжироваться выше в Google, прочтите этот пост.

    Остались вопросы? Напишите мне в комментариях или в Twitter.

    Trans­la­tion: Ole­sia Korob­kaSEO in Fajela.

    • Ссылающиеся веб-сайты 6
    Данные из Контент Эксплорер