5 способов удаления URL-адресов из поиска Google

Patrick Stox
Патрик Стокс — консультант по продукту, технический SEO-специалист и амбассадор бренда в Ahrefs. Он является организатором Raleigh SEO Meetup, конференции Raleigh SEO, Beer & SEO Meetup, конференции Findability и модератором /r/TechSEO.
Статистика статьи
  • Ссылающиеся веб-сайты 3
Данные из Контент Эксплорер

Показывает, сколько различных веб-сайтов ссылаются на этот контент. Как правило, чем больше сайтов ссылаются на вас, тем выше вы ранжируетесь в Google.

Показывает ежемесячный рассчетный поисковый трафик на эту статью по данным Ahrefs. Фактический поисковый трафик (по данным Google Analytics) обычно в 3–5 раз больше.

Количество ретвитов этой статьи в Twitter.

    Существует множество методов удаления URL-адресов из Google, но ни один из них не является универсальным. Правильный метод нужно подбирать по обстоятельствам.

    Это очень важно. Воспользовавшись неправильным методом, вы можете не только не удалить страницы из индекса, но еще и навредить проделанной работе по SEO.

    Чтобы помочь вам быстро определиться с подходящим методом удаления, мы создали блок-схему, которая поможет вам перейти прямо к интересующей вас части статьи.

    В этой статье вы узнаете:

    Обычно SEO-специалисты проверяют индексацию контента с помощью оператора site: в поиске Google (например, site:https://ahrefs.com). Хоть использование оператора site: может быть полезно для определения потенциально проблемных для отображения в поиске страниц или разделов веб-сайта, нужно иметь в виду, что такие запросы не являются обычными и на самом деле не помогут определить, является ли страница проиндексированной. Такой запрос может показать известные Google страницы, но это не означает, что они появятся в обычных результатах поиска без использования оператора site:.

    Например, при использовании site: в поиске можно получить страницы с редиректом или каноническим тегом, указывающим на другую страницу. Когда вы запрашиваете определенный сайт, Google может показать страницу с этого домена с контентом, заголовком и описанием, принадлежащим другому домену. Чтобы проиллюстрировать такое поведение, возьмем moz.com, который раньше назывался seomoz.org. Любой обычный пользовательский запрос, ведущий на moz.com, покажет moz.com в выдаче, в то время как site:seomoz.org покажет в поисковых результатах seomoz.org, как в примере ниже.

    seomoz site search serp

    Важно разобраться в чем отличие. Непонимание этого момента может привести к ошибкам со стороны SEO-специалистов, которые могут заблокировать или удалить URL-адреса старого домена из индекса, что не позволит консолидировать такие сигналы как PageRank. В моей практике было много случаев миграции домена, когда люди думали, что сделали ошибку во время миграции из-за того, что страницы все еще отображались при поиске по запросу site:старый-домен.com. Активные попытки исправить “проблему” приводили к негативным последствиям для их веб-сайта.

    Лучшим методом проверки индексации является использование Отчета об индексировании в Google Search Console или Инструмента проверки URL для отдельного URL-адреса. Эти инструменты сообщат, проиндексирована ли страница, а также предоставят дополнительную информацию о том, как Google ее воспринимает. Если у вас нет к ним доступа, просто поищите вашу страницу в Google по ее полному URL-адресу.

    url inspection tool

    Снимок экрана Инструмента проверки URL в Google Search Console.

    В Ahrefs, если страница ранжируется по органическим ключевым словам, или вы нашли страницу в отчете “Топ-страницы”, это обычно означает, что мы увидели ее в поиске по обычным поисковым запросам. Это является надежным показателем, что страница была проиндексирована. Обратите внимание на то, что страницы были проиндексированы, когда мы их увидели, но все уже могло измениться. Всегда проверяйте дату появления страницы по запросу.

    keyword update top pages

    Если с определенным URL-адресом возникла проблема и его нужно удалить из индекса, с помощью блок-схемы в начале статьи подберите подходящий метод удаления и перейдите к соответствующему разделу.

    Если вы удаляете страницу и передаете код статуса 404 (страница не найдена) или 410 (страница удалена), то вскоре страница будет удалена из индекса во время повторного сканирования. До удаления из индекса она все еще может появляться в результатах поиска. И даже если сама страница больше недоступна, ее кэшированная версия может оставаться доступной какое время.

    Когда может понадобиться другой метод:

    • нужно удалить страницу прямо сейчас. Посмотрите раздел “Инструмент удаления URL”.
    • нужно консолидировать такие сигналы как ссылки. Посмотрите раздел “Каноникализация”.
    • нужно, чтобы страница осталась доступна пользователям. Посмотрите, подойдут ли вам советы из         разделов “Noindex” или “Ограничение доступа”.

    Метод удаления 2: noindex

    Добавив метатег robots с параметром noindex или ответ заголовка x‑robots, вы сообщите поисковым системам, что страницу нужно удалить из индекса. Метатег robots подойдет для страниц, а ответ x‑robots не только для страниц, а и для дополнительных типов файлов, например PDF. Чтобы поисковая система увидела эти теги, нужно сделать страницы доступными для сканирования. Поэтому убедитесь, что не заблокировали их в robots.txt. Имейте в виду, что удаление страниц из индекса может помешать консолидации ссылочных или других сигналов.

    Пример meta robots noindex:

    <meta name="robots" content="noindex">
    

    Пример тега x‑robots noindex в заголовке ответа:

    HTTP/1.1 200 OK
    X-Robots-Tag: noindex
    

    Когда может понадобиться другой метод:

    • нужно закрыть пользователям доступ к этим страницам. Посмотрите раздел “Ограничение доступа”.
    • нужно объединить такие сигналы как ссылки. Посмотрите раздел “Каноникализация”.

    Метод удаления 3: ограничение доступа

    Если вы хотите, чтобы страница оставалась доступной некоторым пользователям и недоступной поисковым системам, скорее всего вам подойдет одно из этих решений:

    1. A. система учетных записей;
    2. HTTP-аутентификация (доступ по паролю);
    3. доступ по IP-адресу (доступ к странице только с определенных IP-адресов).

    Такой  способ настройки лучше всего подходит для внутренних сетей, закрытого контента, а также для этапов подготовки, тестирования и разработки сайта. Это предоставляет группе пользователей доступ к странице, в то время как поисковые системы не получат доступ и не смогут индексировать эти страницы.

    Когда может понадобиться другой метод:

    • нужно немедленное удаление. Посмотрите раздел “Инструмент удаления URL”. В этом разделе немедленное удаление рассматривается на примере особого случая, когда нужно скрыть контент, который уже попал в кэш.

    Метод удаления 4: Инструмент удаления URL

    Название этого инструмента Google несколько обманчиво, поскольку он не удаляет, а временно скрывает контент. Google все еще будет его видеть и сканировать, но пользователи не увидят эти страницы. Этот временный эффект. В Google он длится шесть месяцев, а аналогичный инструмент в Bing скрывает контент на три месяца. Эти инструменты нужно использовать только в экстремальных случаях, таких как брешь в системе безопасности, утечка данных, раскрытие персональных данных (PII) и т.д. Для Google используйте Инструмент удаления URL, а чтобы скрыть контент в Bing, ознакомьтесь со статьей Как блокировать URL.

    Вам все еще придется применить другой метод после использования инструмента удаления URL, чтобы в действительности удалить страницы на более долгий срок (методом noindex или удаления контента) или запретить доступ пользователей к контенту, если у них все еще остались на него ссылки (методом удаления контента или ограничения доступа). Этот способ просто дает вам возможность быстро спрятать страницы, пока вы их удаляете. Реализация запроса может занять до суток.

    Метод удаления 5: каноникализация

    Если у вас несколько версий одной страницы и вы хотите консолидировать сигналы, например, ссылочные, на одну версию, скорее всего вам подойдет одна из форм каноникализации. В основном это делают, чтобы избежать дублирования контента и консолидировать несколько версий страницы на одном проиндексированном URL-адресе.

    У вас есть несколько вариантов каноникализации:

    • Канонический тег. Он указывает на другой URL-адрес как на каноническую версию, которую вы хотите показывать. Если страницы очень похожи или дублируются, такой способ отлично сработает. Если страницы существенно отличаются, канонический тег может быть проигнорирован, поскольку является рекомендацией, а не директивой.
    • Редиректы. Редирект переносит пользователей и поисковых ботов с одной страницы на другую. 301 — наиболее часто используемый SEO-специалистами редирект. Он сообщает поисковым системам, какой URL-адрес вы хотите отображать в результатах поиска, консолидируя на нем сигналы. 302 или временный редирект сообщает поисковым системам, что вы хотите оставить исходный URL-адрес в индексе и консолидировать сигналы на нем.
    • Обработка параметров URL-адресов. Параметр присоединяется в конце URL-адреса обычно посредством знака вопроса, например, ahrefs.com?this=parameter. Этот инструмент от Google позволяет вам общаться с их поисковой системой и с помощью специальных параметров указывать, как нужно обрабатывать URL-адрес. К примеру, вы можете указать, изменяет ли параметр контент страницы или нужен только для отслеживания использования.

    Если у вас несколько страниц, которые нужно удалить из индекса Google, тогда их нужно соответствующим образом приоритезировать.

    Высокий приоритет: Эти страницы обычно связаны с безопасностью или конфиденциальными данными. Такой контент может содержать персональные данные (PII), данные о клиентах или служебную информацию.

    Нормальный приоритет: Обычно затрагивает контент, предназначенный для определенной группы пользователей. Внутренняя сеть компании или портал для сотрудников, контент для ограниченного круга пользователей, среда промежуточной подготовки, тестирования и разработки сайтов.

    Низкий приоритет: На таких страницах часто встречается дублированный контент. Например, страницы, передаваемые с различных URL-адресов, а также URL-адреса с параметрами. Среда промежуточной подготовки, тестирования или разработки может входить и в эту категорию.

    Расскажу о некоторые стандартных ошибках, из-за которых удаление не работает, и почему так происходит.

    Noindex в robots.txt

    Несмотря на то, что ранее Google поддерживал noindex в robots.txt, этот способ никогда не являлся официальным стандартом, и он формально более не поддерживается. Многие сайты, которые его использовали, делали это настолько некорректно, что вредили сами себе.

    Блокирование сканирования в robots.txt

    Сканирование — это не то же самое, что индексирование. Даже если вы запрещаете Google сканировать страницу, она все равно может быть проиндексирована, если на нее существуют внутренние или внешние ссылки. Google не будет знать, что находится на странице, потому что не сможет ее просканировать, но он будет знать, что страница существует и даже присвоит ей заголовок в результатах поиска, основываясь на таких сигналах как текст анкора ссылок на страницу.

    Nofollow

    Этот атрибут часто путают с noindex, а некоторые даже используют его на уровне страницы, ожидая, что таким образом страница не будет проиндексирована. Nofollow является рекомендацией, и несмотря на то, что раньше с помощью атрибута nofollow можно было запретить сканирование для ссылок на страницу и отдельных ссылок, сейчас это так не работает. Google теперь может просканировать эти ссылки, если захочет. Nofollow также использовался в некоторых ссылках в попытке запретить Google сканировать определенные страницы, а также для скульптурирования PageRank. И это тоже больше так не работает, поскольку nofollow является рекомендацией. В прошлом, если на страницу вела другая ссылка, Google мог все еще найти ее альтернативными способами сканирования.

    Отметим, что вы можете найти совокупные страницы nofollow, используя нижеуказанный фильтр в Эксплорере страницы в Аудите сайта Ahrefs.

    nofollow site audit

    Поскольку установка nofollow на все ссылки на странице редко имеет смысл, число результатов должно быть нулевым или близким к нулю. Если есть соответствующие результаты, настоятельно рекомендую проверить, был ли атрибут nofollow случайно добавлен вместо noindex, и выбрать более подходящий метод удаления по мере необходимости.

    Вы также можете найти отдельные ссылки, помеченные атрибутом nofollow, используя нижеуказанный фильтр в Эксплорере ссылок.

    nofollow internal links

    Noindex и canonical на другой URL-адрес

    Это конфликтующие сигналы. Noindex говорит, что нужно удалить страницу из индекса, а canonical сообщает, проиндексировать нужно другую страницу. В целом это может сработать для консолидации, поскольку Google обычно предпочитает canonical атрибуту noindex. Тем не менее, никто не может гарантировать такое поведение. Когда включается алгоритм, существует риск, что засчитается именно тег noindex. В этом случае страницы не будут консолидированы должным образом.

    Вы можете найти страницы с тегом canonical, указывающим на другие страницы, используя приведенный ниже набор фильтров в Эксплорере страницы в разделе “Аудит сайта”:

    noindex non self canonical site audit

    Установить noindex и дождаться, когда Google просканирует страницу, после чего заблокировать ее от сканирования

    Есть несколько вариантов такого подхода:

    1. На заблокированные и уже проиндексированные страницы добавляется атрибут noindex, после чего блокировка снимается, чтобы Google мог просканировать эти страницы и увидеть noindex. Затем они снова блокируются для         сканирования.
    2. На страницы, которые необходимо удалить, добавляется атрибут noindex и, после того как Google просканирует и обработает noindex, страницы блокируются для сканирования.

    Оба варианта заканчиваются блокировкой для сканирования. Если помните, ранее мы говорили о том, что сканирование — это совсем не то же самое, что индексирование. Хоть эти страницы и заблокированы, они все еще могут попасть в индекс.

    Если вам принадлежит контент, который используется на другом сайте, вы можете подать жалобу, основываясь на законе “Об авторском праве в цифровую эпоху” (DMCA). Можете воспользоваться инструментом Google по удалению материалов, нарушающих авторские права, чтобы подать жалобу DMCA на удаление любых материалов, защищенных авторским правом.

    Что если на чужом сайте размещается контент про вас?

    Если вы находитесь в ЕС, вы имеете право на удаление контента, который содержит информацию о вас по распоряжению суда, согласно праву на забвение. Вы можете запросить удаление персональных данных, воспользовавшись формой запроса на удаление согласно закону ЕС о защите персональных данных.

    Robots.txt — самый легкий способ удалить картинки из Google. Несмотря на то, что официально поддержка удаления страниц была исключена из robots.txt, как мы уже говорили ранее, для правильного удаления картинок достаточно просто ограничить их сканирование с помощью атрибута disallow.

    Для одной картинки:

    User-agent: Googlebot-Image
    Disallow: /images/dogs.jpg
    

    Для всех картинок:

    User-agent: Googlebot-Image
    Disallow: /
    

    Заключение

    Удаление URL-адресов может быть довольно ситуативным. Мы поговорили о нескольких способах, но если вы все еще не уверены, какой из них вам подходит, обратитесь к блок-схеме в начале этой статьи.

    Вы также можете воспользоваться правовой поддержкой Google по удалению контента.

    Остались вопросы? Задайте их мне в Twitter.

    Trans­la­tion: Ole­sia Korob­ka, SEO in Fajela.

    • Ссылающиеся веб-сайты 3
    Данные из Контент Эксплорер