Как работают поисковые системы? Руководство для начинающих

Avatar
Глава отдела контента в Ahrefs (проще говоря, я отвечаю за то, чтобы каждый пост в блоге был КРУТЫМ).
Поисковые системы работают, сканируя Интернет с помощью ботов, называемых краулерами или пауками. Они переходят по ссылкам со страницы на страницу в поисках нового контента для добавления в поисковый индекс. Когда вы используете поисковую систему, релевантные результаты извлекаются из индекса и ранжируются согласно алгоритму.

Если это звучит сложно, это потому, что так и есть. Но если вы хотите ранжироваться выше в поисковых системах, чтобы привлечь больше трафика на свой веб-сайт, вам необходимо базовое понимание того, как поисковые системы находят, индексируют и ранжируют контент.

Вот что вы узнаете из этого руководства:

Chapters


    Прежде чем мы перейдем к техническим вопросам, давайте сначала убедимся, что мы понимаем, что такое поисковые системы на самом деле, почему они существуют и почему это вообще имеет значение.

    Что такое поисковые системы?

    Поисковые системы — это инструменты, которые находят и ранжируют веб-контент, соответствующий поисковому запросу пользователя. 

    Каждая поисковая система состоит из двух основных частей.

    1. Поисковый индекс. Цифровая библиотека информации о веб-страницах. 
    2. Поисковые алгоритмы. Компьютерные программы, которые ранжируют сопоставленные результаты из поискового индекса.

    Примеры популярных поисковых систем включают Google, Bing и DuckDuckGo.

    В чем состоит цель поисковых систем?

    Каждая поисковая система стремится предоставлять пользователям наилучшие и наиболее релевантные результаты. Вот как они получают или удерживают долю рынка — по крайней мере, теоретически.

    Как поисковые системы зарабатывают деньги?

    Поисковые системы предоставляют два типа результатов поиска. 

    • Органические результаты из поискового индекса. Вы не можете заплатить, чтобы попасть сюда.
    • Платная реклама от рекламодателей. Вы можете заплатить, чтобы попасть сюда.

    Каждый раз, когда кто-то нажимает на рекламу в поиске, рекламодатель платит поисковой системе. Это называется рекламой с оплатой за клик (от англ. pay-per-click, PPC). 

    Вот почему доля рынка имеет значение. Больше пользователей означает больше кликов по рекламе и больший доход.

    Почему вам должно быть важно, как работают поисковые системы?

    Поняв, как поисковые системы находят, индексируют и ранжируют контент, вы сможете ранжировать ваш сайт в органических результатах поиска по релевантным и популярным ключевым словам.

    Если вы сможете занять высокие позиции по этим запросам, вы получите больше кликов и органического трафика на ваш контент.

    Какая поисковая система самая популярная?

    Google. Их доля рынка составляет 92%.

    Google — это поисковая система, которая интересует большинство специалистов по SEO и владельцев веб-сайтов, потому что она способна направить больше трафика, чем любая другая.


    Большинство известных поисковых систем, таких как Google и Bing, содержат в своих поисковых индексах триллионы страниц. Прежде чем говорить об алгоритмах ранжирования, давайте подробнее рассмотрим механизмы, используемые для создания и поддержания веб-индекса.

    Вот основной процесс, любезно предоставленный Google::

    Давайте рассмотрим процесс, шаг за шагом:

    1. URL-адреса
    2. Сканирование
    3. Обработка и рендеринг
    4. Индексирование
    Примечание.
    Приведенный ниже процесс применяется конкретно в Google, но, вероятно, он очень похож и у других поисковых систем, таких как Bing. Существуют и другие типы поисковых систем, такие как Amazon, YouTube и Wikipedia, которые показывают результаты только со своих веб-сайтов. 

    Шаг 1. URL-адреса

    Все начинается со списка известных URL-адресов. Google обнаруживает URL-адреса с помощью различных процессов, но наиболее распространенными из них являются приведенные ниже. 

    Из обратных ссылок

    У Google уже есть индекс, содержащий триллионы веб-страниц. Если кто-то добавит ссылку на одну из ваших страниц, ведущую с одной из них, Google сможет найти ее в этом индексе.

    Вы можете бесплатно просматривать обратные ссылки своего веб-сайта с помощью Сайт Эксплорера в Ahrefs Webmaster Tools.

    1. Зарегистрируйте бесплатную учетную запись Ahrefs Webmaster Tools
    2. Вставьте свой домен в Сайт Эксплорер
    3. Перейдите в отчет Бэклинки

    Наш краулер является вторым по активности после Google, поэтому этот отчет предоставляет вам достаточно полное представление о ваших обратных ссылках.

    Из карт сайта

    Карты сайта перечисляют все важные страницы вашего сайта. Если вы добавите карту сайта в Google, это может помочь им быстрее обнаружить ваш сайт.

    Из добавлений URL-адресов

    Google также позволяет добавлять отдельные URL-адреса через Google Search Console.

    Шаг 2. Сканирование

    На этом шаге компьютерный бот (краулер), например, Googlebot, посещает и скачивает обнаруженные страницы. 

    Важно отметить, что Google не всегда сканирует страницы в том порядке, в котором они их обнаруживают.

    Google ставит URL-адреса в очередь для сканирования на основе нескольких факторов, в том числе:

    • PageRank URL-адреса;
    • как часто меняется URL-адрес;
    • новый он или нет.

    Это важно, потому что это означает, что поисковые системы могут сканировать и индексировать одни из ваших страниц раньше других. Если у вас большой веб-сайт, поисковым системам может потребоваться время, чтобы полностью его просканировать.

    Шаг 3. Обработка

    Обработка — это этап, на котором Google распознает и извлекает ключевую информацию из просканированных страниц. Никто, кроме Google, не знает всех подробностей этого процесса, но важными частями для нашего понимания являются извлечение ссылок и сохранение контента для индексации.

    Google необходимо получить рендеры страниц, чтобы полностью обработать их, и именно здесь Google выполняет код страницы, чтобы понять, как она выглядит для пользователей.

    При этом часть обработки происходит как до, так и после рендеринга, как вы можете видеть на диаграмме.

    Шаг 4. Индексирование

    На этом шаге обработанная информация с просканированных страниц добавляется в большую базу данных, называемую поисковым индексом. По сути, это цифровая библиотека из триллионов веб-страниц, из которой поступают результаты поиска Google.

    Это важный момент. Когда вы вводите запрос в поисковую систему, вы не ищете соответствующие результаты напрямую в Интернете. Вы выполняете поиск в индексе веб-страниц поисковой системы. Если веб-страница отсутствует в поисковом индексе, пользователи поисковых систем не найдут ее. Вот почему так важно проиндексировать ваш сайт в основных поисковых системах, таких как Google и Bing. 


    Обнаружение, сканирование и индексирование контента — это лишь первая часть головоломки. Поисковым системам также необходим способ ранжирования подходящих результатов, когда пользователь выполняет поиск. Это работа для алгоритмов поисковых систем. 

    Каждая поисковая система использует уникальные алгоритмы для ранжирования веб-страниц. Но поскольку Google является наиболее широко используемой поисковой системой (по крайней мере, в западном мире), именно на ней мы собираемся сосредоточиться в остальной части этого руководства.

    У Google более 200 факторов ранжирования.

    Никто не знает все эти факторы ранжирования, но мы знаем о ключевых из них. 

    Давайте кратко обсудим их. 

    • Обратные ссылки
    • Релевантность
    • Новизна
    • Тематическая авторитетность
    • Скорость загрузки страницы
    • Оптимизация для мобильных устройств

    Обратные ссылки

    Обратные ссылки — один из самых важных факторов ранжирования Google.

    Андрей Липатцев, старший стратег Google по качеству поиска, подтвердил это во время вебинара в прямом эфире в 2016 году. Когда его спросили о двух наиболее важных факторах ранжирования, он ответил просто: контент и ссылки.

    Конечно. Я могу сказать вам, какие они [два главных фактора ранжирования]. Это контент. И это ссылки, указывающие на ваш сайт.

    Ссылки являются важным фактором ранжирования в Google с 1997 года, когда они ввели PageRank, формулу для оценки ценности веб-страницы на основе количества и качества обратных ссылок, указывающих на нее.

    Когда мы проанализировали более миллиарда страниц, мы обнаружили четкую корреляцию между количеством веб-сайтов, ссылающихся на страницу, и объемом органического трафика, который она получает из Google.

    Однако дело не только в количестве, потому что не все обратные ссылки одинаковы. Вполне возможно, что страница с несколькими обратными ссылками высокого качества превзойдет страницу с большим количеством обратных ссылок низкого качества.

    У хорошей обратной ссылки есть шесть ключевых атрибутов.

    Давайте подробнее рассмотрим, возможно, два самых важных из них: авторитет и релевантность.

    Авторитет ссылки

    Обратные ссылки с авторитетных страниц и веб-сайтов обычно имеют наибольшее влияние на ранжирование.

    Как определить авторитет? В контексте SEO авторитетные страницы и веб-сайты — это те, которые имеют много обратных ссылок или “избирательных голосов”.

    В Ahrefs есть две метрики для оценки относительного авторитета веб-сайтов и страниц.

    • Рейтинг домена (DR): относительный авторитет веб-сайта по шкале от 0 до 100.
    • Рейтинг URL-адреса (UR): относительный авторитет страницы по шкале от 0 до 100.

    Вы можете проверить авторитет любого веб-сайта или веб-страницы в Сайт Эксплорере Ahrefs.

    Релевантность ссылки

    Ссылки с релевантных веб-сайтов и страниц имеют наивысшую ценность.

    Google говорит о релевантности в контексте ранжирования полезных страниц на своей странице о том, как работает поиск.

    Если другие известные веб-сайты по данной теме ссылаются на эту страницу, это явный признак высокого качества информации.

    Если вам интересно, почему важна релевантность, подумайте о том, как все работает в реальном мире. При поиске лучшего итальянского ресторана вы, вероятно, поверите совету вашего друга-повара, а не совету друга-ветеринара. Но если бы вы искали рекомендации по кошачьему корму, было бы наоборот.

    Релевантность

    У Google есть много способов определения релевантности страницы. 

    На самом базовом уровне он ищет страницы, содержащие те же ключевые слова, что и поисковый запрос.

    Но релевантность выходит далеко за рамки совпадения по ключевым словам.

    Google также использует данные о взаимодействии, чтобы оценить, соответствуют ли результаты поиска запросам. Другими словами, находят ли эту страницу полезной пользователи?

    Отчасти поэтому все лучшие результаты по запросу “apple” (яблоко) относятся к технологической компании, а не к фрукту. Из данных о взаимодействии Google знает, что большинство пользователей ищут информацию о первом, а не втором.

    Однако данные о взаимодействии — далеко не единственное, что Google учитывает.

    Google инвестировал во множество технологий, помогающих понимать взаимосвязи между сущностями, такими как люди, места и предметы. Граф знаний — одна из таких технологий, которая, по сути, представляет собой огромную базу знаний об объектах и связях между ними. 

    И apple (яблоко, фрукт), и Apple (технологическая компания) являются сущностями в графе знаний.

    Google использует связи между сущностями, чтобы лучше понять релевантность страницы. Соответствующий результат по слову “apple”, в котором говорится об апельсинах и бананах, явно относится к фруктам. Но тот, в котором говорится об iPhone, iPad и iOS, явно относится к технологической компании. 

    Отчасти благодаря графу знаний Google может выйти за рамки сопоставления ключевых слов.

    Иногда вы даже можете увидеть результаты поиска, в которых не упоминаются, казалось бы, важные ключевые слова из запроса. Возьмем для примера второй результат для “приложение Paper в магазине Apple”, в котором нигде на странице не упоминается слово “apple”.

    Google может сказать, что это релевантный результат, отчасти потому, что он упоминает такие сущности, как iPhone и iPad, которые, несомненно, тесно связаны с Apple в графе знаний.

    Примечание.
    Данные о взаимодействии и граф знаний — не единственные технологии, которые Google использует для определения релевантности страницы поисковому запросу. Большая часть работы выполняется с использованием технологий, таких как BERT и RankBrain, позволяющих понять смысл и интент самого запроса. Google даже иногда незаметно переписывает запросы, чтобы предоставлять более релевантные результаты. 

    Новизна

    Новизна как фактор ранжирования зависит от запроса, т. е. для одних запросов она важнее, чем для других. 

    Для такого запроса, как “что нового на Amazon Prime”, важна свежесть, потому что пользователи хотят знать о недавно добавленных фильмах и телешоу. Вероятно, поэтому Google ранжирует недавно опубликованные или обновленные результаты поиска выше.

    Для таких запросов, как “лучшие наушники”, свежесть важна, но не настолько. Технологии наушников развиваются быстро, поэтому результаты 2015 года вряд ли будут очень полезны, но пост, опубликованный 2—3 месяца назад, вполне может оказаться полезен. 

    Google знает об этом и показывает результаты, которые были обновлены или опубликованы в последние несколько месяцев. 

    Есть также вопросы, по которым новизна результатов не имеет значения, например, “как завязать галстук”. В этом процессе ничего не изменилось за десятилетия, поэтому не имеет значения, были ли результаты поиска написаны вчера или в 1998 году. Google знает это и не стесняется ранжировать посты, опубликованные много лет назад.

    Тематическая авторитетность

    Google хочет ранжировать контент с веб-сайтов, авторитетных в данной теме. Это означает, что Google может рассматривать веб-сайт как хороший источник результатов для запросов по одной теме, но не по другой. 

    Google говорит об этом в одном из своих патентов:

    Считает ли поисковая система сайт авторитетным, обычно зависит от запроса. […] поисковая система может рассматривать сайт Центра по контролю за заболеваниями, “cdc.gov”, как авторитетный сайт для запроса “CDC об укусах комаров”, но не может считать тот же сайт авторитетным для запроса “рекомендации ресторанов”.

    Хотя это лишь один из многих патентов, поданных Google, мы видим доказательства того, что “тематический авторитет” играет роль для результатов поиска по многим запросам. 

    Достаточно взглянуть на результаты поиска по запросу “вакууматор для готовки sous vide”. 

    Здесь мы видим два небольших нишевых сайта о готовке в вакууме, превосходящих The New York Times.

    Хотя здесь, несомненно, играют роль и другие факторы, вполне вероятно, что “тематическая авторитетность” является одной из причин, по которым эти сайты ранжируются на своих позициях.

    Вероятно поэтому в руководстве Google по поисковой оптимизации для начинающих сказано следующее:

    Старайтесь заслужить репутацию в своей области.

    Скорость загрузки страницы

    Никто не любит ждать, пока загрузится страница, и Google это знает. Вот почему они сделали скорость страницы фактором ранжирования для поиска на компьютерах в 2010 году и на мобильных устройствах в 2018 году.

    Многие люди зацикливаются на скорости загрузки страниц, поэтому стоит отметить, что ваши страницы не должны загружаться молниеносно, чтобы ранжироваться. Google заявляет, что скорость загрузки страниц считается проблемой только для страниц, которые “загружаются у пользователей медленнее всего”.

    Другими словами, сокращение на несколько миллисекунд и без того быстрого сайта вряд ли поможет ему ранжироваться выше. Просто он должен быть достаточно быстрым, чтобы не влиять негативно на восприятие пользователей.

    Вы можете проверить скорость любой веб-страницы в инструменте PageSpeed Insights, который также генерирует предложения по ускорению загрузки страниц.

    PageSpeed Insights также показывает производительность вашей страницы, по метрикам Core Web Vitals.

    Core Web Vitals или основные интернет-показатели состоят из трех метрик, которые оценивают загрузку, интерактивность и визуальную стабильность ваших веб-страниц. Google подтвердил, что Core Web Vitals станут сигналом ранжирования в июне 2021 года.

    Вы можете проверить производительность всех страниц своего веб-сайта с помощью отчета “Основные интернет-показатели” в Google Search Console. 

    Если окажется, что многие URL-адреса работают плохо или нуждаются в улучшении, обратитесь к разработчику. 

    Оптимизация для мобильных устройств

    В Google 65% поисковых запросов выполняются на мобильных устройствах. Вот почему удобство для мобильных устройств с 2015 года является важным для мобильных устройств.

    С 2019 года удобство для мобильных устройств также является фактором ранжирования для поиска на компьютерах благодаря переходу Google на индексацию, ориентированную на мобильные устройства. Это означает, что “для индексирования и ранжирования Google отдают преимущество мобильной версии контента” на всех устройствах.

    Другими словами, отсутствие поддержки мобильных устройств может повлиять на ранжирование по запросам с любых устройств.

    Вы можете проверить удобство использования любой веб-страницы на мобильных устройствах с помощью инструмента Google Проверка оптимизации для мобильных или в отчете Удобство для мобильных в Google Search Console.


    Поисковые системы понимают, что разным людям нравятся разные результаты. Поэтому они адаптируют свои результаты для каждого пользователя. 

    Если вы когда-либо искали одно и то же на нескольких устройствах или в разных браузерах, вы, вероятно, могли заметить эффект такой персонализации. Результаты часто отображаются на разных позициях в зависимости от различных факторов.

    Именно из-за этой персонализации, если вы занимаетесь SEO, для отслеживания позиций ранжирования вам лучше использовать специальный инструмент, такой как Ранк Трекер от Ahrefs. Заявленные позиции в этих инструментах, вероятно, будут ближе к истине, потому что они просматривают Интернет так, чтобы поисковые системы получали минимум информации для персонализации.

    Как поисковые системы персонализируют результаты? 

    Google заявляет: “Чтобы предоставлять пользователям наиболее подходящую и актуальную информацию, мы учитываем сведения об их местоположении, предыдущих запросах, настройках Google Поиска и т. д.”.

    Давайте подробнее рассмотрим эти три пункта.

    1. Местоположение

    Если вы введете что-то вроде “итальянский ресторан”, все результаты на картах будут местными ресторанами. 

    Google делает это, потому что вы вряд ли проедете полмира ради обеда. 

    Но Google также использует ваше местонахождение для персонализации результатов поиска не только на картах. Если мы пролистаем поисковую выдачу по запросу “итальянский ресторан”, даже результаты TripAdvisor будут персонализированными, и мы увидим, что многие из лучших результатов — это веб-сайты местных ресторанов. 

    Схожая ситуация с запросом “купить дом”. Google показывает страницы с местными объявлениями вместо международных, потому что вы, вероятно, не хотите переезжать в другую страну.

    Ваше местонахождение настолько сильно влияет на результаты локальных запросов, что при поиске одного и того же запроса из двух разных мест, поисковые выдачи почти полностью отличаются.

    2. Язык

    Google знает, что нет смысла показывать результаты на английском пользователям в Испании. Поэтому Google ранжирует английскую версию нашего руководства по SEO для YouTube для поиска на английском языке, а испанскую версию для поиска на испанском языке.

    Однако в этом Google в некоторой степени полагается на владельцев веб-сайтов. Если у вас есть страницы на нескольких языках, Google может не понять этого, пока вы им на это не укажете. 

    Вы можете сделать это с помощью HTML-атрибута под названием hreflang.

    Hreflang немного сложен и выходит далеко за рамки этого руководства, но, если коротко, это небольшой фрагмент кода, указывающий на взаимосвязь между несколькими версиями одной и той же страницы на разных языках.

    3. Журнал поиска

    Возможно, наиболее очевидный пример использования Google истории поиска для персонализации результатов — это когда он “ставит” результат, по которому вы ранее кликали, выше при следующем выполнении того же поиска.

    Это случается не всегда, но кажется довольно часто, особенно если вы нажимаете или посещаете страницу несколько раз за короткий промежуток времени.

    Подведем итоги

    Понимание того, как работают поисковые системы, — это первый шаг к более высокому ранжированию в Google и увеличению трафика. Если поисковые системы не могут найти, просканировать и проиндексировать ваши страницы, то они будут неконкурентоспособными еще до того, как вы начнете их оптимизировать.

    Если вы хотите знать, как это сделать и как начать оптимизацию своего сайта для SEO, прочитайте наше руководство по основам SEO.

    Есть вопросы? Дайте знать в комментариях или Твиттере.