При создании индекса Интернета компаниям приходится применять множество различных подходов к процессам сканирования, синтаксического анализа и индексирования данных. Хоть между индексами и будет много совпадений, также будут некоторые различия, появившиеся в следствие принятых каждой компанией решений.
Во имя прозрачности мы хотим рассказать людям больше об индексе ссылок Ahrefs.
- Что такое ссылка?
- Какие ссылки индексируются?
- Какие домены индексируются?
- Почему мы не видим все ссылки?
Ссылки переносят пользователей, нажавших по ним, с одной веб-страницы на другую. Есть много способов их создания, наиболее распространенным из которых является классический HTML-элемент <a>
с атрибутом href.
<a href="url">текст ссылки</a>
Однако можно создавать ссылки и с помощью других элементов, в том числе:
- Onclick
- Button
- Ng-click
- Option/value
- и другими
В идеальном мире должно храниться все, что функционирует как ссылка. К сожалению, наш мир не идеален. Ни Ahrefs, ни Google не хранят ссылки всех типов, потому что загружать каждую страницу и переходить по каждой ссылке неэффективно. А это именно то, что вам придется сделать, если вы хотите найти все ссылки, которые предоставляются пользователям.
Вместо этого краулеры обычно выбирают страницы, возможно, рендерят их, а затем извлекают и записывают ссылки различных типов. Все краулеры работают по-разному, поэтому давайте поговорим о том, как это делаем мы в Ahrefs.
Ссылки, которые мы записываем
Вот типы ссылок, которые мы храним в нашем индексе.
Внешние ссылки
Ссылки с одного веб-сайта на другой, созданные с помощью классического HTML-элемента <a>
с атрибутом href.
Внутренние ссылки
Ссылки с одной страницы веб-сайта на другую страницу того же веб-сайта. В нашем индексе 22,21 трлн внутренних обратных ссылок. Это намного больше, чем количествоактивных внешних ссылок в нашей базе. Мы — единственный инструмент SEO, в котором вы можете получить доступ к этим данным без специального сканирования веб-сайта. Мы используем данные о внутренних ссылках при расчете рейтинга URL-адреса (UR), аналогично тому, как Google использует их при расчете PageRank.
Если вас интересует, когда мы в первый раз и в последний раз сканировали URL-адрес, вы можете узнать эту информацию из отчета “Лучшие по количеству ссылок” в Сайт Эксплорере. В отчете есть отдельные вкладки как для внешних, так и для внутренних ссылок.

Ссылки, которые мы частично записываем
Вот все ссылки, которые мы записываем при определенных обстоятельствах.
Ссылки, вставляемые с помощью JavaScript
Поскольку Google рендерит все страницы, они могут учитывать ссылки, которые вставляются с помощью JavaScript, но отсутствуют в HTML-коде. Масштабируемый рендеринг требует гораздо больше ресурсов, чем обычная загрузка HTML-страниц. В Ahrefs мы рендерим порядка 80 млн страниц каждый день. Вот почему мы записываем некоторые ссылки, вставленные с помощью JavaScript, но не все из них. В настоящее время мы являемся единственным инструментом SEO, который выполняет рендеринг во время обычного сканирования Интернета, поэтому у нас есть некоторые данные о ссылках, которых нет у других инструментов.
Однако мы учитываем ссылки, вставленные с помощью JavaScript, только если они выполнены в формате HTML-элемента <a>
с атрибутом href. Вы увидите эти ссылки в отчете “Бэклинки” по значку “JS”, например:

Ссылки со страниц с параметрами в URL-адресе
Параметры — это дополнения к URL-адресу, например ?tag=какойтотекст. Вы можете увидеть некоторые из этих URL-адресов в нашем индексе, но обычно использованные в них параметры отвечают за отображение разного контента. Во многих случаях страницы с параметрами отображают один и тот же контент. У нас есть много систем, которые обеспечивают консолидацию URL-адресов в канонические версии, и дополнительных предохранительных механизмов, отсекающих бесконечные пути сканирования. Другие инструменты могут не принимать таких же решений или не иметь подобных предохранительных механизмов. В результате они могут учитывать одну и ту же ссылку много раз.
Ссылки, которые мы стараемся не записывать
Вот ссылки, которые мы стараемся никогда не записывать.
Ссылки со страниц с параметрами в URL-адресе
Как упоминалось выше, есть полезные и плохие типы параметров. Мы стараемся не хранить те из них, которые дублируются.
Ссылки со страниц в бесконечных путях сканирования
Такие пути создают бесконечное количество возможных URL-адресов. Параметры — это лишь один из способов их формирования. Они также формируются через фильтры, динамический контент и неправильные относительные пути ссылок. Как упоминалось ранее, у нас есть много предохранительных механизмов для ссылок на страницах этого типа, которые помогают снизить вероятность появления таких ссылок в наших отчетах. Соблюдение каноникализации и способ приоритизации, который мы используем для сканирования страниц, — это лишь два таких предохранительных механизма. Любому индексу приходится иметь дело с этими бесконечными пространствами, но эти страницы потенциально могут раздувать количество ссылок.
Ссылки, которые мы не фиксируем
Ссылки, которые мы никогда не фиксируем.
Ссылки в PDF-файлах или других документах
Google конвертирует многие форматы документов в HTML и индексирует их, как любую другую страницу. Это означает, что они учитывают ссылки в этих документах. Я не верю, что какой-либо SEO-инструмент в настоящее время индексирует эти ссылки, но нам, вероятно, следует. Я думаю, что однажды мы будем делать это, но меня беспокоит то, что усилия и ресурсы, необходимые для этого, не окупятся. По словам аналитика Google Webmaster Trends Джона Мюллера, ссылки в PDF-файлах не имеют практического значения для поиска в Интернете.
Ссылки в элементах iframe
Тег iframe позволяет отображать одну страницу внутри другой страницы. По этой причине Ahrefs не учитывает ссылки в элементах iframe. Однако они показываются пользователям, поэтому другие инструменты могут их учитывать, даже если технически этот контент относится к другой странице. Google может учитывать или не учитывать эти ссылки.
Ссылки с неиндексированных страниц
Мы опускаем такие ссылки. Представители Google неоднозначно говорят о том, учитывают они их при подсчете ссылок или нет. Различные инструменты могут обрабатывать их по-разному.
something with noindex will never reach the serving index, but we will have the fetched copy for things like link graph calculation.
— Gary 鯨理/경리 Illyes (@methode) December 17, 2020
“Cсылка с noindex никогда не достигнет отображаемого индекса, но мы получим копию для таких вещей, как расчет графа ссылок.”
Одинаковые ссылки с нескольких IP-адресов
Интересный факт об Интернете: сайты могут отображать одну и ту же страницу с нескольких IP-адресов. В таких случаях индекс ссылок может учитывать одну и ту же ссылку несколько раз. Но не мы. Мы связываем ссылки со страницами, на которых они находятся.
Несколько ссылок, ведущих на одну и ту же страницу с одной страницы
В настоящее время мы записываем только одну версию ссылки на странице. Если вы сделаете ссылку на страницу в меню, а затем продублируете ее в основном тексте, мы засчитаем только одну из них. Мы можем изменить этот подход в будущем, чтобы предоставлять пользователям больше данных, но сейчас это работает именно так. Google учитывает все версии ссылки для передачи PageRank, но может использовать только один вариант текста анкора.
Другие элементы, связанные со ссылками, которые влияют на индекс
Понимание того, как мы подсчитываем ссылки, — это одно, но повлиять на то, что учитывается, а что нет, может множество других вещей.
Количество ссылок на странице
Не думаю, что у нас есть ограничение на количество ссылок, которые мы учитываем на странице, но у нас есть ограничение на размер страницы, что в конечном итоге может повлиять на количество ссылок, которые мы видим. Google рекомендует использовать не более нескольких тысяч ссылок на одной странице.
Редиректы и канонические теги
В Ahrefs мы доверяем всем редиректам и каноническим тегам и консолидируем ссылки, если веб-сайты просят нас об этом. Для Google это более сложно, поскольку они учитывают множество сигналов каноникализации, которые определяют, какая страница является ведущей в кластере каноникализации. Мы не усложняем, потому что невозможно узнать, как Google рассматривает каждую ситуацию, и наши пользователи были бы сбиты с толку, если бы мы каждый раз относились к каноническим тегам и редиректам по-разному.
В наших отчетах эти ссылки можно узнать по меткам “301”, “302” или “Canonical”, например:

Ссылки “301” и “Canonical” в Сайт Эксплорере Ahrefs.
В Ahrefs есть отчет Ссылающиеся домены, в котором отображаются все домены, ссылающиеся на веб-сайт или веб-страницу.

Отчет “Ссылающиеся домены” в Сайт Эксплорере Ahrefs.
Но как именно мы считаем домены?
Вам может показаться, что на этот вопрос легко ответить. Это же просто домен.com, ведь так? К сожалению, все немного сложнее, поскольку существует множество способов подсчета доменов. Один из вариантов — рассматривать каждый зарегистрированный домен как отдельный домен, и похоже, что именно так Google агрегирует их в Google Search Console. Другой — рассматривать как отдельный домен каждый поддомен. Также можно агрегировать некоторые разделы сайта, но не все (как это делает Google), пропуская каждый раздел в отдельном техническом стеке и т. д. Есть много вариантов.
В базе Ahrefs пост-проверку прошли около 175 млн доменов. Процесс проверки включает удаление спам-доменов и выделение некоторых поддоменов, для которых мы смогли определить, что разные пользователи контролируют разные области. Для этого мы используем собственный список, но есть и несколько похожий общедоступный список на сайте https://publicsuffix.org/list/.

Важно отметить, что разные определения доменов могут привести к серьезным вариациям ссылающихся доменов. Вот несколько примеров того, что другие, не Ahrefs, могут считать отдельными доменами.
- Поддомены мобильных версий (m.домен.com, mobile.домен.com и другие).
- Поддомены по странам и языкам (en.домен.com, fr.домен.com, de.домен.com, jp.домен.com и другие). В нашем индексе могут быть исключения из этого правила, например, wikipedia.org, но это не стандартная практика.
- Случайные поддомены (support.домен.com, images.домен.com и другие).
Еще одно решение, которое должны принять поставщики инструментов для работы с обратными ссылками, это то, следует ли им считать некоторые подпапки отдельными доменами. Например, я думаю, что большинство индексов ссылок будут учитывать разные блоги на известных платформах (например, user1.blogspot.com, user2.blogspot.com) как разные домены, потому что их контролируют разные пользователи. Но почему бы не применить аналогичный подход к таким сайтам, как medium.com/user1 или github.com/user1? В Ahrefs в настоящее время мы их не учитываем, но есть вероятность, что в будущем, когда мы узнаем, что разные люди будут контролировать каждую подпапку на сайте, мы применим именно такой подход.
Смысл в том, что существует множество способов подсчета доменов. Это очевидно, если посмотреть на различные результаты компаний, которые подсчитывают количество сайтов в Интернете. По данным Verisign, на третий квартал 2020 года во всех доменах высшего уровня зарегистрировано 370,7 млн доменов. По данным Netcraft, на ноябрь 2020 года зарегистрировано 1 229 948 224 сайта на 263 787 870 уникальных доменах с 193,8 млн активных сайтов. По данным Internet Live Stats, существует около 1,8 млрд веб-сайтов, из которых в настоящее время активны менее 200 миллионов. Очевидно, что у каждой компании своя методология подсчета доменов.
Напомним, что мы в Ahrefs берем все известные нам сайты и удаляем много спама и неактивных доменов, а затем добавляем некоторые из них на основе поддоменов на таких сайтах, как blogspot.com. Вот как мы приходим к общему количеству доменов около 175 млн. Другие индексы могут делать это по-другому и давать другие подсчеты.
Поскольку мы находим обратные ссылки при сканировании Интернета, мы можем делать это только на сайтах, которые разрешили сканирование. Если владелец сайта блокирует AhrefsBot в своем файле robots.txt, мы не можем сканировать их сайт. Например, если вы получаете обратную ссылку с сайта website.com, а сайт website.com блокирует AhrefsBot, мы не можем сканировать их сайт, и ваша обратная ссылка не будет отображаться в Ahrefs. Блокировка IP-адресов, блокировка пользовательских агентов на стороне сервера (отличается от robots.txt), превышение времени ожидания при обращении к серверу, механизмы защиты от ботов и многое другое также могут повлиять на нашу способность сканировать некоторые веб-сайты. Масштабируемое сканирование Интернета — непростая задача.
У нас есть несколько индексов ссылок
Каждый инструмент должен принимать решения о хранении и извлечении данных. В Ahrefs мы разбиваем наши данные на несколько индексов.
- Активные — ссылки, которые по нашим данным все еще активны в Интернете. Этот индекс наилучшим образом отражает текущее состояние Интернета, и это то, что многие из наших пользователей сочтут наиболее полезным.
- Последние — ссылки, которые были активны в Интернете по нашим данным за последние 3–4 месяца.
- Исторические — все ссылки, которые мы обнаружили за всю историю наблюдения. Это наиболее полный список, но со многими ссылками, которые больше не существуют.
Вы можете переключаться между этими индексами в наших отчетах “Бэклинки” и “Домены-доноры”.

Другие индексы могут отображать все данные, которые они когда-либо записывали, и хотя это означает, что они могут отображать множество ссылок, многие из них могут больше не существовать.
Заключение
Мы хотим, чтобы вы, наши пользователи, располагали дополнительной информацией о нашем индексе. Это поможет вам,принимать информированные решения. Мы также хотим, чтобы вы сообщили нам, если вы считаете, что нам следует что-то изменить и почему.
Если в настоящее время вы сравниваете индексы ссылок или у вас есть вопросы о наших данных, не стесняйтесь обращаться к нам с любыми вопросами или за разъяснениями.
Перевела Олеся Коробка, владелец Fajela.com