Свежее исследование: действительно ли Google предвзят по отношению к определенным новостным сайтам?

Patrick Stox
Патрик Стокс — консультант по продукту, технический SEO-специалист и амбассадор бренда в Ahrefs. Он является организатором Raleigh SEO Meetup, конференции Raleigh SEO, Beer & SEO Meetup, конференции Findability и модератором /r/TechSEO.
Article stats
  • Linking websites 3
Data from Content Explorer

Shows how many different websites are linking to this piece of content. As a general rule, the more websites link to you, the higher you rank in Google.

Shows estimated monthly search traffic to this article according to Ahrefs data. The actual search traffic (as reported in Google Analytics) is usually 3-5 times bigger.

The number of times this article was shared on Twitter.

    Недавно генерального директора Google Сундара Пичаи вызывали в Конгресс для показаний по поводу предполагаемой пристрастности алгоритмов Google. Это не первый и, скорее всего, далеко не последний раз, когда Google обвиняют в ангажированности. Google заявляет о своей беспристрастности, и тем не менее, многие консерваторы утверждают, что Google необъективен по отношению к ним. 

    Обладая экспертными знаниями в области поисковой оптимизации (SEO) и огромным массивом данных Ahrefs, мы решили посмотреть, сможем ли мы обнаружить какие-либо признаки необъективности Google путем анализа данных о популярных консервативных и либеральных новостных сайтах. Если вы не слышали об Ahrefs, то это один из лучших инструментов для SEO со значительной базой данных о сети.

    За год Google вносит сотни поправок в свои алгоритмы ранжирования. Большинство из них мелкие и проходят незамеченными, но иногда делаются крупные обновления («обновления ядра»), которые оказывают влияние на значительный процент результатов поиска. Поскольку Google сообщает о датах таких обновлений, мы можем поискать признаки пристрастности, анализируя естественный трафик к известным либеральным и консервативным новостным сайтам до и после обновлений.

    Например, на графике ниже показан естественный поисковый трафик к сайту Fox News с 2015 года. Каждая вертикальная линия соответствует обновлению ядра Google:

    Но данных одного сайта недостаточно для анализа, поэтому мы сделали то же самое и для других самых популярных новостных сайтов. Их список мы взяли из Рейтинга предвзятости СМИ от AllSides. Вот сам список:

    Консервативные новостные сайты:

    • New York Post
    • The Last Refuge
    • Drudge Report
    • The Federalist
    • Orange County Register
    • The Epoch Times
    • Washington Times
    • Christian Broadcasting Network
    • National Review
    • Townhall
    • The Mark Levin Show
    • The Rush Limbaugh Show
    • Breitbart
    • Newsmax
    • The National Interest
    • The Gateway Pundit
    • RedState
    • PJ Media
    • Washington Examiner
    • Fox News
    • Christian Today
    • Zero Hedge
    • The Daily Caller
    • TheBlaze
    • The Daily Wire

    Либеральные новостные сайты:

    • Vox
    • U.S. News & World Report
    • The Washington Post
    • CNN
    • Bustle
    • NBC News
    • Hollywood Reporter
    • Los Angeles Times
    • Yahoo News
    • Al Jazeera
    • Rolling Stone
    • HuffPost
    • The Verge
    • The New York Times
    • ABC News
    • TIME
    • CBS Local
    • The Guardian
    • Bloomberg
    • NPR
    • CBS News
    • The Atlantic
    • Politico
    • Univision

    Прежде чем мы перейдем к результатам, нужно сказать кое-что о данных Ahrefs. В нашей базе хранятся сотни миллионов поисковых запросов и огромное количество данных о переходах. Мы используем эти данные для оценки естественного трафика, анализируя запросы, которые делают люди, позиции, которые сайты занимают в результатах поиска, и то, по каким ссылкам из поисковой выдачи переходят пользователи. Что касается обновлений ядра, мы решили сравнивать трафик в начале обновления ядра Google с трафиком спустя 14 дней. Такой период объясняется тем, что Google нужно некоторое время, чтобы установить обновление во всех своих центрах обработки данных. Кроме того, нашим данным также требуется время, чтобы отразить изменения.

    Наши данные нормализованы в том смысле, что взяты средние значения трафика за каждый из 12 месяцев, поэтому на них должны влиять в основном сезонные колебания, с исключением в виде выборов, поскольку выборы проводятся не каждый год. Мы также не собираемся анализировать появление в выдаче новых материалов или поисковых запросов, но позже планируем собрать все популярные поисковые запросы и соответствующие им данные о переходах.

    Мы видим, что с 2015 года средние значения трафика для самых популярных новостных сайтов в обеих категориях демонстрировали снижение в период обновлений ядра Google.

    Снижение общего трафика к консервативным сайтам: -2,65%
    Снижение общего трафика к либеральным сайтам: ‑1,78%

    С учетом того, что наше исследование охватывает 50 сайтов и период в 6 лет, эти цифры очень близки и не имеют статистической значимости. Перед предыдущими выборами 2016 года влияние на обе категории сайтов было примерно одинаковым. Перед выборами 2020 года, в сравнении с прошлогодними результатами, влияние обновлений было примерно одинаковым для обеих категорий, а последнее обновление оказалось даже более благоприятным для консервативных сайтов.

    Если посмотреть на данные по отдельным сайтам, то видно, что и консервативные, и либеральные новостные сайты показывают как положительные, так и отрицательные реакции во время каждого из обновлений ядра. Каждая блочная диаграмма на приведенном ниже графике представляет самые популярные сайты в каждой категории, и снова мы видим, что в обеих категориях и в каждом обновлении были те, кому обновление пошло на пользу, и те, кому оно повредило. Как правило, прирост или падение трафика после обновления ядра сильнее всего зависит от качества конкретного сайта, чем от чего-либо еще.

    Хотя на основании этих данных сделать вывод об отсутствии предвзятости в результатах поиска Google нельзя, по крайней мере можно утверждать, что за последние 6 лет во время обновлений ядра Google не было добавлено никаких новых факторов предвзятости.

    Существует ли перевес в трафике?

    Одним из открытий нашего исследования стало то, что либеральные сайты получают заметно больше трафика, чем консервативные.

    В чем же причина этого? Показывает ли это возможный перекос в нашем наборе ключевых фраз? Давайте посмотрим, удастся ли объяснить разницу в трафике.

    Количество контента

    Если посмотреть на количество проиндексированных страниц, то у либеральных источников новостей их в восемь с лишком раз больше, чем у консервативных. На самом деле, распределение почти совпадает с приведенным выше распределением долей трафика. В итоге ведущие либеральные новостные сайты обычно имеют больше шансов попасть в топ выдачи, чем консервативные.

    Брендированный и небрендированный трафик

    Брендированный трафик у CNN и Fox News на одном уровне, а это значит, что примерно одинаковое число людей ищет в Google конкретно эти издания. Однако в случае CNN брендированный трафик составляет меньшую часть общего трафика, скорее всего, потому, что у CNN попросту больше контента. У сайта CNN примерно в 2,5 раза больше проиндексированных страниц, чем у Fox News, поэтому у него больше возможностей попасть в топ выдачи по различным запросам.

    image7 2

    Около 40% трафика CNN — брендированный, примерно 32,5 млн естественных посещений в месяц.

    image8 2

    Около 67% трафика Fox News — брендированный, примерно 33 млн естественных посещений в месяц.

    Прочие объяснения разницы в трафике

    На основе одних только данных Google сложно с уверенностью сказать, почему либеральные сайты получают больше трафика, чем консервативные. Может быть, консерваторы менее активно пользуются поиском Google. Также может быть, что консерваторы в целом более склонны получать новости по телевизору, через мобильные приложения или соцсети, чем через Google. Все эти утверждения могут оказаться верными, но без дополнительных данных не могут быть подтверждены и остаются всего лишь гипотезами.

    Другие возможные подходы к поиску предвзятости

    Если бы мы посмотрели на конкретные примеры запросов, то почти наверняка нашли бы то, что можно считать примерами предвзятости. Проблема с использованием отдельных примеров заключается в том, что человек, который проводит анализ, сам не может быть свободен от предубеждений. Эти данные сложны, и понадобится хороший способ определить, соответствуют ли сайты и их контент конкретным запросам. К сожалению, этот метод сложен и крайне субъективен, поэтому мы решили его не применять.

    Также можно было бы просмотреть данные о ссылках с других сайтов на эти новостные сайты. Опять же, эти данные наверняка будут необъективны, поскольку более популярные сайты, имеющие большее количество страниц и более высокие позиции в выдаче, будут естественным образом получать больше ссылок. Мы уже доказали это в своем исследовании увеличения числа обратных ссылок.

    Мы могли бы рассмотреть конкретные примеры поисковых фраз, которые Google предлагает в своей системе автодополнения, но мы и так знаем, что Google удаляет из этих результатов многие термины, имеющие негативный оттенок. Трудно будет доказать, что в этой системе содержатся какие-то проявления политической ангажированности.

    Напоследок

    Предвзятость свойственна всему и всем. Хотя наши данные показывают, что обновления ядра Google за последние несколько лет не выглядели необъективными в том или ином направлении, мы все равно не можем уверенно заявить, что система Google полностью свободна от предвзятости.

    Есть вопросы о наших данных? Свяжитесь со мной в Twitter.

    Перевела Кирик Наталья, владелец контент агентства WordFactory.ua

    • Linking websites 3
    Data from Content Explorer