Estudio: ¿Está Google Sesgado Hacia Sitios Particulares de Noticias?

Patrick Stox
Patrick Stox es asesor de producto, técnico en SEO y embajador de marca Ahrefs. Organiza el Raleigh SEO Meetup, Raleigh SEO Conference, Beer & SEO Meetup, Findability Conference y modera en / r / TechSEO.
    Recientemente, el director ejecutivo de Google, Sundar Pichai, fue llamado a testificar ante el Congreso sobre posibles sesgos en los algoritmos de Google. Esta no es la primera vez que Google ha sido acusado de parcialidad y probablemente no será la última. Google alega que no hay sesgo, pero muchos Conservadores argumentan que Google está en contra de ellos.

    Con nuestro conocimiento experto en optimización de motores de búsqueda (SEO) y la enorme cantidad de datos de Ahrefs, queríamos ver si podíamos identificar algún sesgo de Google al mirar datos de sitios populares de noticias Conservadores y Liberales. Si no estás familiarizado con Ahrefs, somos una de las mejores herramientas SEO con grandes cantidades de datos sobre la web.

    Google realiza cientos de ajustes en sus algoritmos de clasificación cada año. La mayoría de estos pasan desapercibidos porque son pequeños, pero de vez en cuando, hay una gran core update que afecta a un gran porcentaje de los resultados de búsqueda. Como Google nos dice las fechas de estas actualizaciones, pensamos que podríamos buscar sesgos al estudiar el tráfico orgánico a sitios de noticias Liberales y Conservadores populares antes y después de estas actualizaciones.

    Por ejemplo, aquí está el tráfico de búsqueda orgánico estimado a Fox News desde 2015. Cada línea de puntos representa una Google Core Update:

    Sin embargo, el mirar estos datos para un sitio web no nos dice mucho, por lo que hicimos lo mismo para los principales sitios de noticias Conservadores y Liberales. Estos los extrajimos de AllSides Media Bias Ratings (clasificaciones de sesgo de izquierda y derecha). Aquí hay una lista de esos sitios web:

    Sitios de noticias Conservadores:

    • New York Post
    • The Last Refuge
    • Drudge Report
    • The Federalist
    • Orange County Register
    • The Epoch Times
    • Washington Times
    • Christian Broadcasting Network
    • National Review
    • Townhall
    • The Mark Levin Show
    • The Rush Limbaugh Show
    • Breitbart
    • Newsmax
    • The National Interest
    • The Gateway Pundit
    • RedState
    • PJ Media
    • Washington Examiner
    • Fox News
    • Christian Today
    • Zero Hedge
    • The Daily Caller
    • TheBlaze
    • The Daily Wire

    Sitios de noticias Liberales:

    • Vox
    • U.S. News & World Report
    • The Washington Post
    • CNN
    • Bustle
    • NBC News
    • Hollywood Reporter
    • Los Angeles Times
    • Yahoo News
    • Al Jazeera
    • Rolling Stone
    • HuffPost
    • The Verge
    • The New York Times
    • ABC News
    • TIME
    • CBS Local
    • The Guardian
    • Bloomberg
    • NPR
    • CBS News
    • The Atlantic
    • Politico
    • Univision

    Antes de llegar a los resultados, debería hablar un poco sobre los datos de Ahrefs. Tenemos cientos de millones de términos de búsqueda y grandes cantidades de datos de flujo de clics. Usamos estos datos para estimar el tráfico orgánico al observar todas las diferentes consultas que las personas hacen, las posiciones que ocupan los sitios web en los resultados de búsqueda y dónde hacen clic los usuarios. Para las core updates, decidimos analizar el tráfico al inicio de las mismas y el tráfico 14 días después. Esto es para darle tiempo a Google para implementar los cambios en sus diferentes centros de datos. También nos da tiempo para que nuestros datos reflejen los cambios.

    Nuestros datos están normalizados en el sentido de que los volúmenes se promedian durante 12 meses, por lo que deberían mayormente tener en cuenta la estacionalidad, siendo las elecciones una excepción, ya que no son todos los años. Tampoco veremos historias más nuevas o temas de búsqueda al principio, pero deberíamos recoger las búsquedas populares y los datos relacionados con el flujo de clics posteriormente.

    Desde 2015 hasta el presente, observamos una disminución en el tráfico promedio de los principales sitios de noticias en cada categoría durante los períodos de las Google Core Updates.

    Declive en el tráfico total Conservador: -2,65%
    Declive en el tráfico total Liberal: ‑1,78%

    Estas cifras son muy similares y no estadísticamente significativas, teniendo en cuenta que estamos considerando el tráfico de 50 sitios web y mirando a un período de 6 años. Antes de las últimas elecciones en 2016, el impacto en ambas categorías fue aproximadamente igual. Antes de las elecciones de 2020, si observas los resultados del año anterior o cercanos, verás que el impacto fue aproximadamente igual para ambas categorías, con la actualización más reciente aparentemente mejor para los sitios web Conservadores.

    Si miramos los puntos de datos individuales, los sitios de noticias Conservadores y Liberales vieron impactos positivos y negativos durante cada una de estas actualizaciones Core de Google. Cada diagrama de caja debajo representa los mejores sitios web en cada categoría, y reiteraré que cada actualización tuvo ganadores y perdedores para ambas categorías. Por lo general, el que un sitio gane o pierda en una core update está más relacionado con su calidad que con cualquier otra cosa.

    Si bien no podemos concluir a partir de estos datos que no haya sesgo en los resultados de búsqueda de Google, podemos decir que en los últimos 6 años, no vemos ningún sesgo nuevo introducido durante las Google Core Updates.

    ¿Existe un sesgo de tráfico?

    Una de las cosas que nos llamó la atención es que los sitios web Liberales definitivamente obtienen más tráfico que los sitios web Conservadores.

    Ahora la pregunta es, ¿por qué es esto? ¿Muestra esto un sesgo potencial que precede a nuestro conjunto de datos de palabras clave? Averigüemos si podemos explicar la diferencia de tráfico.

    Cantidad de contenido

    Al observar el número de páginas indexadas, las fuentes de noticias Liberales tienen más de 8 veces más páginas indexadas que las fuentes de noticias Conservadoras. De hecho, el gráfico es casi idéntico al anterior para la cuota de tráfico. Como resultado, los principales sitios de noticias Liberales generalmente tienen más oportunidades de posicionarse para cosas distintas que los principales sitios de noticias Conservadores.

    El tráfico de marca para CNN y Fox News es aproximadamente el mismo, lo que significa que un número similar de personas los busca de manera específica en la búsqueda orgánica. Sin embargo, el tráfico de marca representa un porcentaje menor del tráfico total de CNN, probablemente porque simplemente tienen más contenido. CNN tiene ~2.5 veces la cantidad de páginas indexadas que Fox News, por lo que tienen más oportunidades de posicionarse para diferentes cosas.

    Otras explicaciones para las diferencias de tráfico

    Con sólo los datos de búsqueda de Google, es difícil determinar definitivamente por qué los sitios Liberales obtienen más tráfico que los sitios Conservadores. Puede ser que los Conservadores tiendan a usar Google menos. También es posible que los Conservadores obtengan más noticias de la televisión, las aplicaciones o las redes sociales que de Google. Todo esto puede ser cierto, pero sin datos adicionales, estas afirmaciones no se pueden confirmar y son meras conjeturas.

    Más formas en las que podríamos haber buscado el sesgo

    Si hubiéramos analizado ejemplos específicos de consultas, estoy seguro de que habríamos encontrado lo que parecerían ser ejemplos de parcialidad. El problema con el uso de ejemplos individuales es que existe un sesgo inherente de la persona que realiza el análisis. Los datos son complejos y necesitarías una buena forma de determinar si los sitios y el contenido son relevantes para consultas específicas. Desafortunadamente, esto sería difícil y extremadamente subjetivo, por lo que decidimos no seguir esta ruta.

    También podríamos haber examinado datos de enlaces o enlaces de otros sitios web hacia estos sitios de noticias. Nuevamente, no tengo ninguna duda de que estos datos están sesgados, ya que los sitios web más populares y bien clasificados con más páginas tienden a obtener más enlaces de forma natural. Ya probamos esto en nuestro estudio de crecimiento de backlinks.

    Podríamos haber visto ejemplos específicos de términos de búsqueda sugeridos por Google a través de su sistema de autocompletar, pero ya sabemos que eliminan muchos términos negativos de estos resultados. Nuevamente, esto ya está sesgado, y sería difícil probar aquí cualquier parcialidad maliciosa.

    Reflexiones finales

    Hay un sesgo inherente en todo. Si bien nuestros datos muestran que las Google Core Updates no parecían sesgadas de una forma u otra en los últimos años, todavía no podemos decir con seguridad que no hay sesgo en otras partes del sistema de Google.

    ¿Tienes preguntas sobre estos datos? Házmelo saber en Twitter.

    Tra­duci­do por Prime Web Méx­i­co. Lle­ga a nuevos clientes todos los días con tu sitio web.