Impactante filtración de documentos de Google: SEOs enloquecen con suposiciones salvajes

Patrick Stox es asesor de producto, técnico en SEO y embajador de marca Ahrefs. Organiza el Raleigh SEO Meetup, Raleigh SEO Conference, Beer & SEO Meetup, Findability Conference y modera en / r / TechSEO.

Probablemente hayas oído hablar sobre la reciente filtración de documentos de Google. Está en todos los sitios importantes y en todas las redes sociales.

¿De dónde vinieron los documentos?

Mi entendimiento es que un bot llamado yoshi-code-bot filtró documentos relacionados con el Content API Warehouse en Github el 13 de marzo de 2024. Puede haber aparecido antes en otros repositorios, pero este es el que se descubrió primero.

Fueron descubiertos por un ex-Googler anónimo que compartió la información con Erfan Azimi, quien la compartió con Rand Fishkin, quien la compartió con Mike King. Los documentos fueron eliminados el 7 de mayo.

Agradezco a todos los involucrados por compartir sus hallazgos con la comunidad.

Respuesta de Google

Hubo cierto debate sobre si los documentos eran reales o no, pero mencionan muchos sistemas internos y enlazan a documentación interna, y definitivamente parecen ser reales.

Un portavoz de Google lanzó la siguiente declaración a Search Engine Land:

“Advertimos en contra de hacer suposiciones inexactas sobre la Búsqueda basadas en información descontextualizada, desactualizada o incompleta. Hemos compartido información extensa sobre cómo funciona la Búsqueda y los tipos de factores que nuestros sistemas ponderan, mientras también trabajamos para proteger la integridad de nuestros resultados contra la manipulación.”

Los SEOs interpretan las cosas basándose en sus propias experiencias y sesgos

Muchos SEOs dicen que se filtraron los factores de ranking. No he visto ningún código o ponderaciones, solo lo que parecen ser descripciones e información de almacenamiento. A menos que una de las descripciones diga que el ítem se usa para el ranking, creo que es peligroso que los SEOs asuman que todos estos se usan en el ranking.

Tener algunas características o información almacenada no significa que se utilicen en el ranking. Para nuestro motor de búsqueda Yep.com tenemos todo tipo de cosas almacenadas que podrían usarse para rastreo, indexación, ranking, personalización, pruebas o retroalimentación. Incluso tenemos cosas almacenadas con las que aún no estamos haciendo nada.

Lo más probable es que los SEOs estén haciendo suposiciones que favorecen sus propias opiniones y sesgos.

Es lo mismo para mí. Puede que no tenga el contexto completo o el conocimiento y puede que tenga sesgos inherentes que influyen en mi interpretación, pero trato de ser lo más justo posible. Si me equivoco, significa que aprenderé algo nuevo, ¡y eso es algo bueno! Los SEOs pueden y hacen interpretaciones diferentes.

Gael Breton lo dijo bien:

What I learned from the Google leaks:

Everyone sees what they want to see.

🔗 Link sellers tell you it proves links are still important.

📕 Semantic SEO people tell you it proves they were right all along.

👼 Niche sites tell you this is why they went down.

👩‍💼 Agencies tell…
— Gael Breton (@GaelBreton) May 28, 2024

He estado el tiempo suficiente para ver cómo se crean muchos mitos del SEO a lo largo de los años y puedo señalar quiénes comenzaron muchos de ellos y qué malinterpretaron. Probablemente veremos muchos mitos nuevos a partir de esta filtración con los que lidiar en la próxima década o más.

Nota del Editor

Incluso lo advirtió mi compañero Erik Sarissky en su post de LinkedIn.

Erik Sarissky

SEO/Marketing internacional

SiteAuthority

Por mucho que quiera poder decir que Google tiene una puntuación de Autoridad del Sitio que utilizan para el ranking que es como DR, esa parte específicamente trata sobre métricas de calidad comprimidas y habla sobre calidad.

Creo que DR es más un efecto que ocurre cuando tienes muchas páginas con PageRank fuerte, no que necesariamente sea algo que Google use. Muchas páginas con PageRank más alto que se enlazan internamente entre sí significan que es más probable que crees páginas más fuertes.

¿Creo que PageRank podría ser parte de lo que Google llama calidad? Sí.
¿Creo que eso es todo? No.
¿Podría la Autoridad del Sitio ser algo similar a DR? Tal vez. Encaja en el panorama general.
¿Puedo probar eso o incluso que se usa en los rankings? No, no con esto.

En parte del testimonio de Google ante el Departamento de Justicia de EE. UU. descubrimos que la calidad a menudo se mide con una puntuación de Satisfacción de la Información (IS) de los evaluadores. Esto no se usa directamente en los rankings, sino para retroalimentación, pruebas y ajuste de modelos.
Sabemos que los evaluadores de calidad tienen el concepto de E-E-A-T, pero de nuevo, eso no es exactamente lo que Google usa. Utilizan señales que se alinean con E-E-A-T.
Algunas de las señales de E-E-A-T que Google ha mencionado son:

PageRank

Menciones en sitios autorizados

Consultas del sitio. Esto podría ser “site:http://ahrefs.com E-E-A-T” o búsquedas como “ahrefs E-E-A-T“

Entonces, ¿podrían algunos tipos de puntuaciones de PageRank extrapoladas al nivel del dominio y llamadas Autoridad del Sitio ser utilizadas por Google y formar parte de lo que compone las señales de calidad? Diría que es plausible, pero esta filtración no lo prueba.

Puedo recordar 3 patentes de Google que he visto sobre puntuaciones de calidad. Una de ellas se alinea con las señales anteriores para consultas del sitio.

Debo señalar que el hecho de que algo esté patentado no significa que se utilice. La patente sobre consultas del sitio fue escrita en parte por Navneet Panda. ¿Quieres adivinar para quién se nombró el algoritmo Panda relacionado con la calidad? Diría que hay una buena posibilidad de que esto se esté utilizando.

Las otras estaban relacionadas con el uso de n-gramas y parecían ser para calcular una puntuación de calidad para un sitio web nuevo y otra mencionaba el tiempo en el sitio.

Sandbox

Creo que esto también se ha malinterpretado. El documento tiene un campo llamado hostAge y se refiere a una sandbox, pero específicamente dice que se usa “para aislar spam reciente en el tiempo de servicio.“

Para mí, eso no confirma la existencia de una sandbox en la forma en que los SEOs la ven, donde los sitios nuevos no pueden posicionarse. Para mí, esto se lee como una medida de protección contra el spam.

Clics

¿Se usan los clics en los rankings? Bueno, sí y no.

Sabemos que Google usa los clics para cosas como personalización, eventos oportunos, pruebas, retroalimentación, etc. Sabemos que tienen modelos sobre modelos entrenados con los datos de clics, incluido navBoost. Pero, ¿eso está accediendo directamente a los datos de clics y se usa en los rankings? Nada de lo que vi lo confirma.

El problema es que los SEOs interpretan esto como que el CTR es un factor de ranking. Navboost está hecho para predecir qué páginas y características se harán clic. También se usa para reducir el número de resultados devueltos, como aprendimos en el juicio del DOJ.

Hasta donde sé, no hay nada que confirme que tenga en cuenta los datos de clics de páginas individuales para reordenar los resultados o que si consigues que más personas hagan clic en tus resultados individuales, tus rankings subirán.

Eso debería ser fácil de probar si fuera el caso. Se ha intentado muchas veces. Lo intenté hace años usando la red Tor. Mi amigo Russ Jones (que en paz descanse) intentó usando proxies residenciales.

Nunca he visto una versión exitosa de esto y la gente ha estado comprando e intercambiando clics en varios sitios durante años. No estoy tratando de desanimarte ni nada. Pruébalo tú mismo y si funciona, publica el estudio.

Las pruebas de Rand Fishkin de buscar y hacer clic en un resultado en conferencias hace años mostraron que Google usaba datos de clics para eventos de tendencia y que aumentarían el resultado que se estaba haciendo clic. Después de los experimentos, los resultados volvieron a la normalidad. No es lo mismo que usarlos para los rankings normales.

Autores

Sabemos que Google coincide a los autores con entidades en el grafo de conocimiento y que los usan en Google News.

Parece haber una cantidad decente de información de autores en estos documentos, pero nada sobre ellos confirma que se usen en los rankings, como algunos SEOs están especulando.

¿Nos estaba mintiendo Google?

Con lo que no estoy de acuerdo en absoluto es con los SEOs que están enojados con los Defensores de Búsqueda de Google y los llaman mentirosos. Son personas amables que solo están haciendo su trabajo.

Si nos dijeron algo incorrecto, probablemente sea porque no saben, fueron mal informados o se les ha instruido para ofuscar algo para prevenir abusos. No merecen el odio que la comunidad SEO les está dando en este momento. Tenemos suerte de que compartan información con nosotros en absoluto.

Si crees que algo que dijeron está mal, ve y haz una prueba para probarlo. O si hay una prueba que quieres que haga, házmelo saber. Solo ser mencionado en los documentos no es prueba de que algo se usa en los rankings.

Reflexiones finales

Si bien puedo estar de acuerdo o en desacuerdo con las interpretaciones de otros SEOs, respeto a todos los que están dispuestos a compartir su análisis. No es fácil exponerse uno mismo o sus pensamientos al escrutinio público.

También quiero reiterar que, a menos que estos campos digan específicamente que se usan en los rankings, la información podría usarse fácilmente para otra cosa. Definitivamente no necesitamos más publicaciones sobre los 14000 factores de ranking de Google.

Si quieres mis pensamientos sobre algo en particular, envíame un mensaje en X o LinkedIn.