
Por Patrick Stox
SEO técnico na Ahrefs
Existem mais rastreadores que o Google usa para tarefas específicas, sendo que cada rastreador identifica-se com uma sequência de texto diferente chamada de "agente do usuário". O Googlebot é eterno, o que significa que observa sites como os usuários veriam na versão do navegador Chrome mais recente.
O Googlebot é executado através de milhares de máquinas. Estas máquinas determinam a rapidez e o que rastrear nos websites, porém acabam por desacelerar o rastreamento para não os sobrecarregar.
Vamos verificar o processo dos Googlebots para construir um índice na web.
O Google disponibilizou algumas versões passadas para servirem como guia. O abaixo é o mais recente.

Ele processa isso tudo de novo e procura quaisquer alterações na página ou novos links. O conteúdo das páginas “renderizadas” é o conteúdo que é armazenado e pesquisável no índice do Google. Quaisquer novos links encontrados voltam à “caixa” de URLs para serem rastreados – e assim sucessivamente.
Temos mais detalhes sobre esse processo no nosso artigo sobre como funcionam os mecanismos de busca.
O Google dá-lhe algumas formas de controlar o que é rastreado e, por sua vez, indexado.
Se tiver com dúvidas sobre qual o controle de indexação que deve usar, confira o nosso fluxograma no nosso artigo sobre como remover URLs da pesquisa do Google.
Muitas ferramentas de SEO e alguns bots maliciosos fingirão ser o Googlebot, pelo que isto pode permitir que eles acedam a websites que tentam bloqueá-los.
No passado, precisava de executar uma pesquisa de DNS para verificar o Googlebot. Mas mais recentemente, o Google tornou ainda mais fácil e acabou por fornecer uma lista de IPs públicos que você pode usar para verificar se as solicitações são de facto provenientes do Google. Por fim, pode comparar isso com os dados das entradas feitas no servidor.
Por consequência, também terá acesso a um relatório de “Estatísticas de rastreamento” no Google Search Console. Se você for consultar Configurações > Estatísticas de rastreamento, o relatório contém muitas informações sobre como o Google está a rastrear o seu website. Você pode ver, ainda, qual o Googlebot que está a rastrear, quais os arquivos em causa e quando os acedeu.

A web (a internet) é um lugar gigantesco e confuso. O Googlebot precisa de navegar por todas as configurações diferentes, para não falar dos tempos de inatividade e das restrições impostas, de forma a recolher os dados que precisa para que o seu mecanismo de pesquisa funcione.
Um dado curioso para encerrar este artigo é que o Googlebot, geralmente é descrito como um robô (e é apropriadamente chamado de “Googlebot”). Há também uma mascote em formato de aranha que se chama “Crawley”.
Ainda tem dúvidas? Escreva-me no Twitter.

Patrick Stox é consultor de produtor, SEO técnico e embaixador da marca na Ahrefs. Ele foi o autor principal do capítulo de SEO do Web Almanac 2021 e revisor do capítulo de SEO 2022. Ele também foi coautor do SEO Book For Beginners da Ahrefs e foi o editor de revisão técnica do livro The Art of SEO (4ª edição). Ele é organizador do Triangle SEO Meetup, da conferência Tech SEO Connect, administra um grupo Technical SEO Slack e é moderador do /r/TechSEO no Reddit.