O Que é o Googlebot e Como Funciona?

O Que é o Googlebot e Como Funciona?

Patrick Stox
Patrick Stox é o Consultor de Produto, SEO técnico e Embaixador da Marca na Ahrefs. Ele é o organizador da Raleigh SEO Meetup, da Raleigh SEO Conference, da Beer & SEO Meetup, da Findability Conference e moderador no /r/TechSEO.
    O Google­bot é o ras­treador da web usa­do pelo Google para cap­tar as infor­mações necessárias e cri­ar um índice pesquisáv­el den­tro da própria web. O Google­bot tem ras­treadores para celu­lar e desk­top, bem como ras­treadores espe­cial­iza­dos para notí­cias, ima­gens e vídeos.

    Exis­tem mais ras­treadores que o Google usa para tare­fas especí­fi­cas, sendo que cada ras­treador iden­ti­fi­ca-se com uma sequên­cia de tex­to difer­ente chama­da de “agente do usuário”. O Google­bot é eter­no, o que sig­nifi­ca que obser­va sites como os usuários veri­am na ver­são do nave­g­ador Chrome mais recente.

    O Google­bot é exe­cu­ta­do através de mil­hares de máquinas. Estas máquinas deter­mi­nam a rapi­dez e o que ras­trear nos web­sites, porém acabam por desacel­er­ar o ras­trea­men­to para não os sobrecarregar.

    Vamos ver­i­ficar o proces­so dos Google­bots para con­stru­ir um índice na web.

    Como o Googlebot rastreia e indexa a web

    O Google disponi­bi­li­zou algu­mas ver­sões pas­sadas para servirem como guia. O abaixo é o mais recente.

    Ele proces­sa isso tudo de novo e procu­ra quais­quer alter­ações na pági­na ou novos links. O con­teú­do das pági­nas “ren­der­izadas” é o con­teú­do que é armazena­do e pesquisáv­el no índice do Google. Quais­quer novos links encon­tra­dos voltam à “caixa” de URLs para serem ras­trea­d­os – e assim sucessivamente.

    Temos mais detal­h­es sobre esse proces­so no nos­so arti­go sobre como fun­cionam os mecan­is­mos de bus­ca.

    Como controlar o Googlebot

    O Google dá-lhe algu­mas for­mas de con­tro­lar o que é ras­trea­do e, por sua vez, indexado.

    Maneiras de controlar o rastreamento

    • Robots.txt – Este arqui­vo pre­sente no seu web­site per­mite que você con­t­role o que é rastreado.
    • Nofol­low – Nofol­low é um atrib­u­to de link ou meta tag de robôs que sug­ere que um link não deve ser segui­do por ninguém. Isto é con­sid­er­a­do ape­nas uma dica, por­tan­to, pode ser ignorado.
    • Alter­ar a taxa de ras­trea­men­to – Esta fer­ra­men­ta alicerça­da ao Google Search Con­sole per­mite que você reduza a veloci­dade de ras­trea­men­to do Google.

    Maneiras de controlar a indexação

    • Apague o seu con­teú­do – Se você excluir uma pági­na, não haverá nada para indexar. A desvan­tagem dis­so é que mais ninguém pode aced­er à mesma.
    • Lim­ite o aces­so ao con­teú­do – O Google não faz login em web­sites, por­tan­to, qual­quer tipo de pro­teção por sen­ha ou aut­en­ti­cação impedirá que ele veja o conteúdo.
    • Noin­dex – Um chama­do “noin­dex” na meta tag de robôs infor­ma aos mecan­is­mos de pesquisa para não indexarem a sua página.
    • Fer­ra­men­ta de remoção de URLs – O nome des­ta fer­ra­men­ta do Google é um pouco duvi­doso, pois a maneira como fun­ciona é de ocul­tar tem­po­rari­a­mente o con­teú­do. O Google con­tin­uará a ver e a ras­trear esse con­teú­do, mas as pági­nas não apare­cerão nos resul­ta­dos de pesquisa.
    • Robots.txt (Só ima­gens) – Blo­quear o ras­trea­men­to da imagem do Google­bot sig­nifi­ca que as suas ima­gens jamais serão indexadas.

    Se tiv­er com dúvi­das sobre qual o con­t­role de index­ação que deve usar, con­fi­ra o nos­so flux­o­gra­ma no nos­so arti­go sobre como remover URLs da pesquisa do Google.

    Será mesmo um Googlebot?

    Muitas fer­ra­men­tas de SEO e alguns bots mali­ciosos fin­girão ser o Google­bot, pelo que isto pode per­mi­tir que eles acedam a web­sites que ten­tam bloqueá-los.

    No pas­sa­do, pre­cisa­va de exe­cu­tar uma pesquisa de DNS para ver­i­ficar o Google­bot. Mas mais recen­te­mente, o Google tornou ain­da mais fácil e acabou por fornecer uma lista de IPs públi­cos que você pode usar para ver­i­ficar se as solic­i­tações são de fac­to prove­nientes do Google. Por fim, pode com­parar isso com os dados das entradas feitas no servidor.

    Por con­se­quên­cia, tam­bém terá aces­so a um relatório de “Estatís­ti­cas de ras­trea­men­to” no Google Search Con­sole. Se você for con­sul­tar Con­fig­u­rações > Estatís­ti­cas de ras­trea­men­to, o relatório con­tém muitas infor­mações sobre como o Google está a ras­trear o seu web­site. Você pode ver, ain­da, qual o Google­bot que está a ras­trear, quais os arquiv­os em causa e quan­do os acedeu.

    Considerações finais

    A web (a inter­net) é um lugar gigan­tesco e con­fu­so. O Google­bot pre­cisa de nave­g­ar por todas as con­fig­u­rações difer­entes, para não falar dos tem­pos de ina­tivi­dade e das restrições impostas, de for­ma a recol­her os dados que pre­cisa para que o seu mecan­is­mo de pesquisa funcione.

    Um dado curioso para encer­rar este arti­go é que o Google­bot, geral­mente é descrito como um robô (e é apro­pri­ada­mente chama­do de “Google­bot”). Há tam­bém uma mas­cote em for­ma­to de aran­ha que se chama “Craw­ley”.

    Ain­da tem dúvi­das? Escre­va-me no Twit­ter.