O Que É o Orçamento de Rastreio e os SEOs Devem Preocupar-se com Isso?

Patrick Stox
Patrick Stox é o Consultor de Produto, SEO técnico e Embaixador da Marca na Ahrefs. Ele é o organizador da Raleigh SEO Meetup, da Raleigh SEO Conference, da Beer & SEO Meetup, da Findability Conference e moderador no /r/TechSEO.
    O orça­men­to de ras­treio é a veloci­dade e a quan­ti­dade de pági­nas que um motor de pesquisa ten­ciona ras­trear no seu web­site. Este é afe­ta­do pela quan­ti­dade de recur­sos que um ras­treador ambi­ciona usar no seu web­site e pela quan­ti­dade de ras­treios que o seu servi­dor suporta.

    Mais ras­treio não sig­nifi­ca que terá uma posição mel­hor, mas se as suas pági­nas não forem ras­treadas e index­adas, elas não terão posi­ciona­men­to algum.

    A maio­r­ia dos web­sites não pre­cisa de se pre­ocu­par com o orça­men­to de ras­treio, mas há alguns casos em que pode quer­er dar uma vista de olhos. Vejamos alguns dess­es casos.

    Nor­mal­mente, não pre­cisa de se pre­ocu­par com o orça­men­to de ras­treio em pági­nas pop­u­lares. Geral­mente são pági­nas mais recentes, que não estão bem vin­cu­ladas ou não mudam muito, que não são ras­treadas com frequência.

    O orça­men­to de ras­treio pode ser uma pre­ocu­pação para web­sites mais novos, espe­cial­mente aque­les com muitas pági­nas. O seu servi­dor pode supor­tar mais ras­treio, mas como o seu web­site é novo e provavel­mente ain­da não é muito pop­u­lar, um motor de pesquisa pode não quer­er ras­treá-lo muito. Isto é prin­ci­pal­mente uma desconexão de expec­ta­ti­vas. Dese­ja que as suas pági­nas sejam ras­treadas e index­adas, mas o Google não sabe se vale a pena indexá-las e pode não quer­er ras­trear a quan­ti­dade de pági­nas que deseja.

    O orça­men­to de ras­treio tam­bém pode ser uma pre­ocu­pação para web­sites maiores, com mil­hões de pági­nas ou web­sites que são atu­al­iza­dos com fre­quên­cia. Em ger­al, se tem muitas pági­nas que não são ras­treadas ou atu­al­izadas com a fre­quên­cia que gostaria, con­vém acel­er­ar o ras­treio. Falare­mos sobre como faz­er isso mais à frente neste artigo.

    Se dese­ja ter uma visão ger­al da ativi­dade de ras­treio do Google e quais­quer prob­le­mas iden­ti­fi­ca­dos, o mel­hor lugar para procu­rar é o relatório de estatís­ti­cas de ras­treio no Google Search Console.

    Exis­tem vários relatórios para ajudá-lo a iden­ti­ficar mudanças no com­por­ta­men­to de ras­treio, prob­le­mas com ras­treio e fornecer mais infor­mações sobre como o Google está a ras­trear o seu website.

    Defin­i­ti­va­mente, ten­ciona ver­i­ficar os esta­dos de ras­treio sinal­iza­dos, como os mostra­dos aqui:

    Tam­bém há carim­bos de data/hora de quan­do as pági­nas foram ras­treadas pela últi­ma vez.

    Se quis­er ver hits de todos os bots e uti­lizadores, pre­cis­ará de aced­er aos seus arquiv­os de reg­is­to. Depen­den­do da hospedagem e con­fig­u­ração, pode ter aces­so a fer­ra­men­tas como Awstats e Webal­iz­er como pode ser vis­to aqui num alo­ja­men­to par­til­ha­do com cPan­el. Estas fer­ra­men­tas mostram alguns dados agre­ga­dos dos seus arquiv­os de log.

    Para con­fig­u­rações mais com­plexas, terá que obter aces­so e armazenar dados dos arquiv­os de log bru­tos, pos­sivel­mente de várias fontes. Tam­bém pode pre­cis­ar de fer­ra­men­tas espe­cial­izadas para pro­je­tos maiores, como uma pil­ha ELK (elas­tic­search, logstash, kibana) que per­mite o armazena­men­to, proces­sa­men­to e visu­al­iza­ção de arquiv­os de log. Exis­tem tam­bém fer­ra­men­tas de análise de reg­is­to, como o Splunk.

    Todos os URLs e solic­i­tações con­tam para o seu orça­men­to de ras­treio. Isto inclui URLs alter­na­tivos, como pági­nas AMP ou m‑dot, hre­flang, CSS e JavaScript, incluin­do solic­i­tações XHR.

    Estes URLs podem ser encon­tra­dos ras­tre­an­do e anal­isan­do pági­nas ou numa var­iedade de out­ras fontes, incluin­do mapas de web­sites, feeds RSS, envio de URLs para index­ação no Google Search Con­sole ou usan­do a API de index­ação.

    Exis­tem tam­bém vários Google­bots que par­til­ham o orça­men­to de ras­treio. Pode encon­trar uma lista dos vários Google­bots que ras­treiam o seu web­site, no relatório de estatís­ti­cas de ras­treio no GSC.

    Cada web­site terá um orça­men­to de ras­treio difer­ente, com­pos­to por algu­mas entradas diferentes.

    Procura de rastreio

    A procu­ra de ras­treio é sim­ples­mente quan­to o Google dese­ja ras­trear o seu web­site. Pági­nas mais pop­u­lares e pági­nas que apre­sen­tam mudanças sig­ni­fica­ti­vas serão mais rastreadas. 

    As pági­nas pop­u­lares, ou aque­las com mais lig­ações, geral­mente terão pri­or­i­dade sobre as out­ras pági­nas. Lem­bre-se de que o Google deve pri­orizar as suas pági­nas para ras­treio de algu­ma for­ma, e as lig­ações são uma maneira fácil de deter­mi­nar quais as pági­nas mais pop­u­lares do seu web­site. Não se tra­ta ape­nas do seu web­site, mas de todas as pági­nas de todos os web­sites da Inter­net que o Google pre­cisa de definir como priv­i­le­giar.

    Pode usar o relatório Mel­hor por lig­ações no Explo­rador de Web­sites como uma indi­cação de quais as pági­nas que provavel­mente serão ras­treadas com maior fre­quên­cia. Tam­bém mostra quan­do a Ahrefs ras­tre­ou as suas pági­nas pela últi­ma vez.

    Tam­bém existe um con­ceito de desat­u­al­iza­ção. Se o Google perce­ber que uma pági­na não está a mudar, será ras­trea­da com menos fre­quên­cia. Por exem­p­lo, se ras­trearem uma pági­na e não virem alter­ações após um dia, podem esper­ar três dias antes de ras­trear nova­mente, dez dias na próx­i­ma vez, 30 dias, 100 dias, etc. Não há um perío­do real definido para esper­ar entre os ras­treios, mas tornar-se‑á menos fre­quente com o tem­po. No entan­to, se o Google perce­ber grandes mudanças no web­site como um todo ou uma mudança de web­site, nor­mal­mente aumen­tarão a taxa de ras­treio, pelo menos, temporariamente.

    Limite de taxa de rastreio

    O lim­ite da taxa de ras­treio é a quan­ti­dade de ras­treios que o seu web­site pode supor­tar. Os web­sites têm uma cer­ta quan­ti­dade de ras­treios que podem ser real­iza­dos antes de terem prob­le­mas com a esta­bil­i­dade do servi­dor, como lentidão ou erros. A maio­r­ia dos ras­treadores desi­s­tirá do ras­treio se começarem a iden­ti­ficar ess­es prob­le­mas, para que não prej­udiquem o website.

    O Google fará os ajustes com base na inte­gri­dade de ras­treio do web­site. Se o web­site estiv­er bem com mais ras­treio, o lim­ite aumen­tará. Se o web­site estiv­er com prob­le­mas, o Google diminuirá a taxa de rastreio.

    Exis­tem algu­mas coisas que pode faz­er para garan­tir que o seu web­site ofer­eça suporte a ras­treio adi­cional e aumente a procu­ra de ras­treio do seu web­site. Vejamos algu­mas dessas opções.

    Acelere o seu servidor/aumente os recursos

    A for­ma como o Google ras­treia as pági­nas é basi­ca­mente faz­er o down­load de recur­sos e, em segui­da, processá-los. A veloci­dade da sua pági­na, con­forme o uti­lizador percebe, não é a mes­ma. O que afe­tará o orça­men­to de ras­treio é a rapi­dez com que o Google se pode lig­ar e faz­er down­load de recur­sos que têm mais a ver com o servi­dor e os recursos.

    Mais ligações, externas e internas

    Lem­bre-se de que a procu­ra de ras­treio geral­mente é basea­da em pop­u­lar­i­dade ou lig­ações. Pode aumen­tar o seu orça­men­to aumen­tan­do a quan­ti­dade de lig­ações exter­nas e/ou lig­ações inter­nas. As lig­ações inter­nas são mais fáceis porque con­tro­la o web­site. Pode encon­trar lig­ações inter­nas sug­eri­das no relatório Opor­tu­nidades de lig­ações na Audi­to­ria de web­sites, que tam­bém inclui um tuto­r­i­al que expli­ca como funciona.

    Corrigir ligações quebradas e redirecionadas

    Man­ter ati­vas lig­ações para pági­na que­bradas ou redi­re­cionadas no seu web­site terá um pequeno impacto no orça­men­to de ras­treio. Nor­mal­mente, as pági­nas lig­adas aqui terão uma pri­or­i­dade rel­a­ti­va­mente baixa porque provavel­mente não mudam há algum tem­po, mas a limpeza de quais­quer prob­le­mas é bom para a manutenção do web­site em ger­al e aju­dará um pouco no orça­men­to de rastreio.

    Pode encon­trar links cor­rompi­dos (4xx) e redi­re­ciona­dos (3xx) no seu web­site facil­mente no relatório de pági­nas inter­nas na Audi­to­ria de websites.

    Para lig­ações que­bradas ou redi­re­cionadas no sitemap, ver­i­fique o relatório Todos os prob­le­mas para prob­le­mas de “redi­re­ciona­men­to 3XX no sitemap” e “pági­na 4XX no sitemap”.

    Use GET em vez de POST onde puder

    Este é um pouco mais téc­ni­co, pois envolve méto­dos de pedi­do HTTP. Não use pedi­dos POST onde as solic­i­tações GET fun­cionam. É basi­ca­mente GET (puxar) vs POST (empurrar). Os pedi­dos POST não são armazena­dos em cache, de modo que afe­tam o orça­men­to de ras­treio, mas os pedi­dos GET podem ser armazena­dos em cache.

    Use a API de Indexação

    Se pre­cisa que as pági­nas sejam ras­treadas mais rap­i­da­mente, ver­i­fique se está qual­i­fi­ca­do para a API de index­ação do Google. Atual­mente, isto está disponív­el ape­nas para alguns casos de uti­liza­ção, como anún­cios de emprego ou vídeos ao vivo.

    O Bing tam­bém pos­sui uma API de index­ação que está disponív­el para todos.

    O que não vai funcionar

    Exis­tem algu­mas coisas que as pes­soas às vezes ten­tam e que real­mente não aju­dam com o seu orça­men­to de rastreio.

    • Peque­nas mudanças no web­site. Faz­er peque­nas alter­ações nas pági­nas, como atu­alizar datas, espaços ou pon­tu­ação na esper­ança de que as pági­nas sejam ras­treadas com mais fre­quên­cia. O Google é muito bom em deter­mi­nar se as mudanças são sig­ni­fica­ti­vas ou não, por­tan­to, essas peque­nas mudanças provavel­mente não terão impacto no rastreio.
    • Dire­ti­va de atra­so de ras­trea­men­to em robots.txt. Esta dire­ti­va tornará muitos bots mais lentos. No entan­to, o Google­bot não o usa, por isso não terá impacto. Respeita­mos isso na Ahrefs, por­tan­to, se pre­cis­ar de desacel­er­ar o nos­so ras­treio, pode adi­cionar um atra­so de ras­treio no seu arqui­vo robots.txt.
    • Remover scripts de ter­ceiros. Scripts de ter­ceiros não con­tam no seu orça­men­to de ras­treio, por­tan­to, removê-los não ajudará.
    • Não siga. Ok, isto é duvi­doso. No pas­sa­do, as lig­ações nofol­low não teri­am usa­do o orça­men­to de ras­treio. No entan­to, nofol­low ago­ra é trata­do como uma dica para que o Google pos­sa optar por ras­trear essas ligações.

    Exis­tem ape­nas algu­mas boas maneiras de tornar o ras­treio do Google mais lento. Exis­tem alguns out­ros ajustes que pode­ria faz­er tec­ni­ca­mente, como desacel­er­ar o seu web­site, mas não são méto­dos que eu recomendaria.

    Ajuste lento, mas garantido

    O prin­ci­pal con­tro­lo que o Google nos dá para ras­trear mais lenta­mente é um lim­i­ta­dor de taxa no Google Search Con­sole. Pode diminuir a taxa de ras­treio com a fer­ra­men­ta, mas pode levar até dois dias para entrar em vigor.

    Ajuste rápido, mas com riscos

    Se pre­cis­ar de uma solução mais ime­di­a­ta, pode aproveitar os ajustes de taxa de ras­treio do Google rela­ciona­dos com a inte­gri­dade do seu web­site. Se lig­ar ao Google­bot códi­gos de sta­tus ‘503 Serviço indisponív­el’ ou ‘429 Muitos pedi­dos’ nas pági­nas, estes começarão a ras­trear mais lenta­mente ou poderão inter­romper o ras­treio tem­po­rari­a­mente. Não vai quer­er faz­er isto por mais de alguns dias, ou eles podem começar a remover pági­nas do índice.

    Pensamentos finais

    Mais uma vez, quero reit­er­ar que o orça­men­to de ras­treio não é algo com que a maio­r­ia das pes­soas se pre­ocupe. Se tiv­er dúvi­das, espero que este guia ten­ha sido útil.

    Nor­mal­mente, só anal­iso isto quan­do há prob­le­mas com as pági­nas que não estão a ser ras­treadas e index­adas, pre­ciso explicar porque alguém não se deve pre­ocu­par com isso ou quan­do vejo algo que me pre­ocu­pa no relatório de estatís­ti­cas de ras­treio no Google Search Console.

    Tem per­gun­tas? Diga-me no Twit­ter.