10 Metodi per Indicizzare il tuo sito su Google (Che Funzionano Veramente)

10 Metodi per Indicizzare il tuo sito su Google (Che Funzionano Veramente)

Avatar
Head of Content @ Ahrefs (o, in parole povere, sono la persona che fa sì che ogni articolo pubblicato sul nostro blog sia EPICO).
Se Google non indicizza il tuo sito, sei praticamente invisibile. Non apparirai su alcun termine di ricerca e non otterrai alcun tipo di traffico organico. Zilch. Nada. Zero.

Dato che sei qui, immagino che quello che dico non sia una novità per te. Quindi, direi di darci subito da fare.

Questo articolo ti insegna come risolvere questi tre problemi:

  1. Il tuo sito intero non viene indicizzato
  2. Alcune delle tue pagine sono indicizzati, ma altre non lo sono.
  3. Le tue pagine pubblicate di recente non vengono indicizzate abbastanza velocemente.

Ma prima, assicuriamoci di essere sulla stessa onda e di capire pienamente il gergo dell’indicizzazione.

Google scopre nuove pagine web tramite crawling (scansione) del web, per poi aggiungere queste pagine al proprio indice. Fa questo utilizzando un web spider che si chiama Googlebot.

Sei confuso? Lasciami definire alcuni termini chiave.

  • Crawling (scansione): Il processo di seguire hyperlinks sul web per scoprire nuovi contenuti.
  • Indexing (indicizzazione): Il processo di salvare ogni pagina web in un ampio database.
  • Web spider: Un software disegnato per svolgere il processo di crawling su ampia scala.
  • Googlebot: Il web spider di Google.

Questo è un video di Google che spiega il processo in maggiore dettaglio:

Quando cerchi qualcosa su Google, stai chiedendo a Google di restituire tutte le pagine rilevanti del suo indice. Siccome ci sono spesso milioni di pagine rilevanti, l’algoritmo di ranking (posizionamento) di Google fa del suo meglio per ordinare la posizione delle pagine in modo che tu veda per primi i risultati più rilevanti.

Il punto che sto sottolineando è che indicizzazione e posizionamento sono due cose separate.

L’indicizzazione è presentarsi alla gara; il posizionamento è vincerla.

Non puoi vincere se non ti presenti alla linea di partenza.

Vai su Google e cerca per site:iltuosito.com

site search indexing

Questo numero mostra all’incirca quante pagine Google ha indicizzato.

Se vuoi verificare lo stato dell’indicizzazione per uno URL specifico, fai la stessa cosa con l’ operatore site:iltuosito.com/slug-della-tua-pagina-web.

google site search web page

Se la tua pagina non è indicizzata non vedrai alcun risultato.

A questo punto è utile sottolineare come se sei un utente di Google Search Console, puoi utilizzare il rapporto sulla Copertura per ottenere informazioni più accurate sullo stato di indicizzazione del tuo sito. Vai su:

Google Search Console > Indice > Copertura

google search console valid pages

Guarda il numero di pagine valide (con e senza avvisi).

Se questi due numeri sono qualsiasi cosa che non sia zero, allora Google ha almeno qualche pagina del tuo sito indicizzate. In caso contrario, hai un serio problema perché nessuna pagina del tuo sito è indicizzata.

Nota a margine.
 Non sei un utente Google Search Console? Iscriviti. È gratis. Quindi abbia un sito web e dia importanza a ricevere traffico da Google dovrebbe utilizzare Google Search Console. È davvero importante. 

Puoi anche utilizzare Search Console per verificare se una pagina specifica sia indicizzata. Per farlo, incolla l’URL nello Strumento Controllo URL.

Se la pagina è indicizzata, lo strumento dirà “L’URL si trova su Google.”

url is on google search console

Se la pagina non è indicizzata, vedrai invece “L’URL non si trova su Google.”

page is not on google search console

Hai scoperto che il tuo sito o pagina web non è indicizzato da Google? Prova questo:

  1. Accedi alla Google Search Console
  2. Naviga fino allo strumento controllo URL
  3. Incolla l’URL che vorresti che Google indicizzasse nella barra di ricerca.
  4. Attendi che Google abbia verificato l’URL
  5. Clicca sul pulsante “Richiedi indicizzazione”

Questo processo è una buona pratica quando pubblichi un nuovo post o pagina. Stai effettivamente dicendo a Google che hai aggiunto qualcosa di nuovo al tuo sito e che vorresti che le desse un’occhiata.

Tuttavia, richiedere l’indicizzazione non risolverà problemi che non permettono a Google di indicizzare pagine vecchie. Se questo è il caso, segui la lista di controllo qui sotto per diagnosticare e fissare il problema.

Qui trovi alcuni link rapidi per ciascuna tattica–qualora ne avessi già provati alcuni:

  1. Rimuovi blocchi al crawling nel tuo file robots.txt
  2. Rimuovi tag noindex dannose
  3. Includi la pagina nella tua sitemap
  4. Rimuovi tag canonici dannosi
  5. Controlla che la pagina non sia orfana
  6. Risolvi link interni nofollow
  7. Aggiungi link interni “potenti”
  8. Assicurati che la pagina abbia valore e sia unica
  9. Rimuovi pagine a bassa qualità (per ottimizzare il “crawl budget”)
  10. Costruisci backlink ad alta qualità

 

1) Rimuovi blocchi al crawling nel tuo file robots.txt

Google non sta indicizzando l’intero sito? Potrebbe essere dovuto ad un blocco di crawling in quello che viene chiamato file robots.txt.

Per verificare questo problema naviga su iltuodominio.com/robots.txt.

Cerca se hai uno di questi due snippet di codice:

User-agent: Googlebot
Disallow: / 
User-agent: *
Disallow: / 

Entrambi questi esempi dicono al Googlebot che non è autorizzato a fare crawling su alcuna pagina del tuo sito. Per risolvere, devi rimuovere questi snippet. È davvero così facile.

Un blocco al crawling nel robots.txt potrebbe anche essere la causa qualora Google non stesse indicizzando una singola pagina web. Per verificare se è questo il caso, incolla l’URL nello strumento di controllo URL nella Google Search Console.

Clicca sul blocco di Copertura per visualizzare ulteriori dettaglio, quindi cerca se è presente l’errore “Scansione consentita? No: bloccato da robots.txt”

Questo indica che la pagina è bloccata nel robots.txt.

Se questo è il caso, controlla nuovamente il tuo file robots.txt per qualsiasi regola di “disallow” relativa alla pagina o relativa sottosezione.

robots txt

Rimuovi le righe non necessarie.

 

2) Rimuovi tag noindex dannose

Google non indicizza le pagine se gli dici di non farlo.  Questo è utile per mantenere alcune pagine private. Ci sono due modi per farlo:

Metodo 1: meta tag

Pagine con uno di questi meta tag nella sezione  <head> non verranno indicizzate da Google:

 <meta name=“robots” content=“noindex”>
<meta name=“googlebot” content=“noindex”>

Questo è un tag meta robots e dice ai motori di ricerca se possano o meno indicizzare la pagina.

Nota a margine.
 L’aspetto chiave è il valore “noindex” value. Se lo vedi, allora la pagina è impostata come noindex.

Per trovare tutte le pagine con un meta tag noindex, fai una scansione con Ahrefs’ Site Audit. Vai al rapporto Indexability (
Indicizzabilità). Cerca avvisi di “Noindex page” (pagine noindex).

noindex ahrefs site audit

Clicca per vedere tutte le pagine affette dal problema. Rimuovi i meta tag noindex da pagine che non dovrebbero essere nella lista.

Metodo 2: X‑Robots-Tag

I crawlers rispettano anche l’header di risposta del X‑Robots-Tag HTTP. Puoi implementarli utilizzando un linguaggio di scripting lato server quale PHP, oppure nel file .htaccess file, oppure cambiando la configurazione del tuo server.

Lo strumento di controllo URL nella Search Console ti dice qualora Google sia bloccato dallo scansionare una pagina a causa del suo header. Inserisci il tuo URL, quindi cerca l’errore “Scansione consentita? No: ‘noindex’ rilevato nel ‘X‑Robots-Tag’ header http”.

x robots header search console

Se vuoi controllare questo problema sul tuo intero sito, fai una scansione nello strumento Ahrefs’ Site Audit, quindi utilizza il filtro “Robots information in HTTP header” nel Page Explorer:

x robots tag filter site audit

Dì ai tuoi sviluppatori di evitare che le pagine che vuoi vengano indicizzate restituiscano questo header.

Lettura consigliata: Using the X‑Robots-Tag HTTP Header Specifications in SEO: Tips and Tricks

 

3) Includi la pagina nella tua sitemap

Una sitemap dice a Google quali pagine del tuo sito sono importanti, e quali non lo sono. Può anche dare un’indicazione su quanto spesso vadano ri-scansionate.

Google dovrebbe essere in grado di trovare le pagine del tuo sito web a prescindere che siano nella sitemap, ma è una buona prassi inserirle. D’altra parte, non ha senso rendere la vita difficile a Google.

Per verificare se la tua pagina è nella sitemap, utilizza lo strumento di controllo URL nella Search Console. Se vedi l’errore “l’URL non si trova su Google” e “Sitemap: N/A,” allora non è nella tua sitemap o non è indicizzato.

url not on google or sitemap

Non stai utilizzando Search Console? Apri lo URL della tua sitemap—solitamente è iltuodominio.com/sitemap.xml—e cerca la pagina.

sitemap search

Altrimenti, se vuoi trovare tutte le pagine scansionabili ed indicizzabili che non sono nella tua sitemap, fai partire una scansione nel Ahrefs’ Site Audit. Vai su Page Explorer e applica questi filtri:

not in sitemap indexable

Queste pagine dovrebbero essere nella tua sitemap, quindi aggiungile. Una volta fatto, fai sapere a Google che hai aggiornato la tua sitemap mandando un ping a questo URL:

http://www.google.com/ping?sitemap=<full_URL_of_sitemap>

Sostituisci l’ultima parte con l’URL della tua sitemap. Dovresti quindi vedere qualcosa simile a questo:

sitemap notification received

Questo dovrebbe velocizzare l’indicizzazione della pagina da parte di Google.

 

4) Rimuovi tag canonici dannosi

Un tag canonico dice a Google quale sia la versione preferita di una pagina. Somiglia a qualcosa del genere:

<link rel=“canonical” href=“/page.html”/>

La maggior parte delle pagine o non hanno alcun tag canonico, oppure hanno quello che viene chiamato un tag canonico auto-referenziale. Questo dice a Google che la pagina stessa è la versione preferita e probabilmente l’unica versione. In altre parole, vuoi che questa pagina venga indicizzata.

Ma se la tua pagina ha un tag canonico sbagliato, allora potrebbe dire a Google che la versione preferita è una pagina che non esiste. In questo caso, la tua pagina non verrebbe indicizzata.

Per verificare un tag canonico, utilizza lo strumento di controllo URL di Google. Vedrai un avviso “Pagina alternativa con tag canonico” se il tag canonico punta ad un’altra pagina.

alternate page with canonical

Se questo non dovesse essere corretto, e vuoi che venga indicizzata la pagina, rimuovi il tag canonico.

IMPORTANTE

Nota che i tag canonici non sono sempre dannosi. La maggior parte delle pagine con questi tag li ha per una qualche ragione. Se vedi che la tua pagina ha un set di tag canonici, allora controlla la pagina canonica. Qualora fosse effettivamente la versione preferita della pagina e non ci fosse necessità di indicizzare anche la pagina in questione, allora il tag canonico dovrebbe rimanere.

Se vuoi un metodo veloce per trovare tag canonici dannosi sul tuo intero sito, fai una scansione con lo strumento Ahrefs’ Site Audit. Accedi al Page Explorer. Utilizza queste impostazioni:

canonicals filter site audit

Questo cerca pagine nella tua sitemap con tag canonici non autoreferenziali. Siccome quasi sicuramente vuoi indicizzare le pagine nella tua sitemap, dovresti investigare ulteriormente se questo filtro restituisce risultati.

È molto probabile che queste pagine abbiano un canonico dannoso oppure che non debbano essere nella tua sitemap.

 

5) Controlla che la pagina non sia orfana

Le pagine orfane sono quelle che non hanno link interni verso di loro.

Siccome Google scopre nuovi contenuti scansionando il web, non è in grado di scoprire da solo pagine orfane. Nemmeno i visitatori del sito sarebbero in grado di trovarle.

Per verificare le pagine orfane, scansiona il tuo sito con Ahrefs’ Site Audit. Poi, cerca nel rapporto Incoming links (link in ingresso) errori di tipo “Orphan page (has no incoming internal links)”:

orphan pages

Questo mostra tutte le pagine che sono indicizzabili e presenti nella tua sitemap, ma che non hanno link interni che puntano verso esse.

IMPORTANTE

Questo processo funziona solamente quando sono vere queste due cose:

  1. Tutte le pagine che vuoi vengano indicizzate sono nelle tue sitemap
  2. Hai marcato la casella di utilizzare tutte le pagine nella tua sitemap come punto di partenza per la scansione quando hai impostato il progetto in Ahrefs’ Site Audit.

Non sei sicuro che tutte le pagine che vuoi siano indicizzate siano nella tua sitemap? Prova questo:

  1. Scarica una lista di tutte le pagine del tuo sito (tramite il tuo CMS)
  2. Scansiona il tuo sito web (utilizzando uno strumento quale Ahrefs’ Site Audit)
  3. Fai un riferimento incrociato tra le due liste di URL

Tutti gli URLs non trovati durante la scansione sono pagine orfane.

Puoi risolvere le pagine orfane utilizzando uno di questi due metodi:

  1. Se la pagina non è importante, rimuovila e rimuovila dalla sitemap.
  2. Se la pagina è importante, incorpora il link nella struttura di link interni del tuo sito web.

 

I link nofollow sono link con un tag rel=“nofollow”. Evitano il trasferimento di PageRank all’URL di destinazione. Google non permette di scansionare link nofollow.

Questo è quello che Google dice a proposito:

Essenzialmente, utilizzare nofollow ci fa tralasciare i link target dal grafico generale del web. Tuttavia, le pagine target potrebbero comunque apparire nel nostro indice se altri siti linkano ad esse senza utilizzare nofollow, oppure se gli URL sono mandati a Google in una Sitemap.

In breve, dovresti assicurarti che tutti i link interni a pagine indicizzabili siano di tipo “follow”.

Per fare questo, utilizza lo strumento Ahrefs’ Site Audit tool per scansionare il tuo sito. Controlla il rapporto link in ingresso alla ricerca di errori “Page has nofollow incoming internal links only” (la pagina ha solo link in ingresso interni nofollow):

nofollow incoming links error

Rimuovi il tag nofollow da questi link interni, dando per scontato che tu voglia che siano indicizzati su Google. Se non è questo il caso, cancella la pagina o falla diventare noindex.

Lettura consigliata: What Is a Nofollow Link? Everything You Need to Know (No Jargon!)

 

Google scopre nuovi contenuti scansionando il tuo sito web. Se trascuri di fare link interni alla pagina in questione potrebbe non essere in grado di trovarla.

Una soluzione semplice a questo problema è di aggiungere alcuni link interni alla pagina. Puoi farlo da qualsiasi altra pagina che Google può scansionare ed indicizzare. Tuttavia, se vuoi che Google indicizzi la pagina il prima possibile, conviene farlo da una delle tue pagine più “importanti”.

Perché? Perché Google scansiona nuovamente queste pagine più spesso rispetto a pagine meno importanti.

Per fare questo, vai sul Ahrefs’ Site Explorer, inserisci il tuo dominio, quindi vista il rapporto Best by links (migliori pagine per link in ingresso).

best by links ahrefs blog

Questo mostra tutte le pagine sul tuo sito web ordinate per punteggio URL Rating (UR). In altre parole, mostra per prime le pagine  con più autorevolezza.

Scorri questa lista e trova le pagine rilevanti dalle quali aggiungere link interni verso le pagine in questione.

Ad esempio, se volessi aggiungere un link interno alla nostra guida su guest posting, la nostra guida su link building ti offrirebbe probabilmente un luogo rilevante dal quale farlo. E quella pagina è la 11esima più autorevole sul nostro blog:

link building guide ahrefs best by links

Google quindi vedrà e poi seguirà quel link la prossima volta che scansiona quella pagina.

suggerimento avanzato

Incolla la pagina dalla quale hai aggiunto il link interno nello strumento controllo URL di Google. Clicca il pulsante “Richiedi indicizzazione” per far sapere a Google che qualcosa su quella pagina è cambiato e che dovrebbe scansionarla nuovamente il prima possibile. Questo può velocizzare il processo di scoperta del link interno e quindi della pagina che vuoi indicizzare su Google.

 

8) Assicurati che la pagina abbia valore e sia unica

È importabile che Google indicizzi pagine di bassa qualità perché non hanno alcun valore per i suoi utenti. Questo è quello che John Mueller di Google ha detto a proposito dell’indicizzazione nel 2018:

Quello che dice implica che se vuoi che Google indicizzi il tuo sito o la tua pagina web, deve essere “eccezionale e fonte di ispirazione”.

Se hai escluso problemi tecnici per la mancanza di indicizzazione, allora un basso valore della pagina potrebbe esserne la causa. Per questa ragione, vale la pena visionare la pagina con occhi nuovi e chiedersi: questa pagina è genuinamente di qualità? Un utente troverebbe valore in questa pagina se ci cliccasse sopra trovandola nei risultati di ricerca?

Se la risposta è no ad una di queste due domande, allora devi migliorarne i contenuti.

Puoi trovare pagine potenzialmente a bassa qualità che non sono indicizzate utilizzando gli strumenti Ahrefs’ Site Audit e URL Profiler. Per farlo, vai su Page Explorer nel Ahrefs’ Site Audit e utilizza queste impostazioni:

find low quality pages site audit

Questo restituirà le pagine “sottili” che sono indicizzabili ma che non ottengono alcun traffico organico. In altre parole, c’è una buona possibilità che non siano indicizzate.

Esporta il rapporto e incolla tutti gli URL nello URL Profiler e fai una verifica dell’indicizzazione da parte di Google.

url profiler

IMPORTANTE

Consigliamo di utilizzare un proxy se hai intenzione di farlo per molte pagine (più di 100). Altrimenti, rischi che il tuo IP venga bannato da Google. Se non puoi farlo, allora un’alternativa è di cercare su Google un “free bulk Google indexation checker.” Ci sono diversi strumenti di questo tipo, ma molti di essi sono limitati a meno di 25 pagine alla volta.

Verifica problemi di qualità su ogni pagina non-indicizzata. Migliorale dove necessario, quindi richiedi una nuova indicizzazione nella Google Search Console.

Dovresti cercare di fissare i problemi di contenuti duplicati. È improbabile che Google indicizzi pagine con contenuti duplicati o quasi duplicati. Utilizza il rapporto Content quality (qualità dei contenuti) nel Site Audit per verificare questo tipo di problemi.

duplicate pages site audit

 

9) Rimuovi pagine a bassa qualità (per ottimizzare il “crawl budget”)

Avere troppe pagine a bassa qualità sul tuo sito web spreca il crawl budget.

Questo è quello che Google dice a proposito:

Sprecare risorse di server su [low-value-add pages] toglie attività di crawl da pagine che hanno effettivamente valore, il che può causare un ritardo significativo nello scoprire contenuti notevoli su di un sito.

Pensalo come un insegnante che dà i voti a dei compiti, uno dei quali è il tuo. Se deve dare i voti a dieci compiti, arriva al tuo abbastanza velocemente. Se ne ha cento, ci vorrà di più. Se ne ha migliaia, la mole di lavoro potrebbe essere tale che non arriverà mai a dare un voto al tuo compito.

Google dice che il “crawl budget […] non è una cosa della quale devono preoccuparsi la maggior parte degli editori,” e che “se un sito ha meno di qualche migliaia di URL, nella maggior parte dei casi verrà indicizzato efficientemente.”

In ogni caso, rimuovere pagine a bassa qualità dal tuo sito non è mai una cosa cattiva. Può solo avere un effetto positivo sul crawl budget.

Puoi utilizzare il nostro modello di content audit per trovare pagine potenzialmente a bassa qualità o irrilevanti che possono essere cancellate.

 

I backlinks dicono a Google che una pagina web è importante. D’altra parte, se qualcuno sta linkando ad essa, deve avere un qualche valore. Queste sono le pagine che Google vuole indicizzare.

Per massima trasparenza, Google non indicizza solo pagine con backlinks. Ci sono moltissime (miliardi) di pagine indicizzate senza backlinks. Tuttavia, dato che Google vede le pagine con  link d’alta qualità come più importanti, è più probabile che queste pagine vengano scansionate—e ri-scansionate—più velocemente che quelle senza. Questo porta ad una indicizzazione più rapida.

Abbiamo molte risorse sul costruire backlink di alta qualità sul nostro blog.

Dai un’occhiata ad alcune delle guide qui sotto.

Indicizzazione ≠ posizionamento

Avere il tuo sito web o pagina web indicizzato su Google non vuol dire necessariamente posizionamento o traffico.

Sono due cose differenti.

Indicizzazione significa che Google sa dell’esistenza del tuo sito. Non vuol dire che lo posizionerà per qualsiasi termine di ricerca.

Qui è dove entra in gioco SEO—l’arte di ottimizzare le tue pagine web per il posizionamento su termini di ricerca specifici.

In breve, SEO include:

  • Cercare cosa i tuoi clienti stanno cercando;
  • Creare contenuti su questi argomenti;
  • Ottimizzare quelle pagine per le tue parole chiave target;
  • Costruire backlinks;
  • Pubblicare nuovamente ed aggiornare periodicamente i contenuti per mantenerli “sempreverdi.”

Questo è un video per aiutarti ad iniziare con SEO:

… e alcuni articoli:

In conclusione

Ci sono due ragioni possibili per le quali Google non sta indicizzando il tuo sito o pagina web:

  1. Problemi tecnici che non permettono a Google di farlo
  2. Google vede il tuo sito o pagina come contenuti a bassa qualità e senza valore per i suoi utenti.

È interamente possibile che entrambe i problemi siano presenti allo stesso tempo. Tuttavia, direi che i problemi tecnici sono molto più comuni. I problemi tecnici possono portare all’auto-generazione di contenuti a bassa qualità indicizzabili (ad esempio problemi con navigazione sfaccettata). Non è buono.

Comunque, seguire la lista di sopra risolve problemi di indicizzazione nove volte su dieci.

Ricordati sempre che indicizzazione ≠ posizionamento. SEO è comunque vitale se vuoi essere posizionato per termini di ricerca rilevanti ed attrarre un flusso costante di traffico organico.

Tradot­to da Mar­co Viap­pi­ani, con­sulente di mar­ket­ing digitale.