Questo è un punto importante da comprendere. Usare il metodo sbagliato non solo comporta che le pagine non vengano rimosse dall’indice come voluto, ma può avere un effetto deleterio sulla SEO.
Per aiutarti a capire velocemente quale metodo di rimozione è il migliore per te, abbiamo realizzato uno schema così puoi andare alla parte dell’articolo che ti interessa.
Cosa imparerai da quest’articolo:
- Come verificare se una URL è indicizzata
- 5 modi per rimuovere le URL da Google
- Come dare priorità alle rimozioni
- Errori comuni da evitare nelle rimozioni
- Come rimuovere contenuto che non è nel tuo sito
- Come rimuovere le immagini
Cosa vedo fare frequentemente ai tecnici SEO per verificare se un contenuto è indicizzato è l’uso di un sito: ricerca in Google (e.s.: site:https://ahrefs.com). Mentre le ricerche site: possono essere utili per identificare le pagine o le sezioni di un sito web che possono essere problematiche se sono visualizzate nei risultati di ricerca, bisogna stare attenti perché non sono query normali e non ti possono assicurare se una pagina è indicizzata. Potrebbero far vedere pagine che sono conosciute a Google, ma non significa che sono scelte per essere mostrate nelle normali ricerche senza l’operatore site:.
Per esempio, le ricerche site: possono far vedere pagine con redirect o canonicalizzate in altre pagine. Quando chiedi per un sito specifico, Google potrebbe mostrare una pagina da un dominio con il contenuto, titolo, e descrizione da un altro dominio. Prendi ad esempio moz.com che era seomoz.org. Ogni query degli utenti che porta alle pagine di moz.com mostrerà moz.com nelle SERP, mentre site:seomoz.org ti mostrerà seomoz.org nei risultati di ricerca come mostrato sotto.
Il motivo per cui questa è una distinzione importante è che può portare i tecnici SEO a fare errori come il blocco attivo o la rimozione di URL dall’indice del vecchio dominio, che impedisce il consolidarsi dei segnali simili al PageRank. Ho visto molti casi di migrazione di domini dove le persone pensavano di aver commesso un errore durante la migrazione perché quelle pagine mostravano ancora le ricerche site:vecchio-dominio.com e finivano con il danneggiare il proprio sito mentre provavano a “sistemare” il problema.
Il miglior metodo per controllare l’indicizzazione è utilizzare il report Index Coverage in Google Search Console, o lo Strumento Controllo URL per un URL individuale. Questi strumenti ti dicono se una pagina è indicizzata e ti forniscono ulteriori informazioni su come Google stia trattando la pagina. Se non hai accesso a questi strumenti, cerca semplicemente la completa URL della tua pagina web su Google.
Su Ahrefs, se trovi la pagina nel nostro report “Top Pages” o classificato per parole chiave organiche, significa di solito che lo vediamo scalare la classifica per query di ricerca normali ed è un buon indicatore che la pagina è indicizzata. Nota che le pagine sono indicizzate quando le vediamo, ma ciò potrebbe essere cambiato. Controlla l’ultima data in cui abbiamo visto la pagina in una query.
Se c’è un problema con un URL particolare e necessita di essere rimosso dall’indice, segui il diagramma di flusso all’inizio dell’articolo per trovare le opzioni di rimozione corrette, poi vai alla giusta sezione qui sotto.
Se elimini la pagina e fornisci un codice di stato 404 (non trovata) o un 410 (andata), allora la pagina sarà rimossa dall’indicizzazione subito dopo che la pagina sarà ri-scannerizzata. Finchè non sarà rimossa, la pagina potrebbe essere visibile nei risultati di ricerca. Ed anche se la pagina stessa non è più disponibile, una versione cache potrebbe essere disponibile temporaneamente.
Quando potresti aver bisogno di una scelta diversa:
- Ho bisogno di una rimozione immediata. Vedi la sezione degli strumenti di rimozione URL.
- Ho bisogno di consolidare i segnali dei link. Vedi la sezione di canonicalizzazione.
- Ho bisogno di rendere la pagina accessibile agli utenti. Verifica se il noindex o gli accessi ristretti possono esserti utili.
Opzione di rimozione 2: Noindex
Un meta robots tag noindex o una risposta x‑robots nel header diranno ai motori di ricerca di rimuovere una pagina dall’indice. I tag meta robots funzionano per le pagine mentre gli le risposte x‑robots funzionano per le pagine e altri tipi di file come i PDF. Perché questi tag siano visti, un motore di ricerca dev’essere in grado di scansionare le pagine—quindi assicurati che non siano bloccate nel robots.txt. Inoltre, ricordati che rimuovere pagine dall’indice potrebbe limitare il consolidamento dei link ed altri segnali.
Esempio di un meta robots noindex:
<meta name="robots" content="noindex">
Esempio di un tag nel header di risposta:
HTTP/1.1 200 OK X-Robots-Tag: noindex
Quando potresti aver bisogno di altre opzioni:
- Non voglio che un utente acceda a quelle pagine. Vedi la sezione sulle restrizioni all’accesso.
- Devo consolidare i segnali come i link. Vedi la sezione della canonicalizzazione.
Opzione di rimozione 3: Restrizioni all’accesso
Se vuoi che la pagina sia accessibile ad alcuni utenti ma non ai motori di ricerca, allora ciò che probabilmente dovrai fare sarà una di queste 3 opzioni:
- Un qualche tipo di sistema di login;
- Autenticazione HTTP (dove una password è richiesta per l’accesso);
- IP Whitelist (dove solo alcuni specifici indirizzi IP possono accedere alle pagine)
Questo tipo di setup è il migliore per le situazioni come i network interni, contenuti per i soli membri, o per lo staging, test, o siti di sviluppo. Permette ad un gruppo di utenti l’accesso alla pagina, ma i motori di ricerca non saranno in grado di accedervi e non indicizzeranno la pagine.
Quando potresti aver bisogno di una scelta diversa:
- Ho bisogno di una rimozione immediata. Vedi la sezione degli strumenti di rimozione URL. In questo caso particolare, potresti volere una rimozione più veloce se il contenuto che stai cercando di nascondere è entrato in cache, e devi prevenire che gli utenti possano visualizzare tale contenuto.
Opzione di rimozione 4: Strumento di Rimozione URL
Il nome di questo strumento di Google è un po’ fuorviante perché il modo in cui lavora è nascondere temporaneamente il contenuto. Google comunque vedrà e indicizzerà il contenuto, ma le pagine non saranno viste dagli utenti. Questo effetto temporaneo per Google dura 6 mesi, mentre Bing ha uno strumento simile che dura 3 mesi. Questi strumenti dovrebbero essere usati nei casi più estremi per scenari come problemi di sicurezza, leak di dati, informazioni personali sensibili, ecc. Per Google, usa lo Strumento di Rimozione e per Bing, vedi come bloccare gli URL.
Dovrai comunque utilizzare un altro metodo assieme agli strumenti di rimozione per poter davvero ottenere la rimozione delle pagine per un periodo più lungo (noindex o eliminazione) o prevenire agli utenti l’accesso ai contenuti se hanno ancora i link (accesso ristretto o rifiutato). E’ solamente un metodo più rapido per nascondere le pagine mentre la rimozione ha un tempo per attuarsi. La richiesta può avere un giorno d’attesa.
Opzione di rimozione 5: Canonicalizzazione
Quando hai versioni multiple di una pagina e vuoi consolidare i segnali come i link su una singola versione, quello che devi fare è qualche forma di canonicalizzazione. Questo è fatto principalmente per prevenire contenuti duplicati e consolidare versioni multiple di una pagina in un singolo URL indicizzabile.
Hai molte opzioni di canonicalizzazione:
- Tag Canonical. Questo specifica un altro URL come la versione canonical o la versione che vuoi sia mostrata. Se le pagine sono duplicate o sono molto simili, questo dovrebbe essere sufficiente. Quando le pagine sono troppo diverse, il canonical potrebbe essere ignorato perché un suggerimento e non una imposizione.
- I redirect. Un redirect porta un utente o un bot di ricerca da una pagina all’altra. 301 è il redirect più usato dai tecnico SEO, e dice ai motori di ricerca che vuoi sia l’URL ad essere visto nei risultati di ricerca e dove si consolidano i segnali. Un 302 o redirect temporaneo dice ai motori di ricerca che vuoi che l’URL originale sia quello che rimane nell’indice e di consolidare li i segnali.
- Gestione dei parametri URL. Un parametro è legato al termine di un URL e di solito include un punto di domanda, come ahrefs.com?this=parameter. Questo strumento da Google ti permette di dire come trattare gli URL con parametri specifici. Per esempio, puoi specificare se il parametro cambia il contenuto della pagina o se serve solo a tracciarne l’utilizzo.
Se hai molte pagine da rimuovere dall’indice di Google, allora devi avere di conseguenza delle priorità.
Alta priorità: Queste pagine sono di solito legate alla sicurezza o legate a dati confidenziali. Queste includono contenuti che contengono dati personali (PII), dati di clienti, o informazioni private.
Media priorità: Queste di solito riguardano contenuti pensati per uno specifico gruppo di utenti. Intranet aziendali o portali di dipendenti, contenuto pensato solo per i membri, ed ambienti di sviluppo, test, staging.
Bassa priorità: Queste pagine solitamente includono contenuti duplicati di qualche tipo. Alcuni esempi possono includere pagine di URL multipli, URL con parametri, e di nuovo posso includere ambienti di test, staging o sviluppo.
Voglio mostrarvi alcuni metodi che di solito vedo nelle rimozioni fatte in modo sbagliato e cosa succede in ogni scenario per aiutare le persone a capire perché non funzionano.
Noindex nel robots.txt
Mentre Google supportava non ufficialmente il noindex nel robots.txt, non è mai stato uno standard ufficiale ed ora hanno formalmente interrotto il supporto. Molti dei siti che lo stavano usando lo facevano nel modo sbagliato e si auto danneggiavano.
Blocchi della scansione nel robots.txt
Scansionare non è la stessa cosa di indicizzare. Anche se a Google viene bloccata la scansione delle pagine, se ci sono link interni o esterni ad una pagina è possibile che le indicizzi. Google non saprà cosa c’è nella pagina perché non la scansionerà, ma saprà che una pagina esiste e ci scriverà anche un titolo da mostrare nei risultati di ricerca basato su segnali come l’anchor text dei link alla pagina.
Nofollow
Questo viene spesso confuso con il noindex, ed alcune persone lo usano a livello di pagina aspettandosi che la pagina non venga indicizzata. Nofollow è un suggerimento, e mentre originariamente fermava i link della pagina e link individuali con l’attributo nofollow dall’essere scansionati, ora non è più così. Google può scansionare questi link se lo vuole. Nofollow era usato anche nei link individuali per cercare di fermare Google dallo scansionare attraverso specifiche pagine per rafforzare PageRank. Di nuovo, non funziona più perché nofollow è un suggerimento. Nel passato, se una pagina aveva un altro link ad essa, allora Google la trovava comunque da questo percorso di link alternativo.
Nota che puoi trovare pagine con nofollow in massa utilizzando questo filtro in Page Explorer su Audit Site di Ahrefs.
Siccome è raro che abbia senso mettere il nofollow a tutti i link di una pagina, il numero di risultati dovrebbe essere zero o vicino allo zero. Se ci sono risultati che soddisfano i criteri, ti chiedo di controllare rapidamente se le direttive nofollow sono state aggiunte per errore al posto del noindex ed usare un metodo di rimozione più appropriato se necessario.
Puoi trovare anche link individuali contrassegnati dal nofollow utilizzando questo filtro nel Link Explorer.
Noindex e canonical in un altro URL
Questi segnali sono in conflitto. Noindex dice di rimuovere la pagina dall’indice, e canonical dice che l’altra pagina è la versione che dovrebbe essere indicizzata. Questo potrebbe forse servire come consolidamento perché Google tipicamente sceglie di ignorare il noindex e usa invece il canonical come segnale principale. Tuttavia, non è un comportamento assoluto. C’è un algoritmo coinvolto e c’è il rischio che il tag noindex sia un segnale preso in considerazione. Se è questo il caso, allora le pagine non verranno propriamente consolidate.
Nota che puoi trovare pagine con noindex con canonical non autoreferenziali utilizzando questo set di filtri nel Page Explorer nel Site Audit:
Noindex, aspetta che Google scansioni, poi bloccalo per le scansioni
Ci sono un paio di modi perché questo accade di solito:
- Le pagine sono già bloccate ma indicizzate, le persone aggiungono noindex e le sbloccano così Google può scansionare e vedere il noindex, poi blocca le pagine da nuove scansioni.
- Le persone aggiungono tag noindex per le pagine che vogliono rimuovere e dopo che Google le ha scansionate e processato il tag noindex, bloccano le pagine dalla scansione.
In entrambi i casi, lo stato finale è il blocco dalle scansioni. Se ti ricordi, prima, abbiamo parlato di come la scansione non sia la stessa cosa dell’indicizzazione. Anche se queste pagine sono bloccate, possono finire nell’indice.
Se possiedi il contenuto che è stato usato da un altro sito web, potresti essere in grado di esporre un reclamo basato sul Digital Millennium Copyright Act (DMCA). Puoi usare lo strumento Google di Rimozione Copyright per fare ciò che si chiama una rimozione DMCA, che richiede la rimozione di ogni materiale protetto da copyright.
Cosa fare se il contenuto ti riguarda ma è in un sito che non controlli?
Se sei nell’EU, puoi ottenere la rimozione del contenuto che contiene informazioni che ti riguardano grazie ad un ordine del diritto all’oblio. Puoi richiedere la rimozione di informazioni personali utilizzando il modulo EU Privacy Rimozione.
Per rimuovere le immagini da Google, il modo più facile è il robots.txt. Mentre il supporto non ufficiale della rimozione delle pagine è stato tolto da robots.txt come detto prima, disabilitare semplicemente la scansione delle immagini è il metodo migliore per rimuoverle.
Per una immagine singola:
User-agent: Googlebot-Image Disallow: /images/dogs.jpg
Per tutte le immagini:
User-agent: Googlebot-Image Disallow: /
Conclusioni
Come potrai rimuovere gli URL dipende dalla situazione. Abbiamo visto molte opzioni, ma se sei ancora confuso ed è normale esserlo, guarda di nuovo al diagramma di flusso all’inizio.
Puoi anche rivolgerti alla risoluzione dei problemi legali fornita da Google per la rimozione dei contenuti.
Domande? Fammele su Twitter.
Tradotto da Mauro Marinello