Rimozione contenuti indicizzati

Ultimo aggiornamento 28 Maggio 2017

Per rimuovere dall’indice di Google un contenuto già indicizzato, la cosa migliore da fare è spesso rimuovere il contenuto e reindirizzare la pagina ad una simile o comunque vicina per tipologia o tema trattato.

Per quanto possa sembrarti strano, l’attributo noindex del meta tag robots non serve più a deindicizzare le pagine web, ma ne produce al massimo la scomparsa dalle serp del motore di ricerca. Può sembrare una contraddizione per un attributo che si chiama proprio “NOINDEX”, ma di fatto una pagina già indicizzata a cui viene attribuito un noindex, continuerà a restare archiviata nell’indice di Google e se inserita in una struttura scansionabile, continuerà a essere seguita dal crawler di Google impiegando risorse di scansione.

La funzione Rimozione URL della Search console serve solo a nascondere temporaneamente dalle serp uno o più risultati di ricerca del tuo sito web. Non uso questa funzione da decenni.

In ogni caso rimuovere contenuti dall’indice non è l’unica strada per raddrizzare un sito web che indirizza male la scansione delle pagine. Molto spesso si tratta di capire come agire sui bot per evitare la dispersione di Page rank e come far sì che gli stessi bot capiscano la differenza tra pagine master e slave.

Vediamo qualche caso:

In caso di pagine molto simili tra loro

Se hai due pagine web ottimizzate per le stesse intenzioni di ricerca, che in virtù di contenuti molto simili tra loro rischiano di cannibalizzarsi rendendo difficile l’attribuzione di rilevanza, metterne una in noindex può non essere la strada giusta per aiutare Google a capire quale delle due sia la pagina “master”. Molto spesso pensiamo a mettere contenuti in noindex quando ci sarebbe semmai da fare una riflessione a monte su pagine web da rimuovere.

Tra un po’ entra la primavera, che ne pensi di fare le pulizie?

Se tuttavia permangono motivi per i quali sia indispensabile avere nel sito web pagine che di fatto non servono perché duplicate o del tutto inutili rispetto alla user e search experience del tuo pubblico di riferimento, allora puoi scegliere di aggiungere a queste un link con attributo canonical che punta verso la pagina master, come nel caso dei siti e-commerce in cui vengano generate URL diverse per la stessa scheda prodotto. Non rimuove contenuti indicizzati, ma fornisce un indicazione chiara circa la rilevanza da assegnare. Google dovrebbe decidere da solo per il meglio, ma non sai mai…

Percorsi di scansione inutili

In caso ci siano interi percorsi inutili per i tuoi lettori, ma necessari per il modello di business del progetto web, allora puoi bloccarne la scansione mediante l’istruzione disallow: /cartella/* nel file Robots.txt. Immagina ad esempio che le pagine obiettivo del tuo sito web siano raggiungibili da pagine diverse accessibili da directory diverse a livello di URL. Puoi certamente allargare e ramificare il crawling dei percorsi interni, ma solo se ciò aumenta la rilevanza complessiva del sito web per gli ambiti di ricerca che ti interessano, altrimenti stai diluendo il page rank inutilmente, creando ridondanze che appesantiscono la scansione e ti rendono difficile crescere.

Se poi le tue pagine sono buone, ma al loro interno ci sono link che puntano a risorse poco rilevanti o che comunque non hai interesse a far scansionare, puoi assegnare ai link interni l’attributo rel=nofollow che ordina al bot di non seguire la risorsa. Certo, se un link punta a una risorsa che non è rilevante allora forse quel link potrebbe non esserci, per altro i link con attributo nofollow non preservano il link juice della pagina.

Deindicizzare con il Disallow

La sintassi Disallow, propria del file robots.txt serve a bloccare la scansione di percorsi o pagine web, non a deindicizzare contenuti. Se quindi stai pensando di deindicizzare i contenuti inutili mediante file robots.txt, sappi che non è questa la strada più corretta. Nel momento in cui avrai bloccato la scansione di una cartella, qualunque modifica farai alla pagina raggiungibile da quel percorso, non verrà vista da Google, perché i suoi crawler non potranno accedervi. Se quindi vuoi far scomparire una pagina web dalle serp e bloccarne la scansione per risparmiare crawl budget, dovrai prima assegnare l’attributo noindex al meta robots e solo in seguito bloccare tutto mediante il file robots.txt

Differenza tra Noindex e Disallow

Allo stato attuale, il noindex serve a far scomparire una pagina dalle serp di Google, mentre il disallow serve a bloccarne la scansione. Non è la stessa cosa perché bloccare la scansione non significa far scomparire un contenuto dalle serp. Detto questo succede (e prima o poi ci farai caso) che Google faccia sparire dalle serp i contenuti bloccati e continui a rendere visibili quelli in noindex. Succede perché è un mondo difficile.

Conclusioni: lavora sulla struttura, non sui noindex

Molto spesso artifici come canonical, disallow, noindex e nofollow sono utilizzati come vere e proprie “pezze” per far fronte a errori presenti a monte nella struttura del sito web. Questi attributi e forme sintattiche potranno aiutarti a limitare i danni, ma se un sito web è progettato male probabilmente non basteranno a rovesciare la situazione, fosse solo perché un progetto web errato non converte. Non aver paura di cambiare le cose. Non barattare i risultati veri con la sicurezza finta di un sito web malandato che “comunque qualcosa fa”.

Certe volte il coraggio di ricominciare da capo non è solo necessario, è l’unica cosa saggia da fare.

In caso di pagine molto simili tra loro

Percorsi di scansione inutili

Deindicizzare con il Disallow

Differenza tra Noindex e Disallow

Conclusioni: lavora sulla struttura, non sui noindex

Related posts