Meta Tag Robots come usare il noindex nofollow

Il Meta Tag Robots indica al motore di ricerca di indicizzare o meno una pagina e se seguire i link al suo interno. E’ sufficiente inserire il meta tag robots index, follow, noindex, nofollow tra i tag <head> e </head>

Il meta tag “robots” viene utilizzato per indicare gli spider quali pagine volete indicizzare (index) o volete saltare dall’indicizzazione (noindex). Purtroppo non tutti gli spider seguono queste istruzioni e alcuni addirittura le ignorano completamente!  Comunque è sempre meglio utilizzare nel modo corretto il meta tag robots. Come vedremo in seguito è possibile indicare anche se seguire o meno i link all’interno della pagina web con il tag follow, nofollow. Questo tag è utile per evitare di disperdere il PageRank.
Se l’indicizzazione della pagina viene bloccata dal file robots.txt il meta tag robots è praticamente inutile in quanto la prima cosa che fa il crawler quando scansiona e indicizza un sito è leggere il contenuto e le istruzioni all’interno del robots.txt. Per capire meglio come funziona il file robots.txt (non confondete con il meta tag) vi rimando alla lettura di questo articolo:  File Robots.txt guida alla configurazione
Consiglio sempre di impostare in “index, follow” l’intero sito e poi intervenire dove avete necessita sulle singole pagine.

Impostazioni Meta Tag Robots

Prima di impostare i tag analizziamo il loro significato:

  • “index”– Indica al robot (o spider) che la pagina può essere indicizzata e inserite nel suo database.
  • “noindex”– Utilizzando il noindex indica al motore di non indicizzare la pagina e di conseguenza non apparirà nei motori di ricerca.
  • “follow”– Questo tag indica al motore che lo spider può seguire i link in questa pagina, per indicizzare anche quelle linkate nel contenuto.
  • “nofollow”– il contrario di follow, il nofollow indica di non seguire le pagine e non indicizzare altri contenuti come link ad altre pagine.

In alternativa si può usare anche

  • all = index,follow
  • none = noindex,nofollow

Dove inserie il Meta tag Robots?

Il tag “robots” va inserito all’interno del contenuto del head, tra i tag <head> e </head> della pagina Ecco un esempio:
<html>
<head>
<title>titolo della pagina</title>
<meta name=”keywords” content=”inserire le varie keyword”>
<meta name=”description” content=”inserire descrizione della pagina.”>
<meta name=”robots” content=”index,follow”>
</head>
<body>

Nella pagina html per evitare che i robots  seguano un determinato link, si usa l’attributo rel=”nofollow”, inserendolo come da esempio:
<a rel=”nofollow” href=”http://www.linkdaevitare.it.it/”> Questo link non verrà preso in considerazione e non disperderà il pagerank </a>.

L’attributo “rel=”nofollow”” è utilizzato e seguito solo da Google, Bing e Yahoo. Per il momento gli altri motori di ricerca non forniscono indicazioni in merito.

Meta Tag Robots “Noarchive”

Google quando indicizza un sito aggiunge il suo contenuto all’interno di un database chiamato comunemente Cache. A volte può essere utile non far memorizzare nella cache determinate pagine, per esempio perchè sono aggiornate frequentemente. In questo caso si ricorre all’uso di un altro Meta Tag Robots ovvero il “noarchive”. Ecc il giusto utilizzo:
<meta name=”robots” content=”noarchive”>
Con il meta tag noarchive comunque Google indicizza la pagina ma la inserisce nella Cache. Potete anche specificare il nome dello spider per applicare la regola ad un solo motore di ricerca…in questo esempio indichiamo a Google di non mantenere in cache la pagina:
<meta name=”googlebot” content=”noarchive”>