File Robots.txt guida alla configurazione

Tramite il file robots.txt è possibile impostare delle regole per consentire o bloccare l’indicizzazione di una o più cartelle ai motori di ricerca. Con il file robots.txt si possono applicare restrizioni di analisi sulle pagine web e impedire ai Crawler la loro indicizzazione.

Cos’è un Crawler

I web crawler sono dei software automatici, chiamati anche spider, che effettuano ricerche e indicizzazioni periodiche di ogni sito web. Quando un sito viene analizzato da un Crawler la prima cosa che esso fa è controllare l’esistenza di un file robots.txt e leggerne il contenuto in modo da seguire le direttive impostate all’interno.

Scansione e indicizzazione

Bisogna innanzitutto capire la differenza tra scansione di un sito web e la sua indicizzazione eseguita dai motori di ricerca per capire come lavora un file robots.txt.

Scansione: la scansione è l’attività svolta appunto dai Crawler che permette di leggere tutti i dati contenuti all’interno del sito o di una singola pagina web, che successivamente verrà indicizzata dal motore di ricerca. E qui entra in gioco il file robots.txt dove possiamo dire allo spider di evitare la scansione di una determinata cartella o pagina web o di non aggiornare e leggere le informazioni in essa contenute.

Indicizzazione: l’indicizzazione è l’inserimento dei dati, di una pagina web o cartella, nell’indice di un motore di ricerca.
Indicare nel file robots.txt di non eseguire la scansione della cartella A non significa necessariamente che non verrà indicizzata. Infatti Google può leggere altri dati che linkano alla cartella A e di conseguenza sarà costretto a scansionarla ma in questo caso non verrà indicizzata come le altre ma bensì priva dello snippet di descrizione e solo con il titolo della pagina (utile per posizionare un sito nella Serp)

Come creare un file robots.txt

Per creare un file robots.txt basta un normale editor di testo come notepad per windows oppure nano, pluma o gedit su linux.

Struttura e comandi del file robots.txt

L’impostazione è molto semplice ed è composta da alcune direttive principali:

  • User-agent: questo campo contiene il nome del robot che deve rispettare le restrizioni. Con il carattere * la regola viene applicata a qualsiasi robot.
  • Disallow:  questo campo indica le pagine o cartelle del sito che devono essere escluse dai robot durante l’indicizzazione.
  • Allow:  questo campo è il contrario di Disallow e viene usato generalmente per singoli file che vogliamo escludere da una cartella bloccata con il Disallow. La direttiva Allow:/ deve essere posta al di sopra della Disallow: in coppia.

Si possono includere più righe Disallow e anche più User-agent in un unico file robots.txt

  • Con il “cancelletto# all’inizio del file, si aggiunge un commento personale ma che non viene considerato dai motori di ricerca. Lo inserisco negli esempi ma non è necessario.
  • L’asterisco* ” (Wildchar) indica “tutti i robots”.
  • Aggiungendo una / (Slash) subito dopo il Disallow: / si indica di non seguire (e non indicizzare) tutto quello che c’è dopo lo /  . Questo rappresenta il noindex,nofollow.

Vediamo alcuni esempi pratici, ovviamente quello tra parentesi è solo una spiegazione per farvi capire meglio quindi non è da inserire:

Esempio 1:

# Permesso si indicizzare tutti i file a tutti i motori di ricerca (questa è una nota personale!)
User-agent: *   (indica tutti i robots)
Disallow:       (indica di non bloccare nulla)

Esempio 2

# Permesso si indicizzare tutti i file a tutti i motori di ricerca tranne che a Google.
User-agent:  Googlebot   (indica che solo Google deve seguire la direttiva indicata sotto)
Disallow: /      (indica di bloccare tutto il sito – solo a Google come specificato nello user-agent)

Esempio 3

# Permesso si indicizzare tutti i file a tutti i motori di ricerca tranne per la cartella1 ma permette solo il file prova
User-agent: *   (indica tutti i robots)
Allow: /cartella1/prova.html  (Allow va inserito sempre PRIMA di Disallow mai dopo)
Disallow: /cartella1/      (indica di bloccare solo la cartella1 e tutti i file all’interno)

Bloccare solo alcuni tipi di file

E’ possibile anche bloccare un file specifico per esempio un immagine con estensione .JPG oppure .PNG, anche gqualsiasi altra estensione esempio .asp .pdf ecc

User-agent: *     (indica tutti i robots)
Disallow: /*.png$     (indica di bloccare solo le immagini con estensione .PNG

Il segno del dollaro ” $ ” segnala che la regola termina lì.

Per una lista degli User-Agent potete consultare il seguente link: http://www.robotstxt.org/db.html

Questa lista vi permette di conoscere meglio gli agent, il loro stato e come lavorano.