Il file robots.txt

Il file robots.txt serve per dirigere i bots dei motori di ricerca, per includere o escludere dalla registrazione nel motore di ricerca determinati file o directory. Di solito si scrive ciò che va escluso. Il file di testo robots.txt deve essere posizionato nella root directory del sito e deve contenere almeno un'istruzione, un file vuoto non viene considerato.

Questo è il comando più semplice:

User-agent: *
Disallow: /

La prima riga si riferisce a tutti i bots, la seconda esclude tutti i file. In questo modo il sito non verrebbe registrato da alcun motore di ricerca.

User-agent: *
Disallow:

Senza lo slash invece il sito viene aperto a tutti i bots per la registrazione delle pagine. Ma normalmente si ha qualcosa da nascondere ai motori di ricerca.

User-agent: *
Disallow: /test

In questo modo vengono esclusi tutti i file e le directory che iniziano con "test". Se si volesse escludere la directory test, bisogna scrivere:

User-agent: *
Disallow: /test/

Con "User-agent: *" ci si rivolge a tutti i bots. Per dare istruzioni solo al Googlebot, bisogna scrivere:

User-agent: *
Disallow: /test/
User-agent: Googlebot
Disallow: /test/
Disallow: /test1/
Disallow: /test2/ #non leggere questa directory

Con il segno "#" si possono introdurre commenti.

Attenzione però: introducendo "User-agent: Googlebot" Google guarda solamente la sua istruzione e non legge le istruzioni che si trovano sotto "User-agent: *".

Per evitare che Google Bot indicizzi tutte le pagine:

User-agent: Googlebot
Disallow: /

Per evitare che Microsoft Search (Windows Live) controlli tutto il sito:

User-Agent: MSNBot
Disallow: /

Per evitare che Microsoft Search (Windows Live) controlli la pagina e continui a girare di qua e di là, lo si può rallentare:

User-Agent: MSNBot
Crawl-Delay: 36000

Per evitare che Microsoft Search (Windows Live) faccia vedere il preview della pagina:

User-agent: searchpreview
Disallow: /

Per evitare che Alexa registri le pagine nel suo archivio:

User-Agent: ia_archiver
Disallow: /