Il file robots.txt serve per dirigere i bots dei motori di ricerca, per includere o escludere dalla registrazione nel motore di ricerca determinati file o directory. Di solito si scrive ciò che va escluso. Il file di testo robots.txt deve essere posizionato nella root directory del sito e deve contenere almeno un'istruzione, un file vuoto non viene considerato.
Questo è il comando più semplice:
User-agent: *
Disallow: /
La prima riga si riferisce a tutti i bots, la seconda esclude tutti i file. In questo modo il sito non verrebbe registrato da alcun motore di ricerca.
User-agent: *
Disallow:
Senza lo slash invece il sito viene aperto a tutti i bots per la registrazione delle pagine. Ma normalmente si ha qualcosa da nascondere ai motori di ricerca.
User-agent: *
Disallow: /test
In questo modo vengono esclusi tutti i file e le directory che iniziano con "test". Se si volesse escludere la directory test, bisogna scrivere:
User-agent: *
Disallow: /test/
Con "User-agent: *" ci si rivolge a tutti i bots. Per dare istruzioni solo al Googlebot, bisogna scrivere:
User-agent: *
Disallow: /test/
User-agent: Googlebot
Disallow: /test/
Disallow: /test1/
Disallow: /test2/ #non leggere questa directory
Con il segno "#" si possono introdurre commenti.
Attenzione però: introducendo "User-agent: Googlebot" Google guarda solamente la sua istruzione e non legge le istruzioni che si trovano sotto "User-agent: *".
Per evitare che Google Bot indicizzi tutte le pagine:
User-agent: Googlebot
Disallow: /
Per evitare che Microsoft Search (Windows Live) controlli tutto il sito:
User-Agent: MSNBot
Disallow: /
Per evitare che Microsoft Search (Windows Live) controlli la pagina e continui a girare di qua e di là, lo si può rallentare:
User-Agent: MSNBot
Crawl-Delay: 36000
Per evitare che Microsoft Search (Windows Live) faccia vedere il preview della pagina:
User-agent: searchpreview
Disallow: /
Per evitare che Alexa registri le pagine nel suo archivio:
User-Agent: ia_archiver
Disallow: /