Il file robots.txt serve per dirigere i bots dei motori di ricerca, per includere o escludere dalla registrazione nel motore di ricerca determinati file o directory. Di solito si scrive ciò che va escluso. Il file di testo robots.txt deve essere posizionato nella root directory del sito e deve contenere almeno un’istruzione, un file vuoto non viene considerato.
robots.txt
Questo è il comando più semplice:
User-agent: * Disallow: /
La prima riga si riferisce a tutti i bots, la seconda esclude tutti i file. In questo modo il sito non verrebbe registrato da alcun motore di ricerca.
User-agent: * Disallow:
Senza lo slash invece il sito viene aperto a tutti i bots per la registrazione delle pagine. Ma normalmente si ha qualcosa da nascondere ai motori di ricerca.
User-agent: * Disallow: /test
In questo modo vengono esclusi tutti i file e le directory che iniziano con test. Se si volesse escludere la directory test, bisogna scrivere:
User-agent: * Disallow: /test/
Con User-agent: * ci si rivolge a tutti i bots. Per dare istruzioni solo al Googlebot, bisogna scrivere:
User-agent: * Disallow: /test/ User-agent: Googlebot Disallow: /test/ Disallow: /test1/ Disallow: /test2/ #non leggere questa directory
Con il segno # si possono introdurre commenti.
Attenzione però: introducendo User-agent: Googlebot Google guarda solamente la sua istruzione in questa sezione e non legge le istruzioni che si trovano sotto User-agent: *. Nel caso che nel sito web ci siano delle parti (pagine o directory) che non devono essere lette dai bot, allora queste devono essere notate in ogni sezione.
Per evitare che Google Bot indicizzi tutte le pagine:
User-agent: Googlebot Disallow: /
Con allow si dice espressamente al Googlebot che deve indicizzare un file particolare nella directory che non deve indicizzare:
User-agent: Googlebot Allow: /test/test.html Disallow: /test/
Per evitare che Microsoft Search (Windows Live) controlli tutto il sito:
User-Agent: MSNBot Disallow: /
Per evitare che Microsoft Search (Windows Live) controlli la pagina e continui a girare di qua e di là, lo si può rallentare:
User-Agent: MSNBot Crawl-Delay: 36000
Per evitare che Microsoft Search (Windows Live) faccia vedere il preview della pagina:
User-agent: searchpreview Disallow: /
Per evitare che Alexa registri le pagine nel suo archivio:
User-Agent: ia_archiver Disallow: /
Per il file robots.txt non è stata definita una grandezza massima. Potrebbe anche essere più grande di 2000 caratteri.
Sul sito robotstxt.org si trova tutto quello che c’è da sapere sul file robots.txt (in inglese).
Sul sito mcanerin.com si può generare online il file robots.txt.
Articoli correlati: