Il file “robots.txt” comunica ai motori di ricerca se debbano o meno accedere e indicizzare le varie sezioni del tuo sito. Questo file deve essere nominato “robots.txt” ed essere situato nella cartella principale del tuo sito.

Potresti non volere che certe pagine del tuo sito siano indicizzate, perché potrebbero non essere utili agli utenti se trovate come risultati di un motore di ricerca. Se vuoi impedire ai motori di ricerca di indicizzare le tue pagine, gli Strumenti per Webmaster di Google mettono a disposizione un pratico Generatore di file robots.txt per aiutarti a creare questo file. Se il tuo sito utilizza dei sottodomini e vuoi che i motori di ricerca non indicizzino alcune pagine all’interno di un particolare sottodominio, dovrai creare un file robots.txt separato per quel sottodominio.

Ci sono diversi altri modi per evitare che il tuo contenuto compaia nei risultati di ricerca, come aggiungere l’attributo “noindex” al tuo meta tag “robots”, utilizzare .htaccess a cartelle protette da password, oppure ricorrere agli Strumenti per Webmaster di Google per rimuovere del contenuto già indicizzato.

Buone norme per l’uso del file robots.txt

Utilizza metodi più sicuri per il contenuto sensibile

È meglio non affidarsi al file robots.txt per bloccare l’accesso a materiale sensibile o confidenziale. I motori di ricerca potrebbero comunque fare riferimento all’URL che stai bloccando (mostrando soltanto l’URL, non il titolo o la descrizione) nel caso ci siano collegamenti a quell’URL da qualche parte in Internet (ad esempio da referrer log). Inoltre, motori di ricerca non conformi o meno sofisticati, ad esempio non uniformati al Robots Exclusion Standard (standard di esclusione dei robots), potrebbero non rispettare le istruzioni del tuo file robots.txt. Infine, un utente curioso potrebbe esaminare le cartelle e sottocartelle nel tuo file robots.txt e indovinare l’URL corrispondente al contenuto che tu non vuoi che sia visto. Criptare il contenuto proteggerlo con password tramite l’.htaccess sono metodi molto più sicuri.
Evita di: sottoporre all’indicizzazione pagine che offrono solamente risultati di ricerca (agli utenti non piace approdare da un motore di ricerca ad un’ulteriore pagina di risultati di ricerca che non offre un significativo valore aggiunto) o sottoporre all’indicizzazione un alto numero di pagine generate automaticamente, aventi identico o quasi identico contenuto. Chiediti: “Ha davvero senso che queste 100.000 pagine pressoché identiche siano nell’indice di un motore di ricerca?”. Evita di sottoporre all’indicizzazione URL creati come risultato di un servizio proxy.

Utilizzare il file robot.txt rientra nelle tecniche White Hat