Il robots.txt è un file di testo che viene utilizzato per fornire alcune indicazioni ai motori di ricerca, nello specifico agli spider (definiti spesso anche bot o crawler…) dei motori di ricerca.
All’interno di questo file è possibile inserire delle righe di testo per indicare ai motori di ricerca quali pagine e quali sezioni del sito non sono accessibili a loro. Queste indicazioni vengono utilizzate anche per evitare che i motori di ricerca perdano tempo e sprechino risorse su pagine e sezioni non particolarmente rilevanti.
Un generico file robots.txt ha una struttura simile a questa:
User-agent: *
Disallow: /accesso-vietato/
Allow: /accesso-consentito/
Sitemap: https://www.esempio.com/sitemap.xml
Cosa indicano le varie voci presenti in un file robots.txt?
User-agent: rappresenta l’intestazione che specifica il robot o l’applicazione a cui si applicano le istruzioni che seguono. È possibile indicare un agente utente specifico (ad esempio, “Googlebot” per il crawler di Google), o utilizzare l’asterisco (*) per indicare tutte le applicazioni.
Disallow: Questa direttiva indica quali parti del sito web non devono essere accessibili al robot o all’applicazione specificata. È seguita dalla specifica del percorso della directory o del file che non si desidera che sia accessibile.
Allow: Questa direttiva indica quali parti del sito web sono consentite al robot, anche se la direttiva “Disallow” è stata specificata in modo più generale. Funziona come un’eccezione alla regola di divieto. È importante considerare che non devi usare la direttiva Allow per tutti i file e le cartelle che vuoi far indicizzare, ma solo per specificare eventuali eccezioni rispetto a una direttiva Disallow.
Sitemap: Questa direttiva specifica il percorso del file sitemap.xml associato al sito web. Il file sitemap.xml fornisce una lista di URL del sito web che il proprietario del sito desidera che vengano indicizzati dai motori di ricerca.
Qui di seguito ti riporto un altro esempio di file robots.txt con regole specifiche per il bot di Google e quello di Bing e poi una regola generale per tutti gli altri.
User-agent: Googlebot
Disallow: /privato/
User-agent: Bingbot
Disallow: /admin/
User-agent: *
Disallow: /segreto/
Allow: /pubblico/
Sitemap: https://www.esempio.com/sitemap.xml
Il file robots.txt non deve essere utilizzato per evitare che alcune pagine del tuo sito non compaiono tra i risultati di ricerca di Google o di altri motori. Per fare ciò ci sono altri metodi come ad esempio l’utilizzo del meta tag all’interno del codice HTML della pagina:
<meta name="robots" content="noindex">
La maggior parte dei plugin SEO per WordPress ti permette di impostare questo meta tag per evitare che una determinata pagina del sito non venga indicizzata dai motori di ricerca.