Allora: quella mostrata è la regola, poi ovviamente chi progetta un motore di ricerca segue la regola ufficiale o meno, Microsoft ad esempio non usa la parentesi finale per le cartelle, cioè la prima che hai scritto, per Google invece è necessaria.
Poi ovviamente chi più ne ha ne metta!
Google ha implementata la funzione Sitemap: che permette di definire la sitemap.xml direttamente nel file robots.txt
Oppure Allow: come contrario di Disallow:
Esisteno le Extended Standard for Robots Exlusion che propongono anche comandi per i crawler per dire quando passare e quandi ripassare, ovviamente non sono standard.
Ciao. Si! È tutto esatto! Ma la discussione mi appassionava.
Una cosa che non ho mai provato e verificato l'effetto, (non saprei neanche come fare la verifica) è scrivere entrambe le versioni nello stesso robots. Cosa pensi, che i motori se ne abbiano a male?
Ma io penso che è perfettamente inutile dato che uno, cioè BING li legge senza slash finali e gli altri no.
Una possibilità forse è seguire il file robots di Ask.com uno dei motori di ricerca commerciali più usati, eccolo qui: http://www.ask.com/robots.txt
Se ho capito il senso di quello che hanno fatto, ma non ne sono poi tanto sicuro perché mi pare un bel casino, lo usano così:
Cioè usano un carattere ? ma non so se è un comando per Ask.com o un hack per far saltare ai crawler dei comandi, certo non è standard.
Il fatto è che robots.txt non ti asscura affatto che un qualsiasi bot che passa di lì lo legga o se dopo averlo letto decida di fare ciò che c'è scritto dentro.
Chi comanda al solito sono i motori di ricerca non tu, non io, e ne a quanto pare gli standard.
Quello che bisogna fare è usare le direttive di Google perché sicuramente è il più usato tra i motori di ricerca e sperare che comunque anche Bing di fronte ad un Disallow: /dir/ caipisca che vuol dire.
Inoltre usare sempre e comunque le direttive robots dei metatag perché comunque alcuni bot usano leggere solo quelle, e pure Google le usa specie per escludere vecchi file che ha nella serp.
Insomma se non vuoi che un motore di ricerca ficchi il naso nella cartella /dir/ le cose migliori che puoi fare sono sostanzialmente due:
Escluderla da robots.txt e poi dentro mettere un file index.html che porti come unica istruzion <meta name="robots" conten="noindex,nofollow">.
Oppure mettere un file .htaccess che ne vieti l'accesso.
Ovviamente la prima non ti garantisce nulla, mentre la seconda esclude a chiunque l'accesso il che può essere alquanto controproducente.