Composizione Robots.txt

  • Creatore Discussione Creatore Discussione Max 1
  • Data di inizio Data di inizio

Max 1

Super Moderatore
Membro dello Staff
SUPER MOD
MOD
29 Feb 2012
4.445
338
83
C'è chi sostiene che l'istruzione Disallow vuole scritta così:
Codice:
Disallow: /admin
e c'è chi sostiene che vuole scritta così:
Codice:
Disallow: /admin/
secondo voi quale è la versione giusta?
 
È quello che penso anche io, ma l'opposizione è forte! C'è chi dice che una regola fissa e uno standard non esiste
 
Allora: quella mostrata è la regola, poi ovviamente chi progetta un motore di ricerca segue la regola ufficiale o meno, Microsoft ad esempio non usa la parentesi finale per le cartelle, cioè la prima che hai scritto, per Google invece è necessaria.
Poi ovviamente chi più ne ha ne metta!
Google ha implementata la funzione Sitemap: che permette di definire la sitemap.xml direttamente nel file robots.txt
Oppure Allow: come contrario di Disallow:
Esisteno le Extended Standard for Robots Exlusion che propongono anche comandi per i crawler per dire quando passare e quandi ripassare, ovviamente non sono standard.

Questo il file robots.txt della wikipedia, studialo se vuoi https://it.wikipedia.org/robots.txt
fonti varie delle cavolate che dico: :D
https://it.wikipedia.org/wiki/Protocollo_di_esclusione_robot
https://support.google.com/webmasters/answer/6062608?hl=it
https://support.microsoft.com/it-it/kb/217103/it
 
Ciao. Si! È tutto esatto! Ma la discussione mi appassionava.

Una cosa che non ho mai provato e verificato l'effetto, (non saprei neanche come fare la verifica) è scrivere entrambe le versioni nello stesso robots. Cosa pensi, che i motori se ne abbiano a male?
 
Ma io penso che è perfettamente inutile dato che uno, cioè BING li legge senza slash finali e gli altri no.
Una possibilità forse è seguire il file robots di Ask.com uno dei motori di ricerca commerciali più usati, eccolo qui: http://www.ask.com/robots.txt
Se ho capito il senso di quello che hanno fatto, ma non ne sono poi tanto sicuro perché mi pare un bel casino, lo usano così:
Codice:
isallow: /Allabout
Disallow: /allabout?
Disallow: /ans
Disallow: /answers
Disallow: /ar?
Disallow: /maps?
Disallow: /News
Disallow: /news?
Disallow: /Pictures
Disallow: /pictures?
Disallow: /ref
Disallow: /settings
Disallow: /
Cioè usano un carattere ? ma non so se è un comando per Ask.com o un hack per far saltare ai crawler dei comandi, certo non è standard.
Il fatto è che robots.txt non ti asscura affatto che un qualsiasi bot che passa di lì lo legga o se dopo averlo letto decida di fare ciò che c'è scritto dentro.
Chi comanda al solito sono i motori di ricerca non tu, non io, e ne a quanto pare gli standard.
Quello che bisogna fare è usare le direttive di Google perché sicuramente è il più usato tra i motori di ricerca e sperare che comunque anche Bing di fronte ad un Disallow: /dir/ caipisca che vuol dire.
Inoltre usare sempre e comunque le direttive robots dei metatag perché comunque alcuni bot usano leggere solo quelle, e pure Google le usa specie per escludere vecchi file che ha nella serp.
Insomma se non vuoi che un motore di ricerca ficchi il naso nella cartella /dir/ le cose migliori che puoi fare sono sostanzialmente due:
Escluderla da robots.txt e poi dentro mettere un file index.html che porti come unica istruzion <meta name="robots" conten="noindex,nofollow">.
Oppure mettere un file .htaccess che ne vieti l'accesso.
Ovviamente la prima non ti garantisce nulla, mentre la seconda esclude a chiunque l'accesso il che può essere alquanto controproducente.
 

Discussioni simili