robots.txt

  • Creatore Discussione Creatore Discussione Fabio90
  • Data di inizio Data di inizio

Fabio90

Utente Attivo
29 Feb 2012
507
0
16
Buonasera forum,
ho un sito che presenta diverse url errate ed indicizzate che vorrei rimuovere site:casacasette.it/byp.product_sku

che istruzione posso dare al robots.txt per eliminarle tutte?

Grazie
 
Ciao, in realtà così non le rimuovi o meglio Google non le scansionerà più ma rimarranno nella SERP.. Per rimuoverle dalla SERP dovresti prima chiedere a Google di rimuoverle attraverso la Search Console https://www.google.com/webmasters/tools/url-removal e poi il robots farà si che non vengano più reindicizzate :)

Ciao Francesco,
Hai ragione anche se normalmente dopo il disallow la pagina smette di essere indicizzata alla successiva scansione, esistono casi (solitamente giustificati da link con anchor text correlate) in cui la pagina resta visibile nella serp, sostituendo la descrizione con un messaggio di Google.

Però il tool per la rimozione degli url ha una durata temporanea di 90 giorni. Per eliminare in modo permanente la pagina bisogna bloccare l'accesso alla pagina oppure eliminarla.

Quindi se non funziona il disallow da solo, anche con il tool dopo 90 giorni la pagina tornerà visibile nella serp.

Info : https://support.google.com/webmasters/answer/1663419?hl=it


Per eliminare una pagina web dalla serp di Google senza l'uso del robots.txt e senza eliminarla, si può usare il tag robots impostato su noindex.

info : https://support.google.com/webmasters/answer/93710

Buona serata :byebye:
 
Ciao Francesco,
Hai ragione anche se normalmente dopo il disallow la pagina smette di essere indicizzata alla successiva scansione, esistono casi (solitamente giustificati da link con anchor text correlate) in cui la pagina resta visibile nella serp, sostituendo la descrizione con un messaggio di Google.

Però il tool per la rimozione degli url ha una durata temporanea di 90 giorni. Per eliminare in modo permanente la pagina bisogna bloccare l'accesso alla pagina oppure eliminarla.

Quindi se non funziona il disallow da solo, anche con il tool dopo 90 giorni la pagina tornerà visibile nella serp.

Info : https://support.google.com/webmasters/answer/1663419?hl=it


Per eliminare una pagina web dalla serp di Google senza l'uso del robots.txt e senza eliminarla, si può usare il tag robots impostato su noindex.

info : https://support.google.com/webmasters/answer/93710

Buona serata :byebye:

Giustissima puntualizzazione, perfettamente d'accordo con te!
Buona Giornata ;)
 
Salve a tutti. Scrivo qui perchè penso di avere anche io un problema con il robots.txt. O almeno potete darmi una mano per capire se effettivamente il mio sito è impostato correttamente per essere indicizzato bene da Google?
Il sito è il seguente:
site:studiometrica.weebly.com
Come potete notare l'ho creato gratuitamente e quindi sono parecchio vincolato (da quel che so non posso modificare da me il file robots.txt).
Scrissi al supporto della Weebly per capire se andasse tutto bene e mi dissero di si. Ma non è che mi fidi tanto di loro. Comunque, da Google Search Console mi da parecchi avvisi relativi a parti bloccate dal robots.txt (scusate i miei termini poco tecnici).
E questo è quello che mi compare se scrivo studiometrica.weebly.com/robots.txt
Sitemap: http://studiometrica.weebly.com/sitemap.xml

User-agent: NerdyBot
Disallow: /

User-agent: *
Disallow: /ajax/
Disallow: /apps/

Cosa è il NerdyBot?
Un saluto
Ivan
 
Salve a tutti. Scrivo qui perchè penso di avere anche io un problema con il robots.txt. O almeno potete darmi una mano per capire se effettivamente il mio sito è impostato correttamente per essere indicizzato bene da Google?
Il sito è il seguente:
site:studiometrica.weebly.com
Come potete notare l'ho creato gratuitamente e quindi sono parecchio vincolato (da quel che so non posso modificare da me il file robots.txt).
Scrissi al supporto della Weebly per capire se andasse tutto bene e mi dissero di si. Ma non è che mi fidi tanto di loro. Comunque, da Google Search Console mi da parecchi avvisi relativi a parti bloccate dal robots.txt (scusate i miei termini poco tecnici).
E questo è quello che mi compare se scrivo studiometrica.weebly.com/robots.txt
Sitemap: http://studiometrica.weebly.com/sitemap.xml

User-agent: NerdyBot
Disallow: /

User-agent: *
Disallow: /ajax/
Disallow: /apps/

Cosa è il NerdyBot?
Un saluto
Ivan

E' un nuovo crawler web.. Secondo me il robots è corretto. Stai bloccando la scansione del sito da parte di NerdyBot che a giudicare da quanto ho letto in altri forum non se ne parla benissimo.. :):byebye:
 

Discussioni simili