Scrape efficiente

Tro4

Nuovo Utente
22 Gen 2008
1
0
0
Innanzitutto buongiorno a tutti.

Ho un quesito da porre alla vostra cortese attenzione, nella speranza di trovare a breve la retta via.

Inizio con il presentare l'obiettivo: vorrei realizzare una funzione che leggendo termini e condizioni di vari siti web (di una particolare categoria), ne monitorizzi le modifiche, che saranno poi visualizzate nel mio sito, con una sorta di confronto tra la versione attuale e quelle precedenti.

L'operazione di lettura dati, e salvataggio in db mysql, dovrebbe essere effettuata da cronojob. Immaginandola un'operazione lunga e laboriosa meglio farla la notte.

Mi è stato suggerito di effettuare un scrape delle pagine, operazione banale grazie alla libreria curl di php. Il problema è che le pagine ricercate non hanno uno standard, quindi c'è chi ha scritto termini e condizioni in tabelle annidate, chi in liste, chi in div, chi in uno stile tutto suo. Come posso eseguire l'operazione e ottenere solo il testo che mi serve?

Spero di essermi spiegato nel modo più chiaro possibile, ringrazio chiunque per l'attenzione e porgo cordiali saluti e buon lavoro a tutti.

Andrea Trovato
 
Discussioni simili

Discussioni simili