Innanzitutto buongiorno a tutti.
Ho un quesito da porre alla vostra cortese attenzione, nella speranza di trovare a breve la retta via.
Inizio con il presentare l'obiettivo: vorrei realizzare una funzione che leggendo termini e condizioni di vari siti web (di una particolare categoria), ne monitorizzi le modifiche, che saranno poi visualizzate nel mio sito, con una sorta di confronto tra la versione attuale e quelle precedenti.
L'operazione di lettura dati, e salvataggio in db mysql, dovrebbe essere effettuata da cronojob. Immaginandola un'operazione lunga e laboriosa meglio farla la notte.
Mi è stato suggerito di effettuare un scrape delle pagine, operazione banale grazie alla libreria curl di php. Il problema è che le pagine ricercate non hanno uno standard, quindi c'è chi ha scritto termini e condizioni in tabelle annidate, chi in liste, chi in div, chi in uno stile tutto suo. Come posso eseguire l'operazione e ottenere solo il testo che mi serve?
Spero di essermi spiegato nel modo più chiaro possibile, ringrazio chiunque per l'attenzione e porgo cordiali saluti e buon lavoro a tutti.
Andrea Trovato
Ho un quesito da porre alla vostra cortese attenzione, nella speranza di trovare a breve la retta via.
Inizio con il presentare l'obiettivo: vorrei realizzare una funzione che leggendo termini e condizioni di vari siti web (di una particolare categoria), ne monitorizzi le modifiche, che saranno poi visualizzate nel mio sito, con una sorta di confronto tra la versione attuale e quelle precedenti.
L'operazione di lettura dati, e salvataggio in db mysql, dovrebbe essere effettuata da cronojob. Immaginandola un'operazione lunga e laboriosa meglio farla la notte.
Mi è stato suggerito di effettuare un scrape delle pagine, operazione banale grazie alla libreria curl di php. Il problema è che le pagine ricercate non hanno uno standard, quindi c'è chi ha scritto termini e condizioni in tabelle annidate, chi in liste, chi in div, chi in uno stile tutto suo. Come posso eseguire l'operazione e ottenere solo il testo che mi serve?
Spero di essermi spiegato nel modo più chiaro possibile, ringrazio chiunque per l'attenzione e porgo cordiali saluti e buon lavoro a tutti.
Andrea Trovato