Web Scraping: manipolazione e info generali.

IImanuII

Utente Attivo
10 Giu 2012
390
0
16
Salve a tutti, ^^

Per me l'informatica è un hobby, poichè nella vita ho deciso di intraprendere una strada diversa. Tuttavia mi piace parecchio cercare di scrivere ,con sforzo e evitando i copia e incolla (o perlomeno un copia e incolla bieco che non mi fa imparare nulla), righe di codice (php html css e qualcosina..ina..ina di c++).

In genere mi pongo degli obiettivi, cerco di fare progetti.

Avendone terminato uno di recente ho deciso di aprirne uno nuovo. Per fare ciò necessito di alcune informazioni in più sul curl e sul Web Scraping.

Ho letto qui la documentazione https://www.mrw.it/php/articoli/web-scraping-php_1152.html

Ho anche pensato all'utilizzo di alcune classi come Snoopy o Simple HTML DOM .

Con ambedue sono riuscito egregiamente a fare il login su di un sito, emulare la chiamata di diversi browser e riportare i dati su di una pagina web gestita da me.
Tuttavia credo che con le classi risparmi fatica ma non impari molto...almeno credo che siano poco utili a chi deve acquisire conoscenza...
Così mi sono riproposto di usare le manine sante e provare a scrivere i dati a mano.

Una cosa non mi è molto chiara: la manipolazione dei dati che ricevi una volata "grabbati" dal sito target. Mi spiego: una volta che ad es. recupero la classifica di serie A come faccio poi a modificare quei dati?

I dati che ricevo sulla mia pagina dipendono da js e fogli di stile che vengono ricercati sul mio host, inoltre volevo sapere se e come fare per gestirli (spostarli, modificarli etc...)

Qualcuno ha o sa dove posso reperire una documentazione dettagliata? Magari se c'è in Italiano (so che chiedo molto XD )
 
Va bene imparare come funziona una libreria, ma non va assolutamente bene sprecare il proprio tempo scrivendo codice già esistente e che funziona meglio, perché realizzato da persone con una grande esperienza alle spalle, tienilo a mente quando crei qualcosa: se c'è già uno strumento che soddisfa le tue esigenze, usalo, non farti prendere dalla sindrome NIH, che nella comunità PHP dilaga.

Veniamo ora alla parte tecnica della tua domanda: per manipolare i dati una volta recuperati devi usare delle espressioni regolari oppure una libreria che ti consenta di navigare tra gli elementi DOM (es. SimpleXML).

Se stai cercando una buona libreria per fare Web scraping, dai un'occhiata a Goutte.
 
Va bene imparare come funziona una libreria, ma non va assolutamente bene sprecare il proprio tempo scrivendo codice già esistente e che funziona meglio, perché realizzato da persone con una grande esperienza alle spalle, tienilo a mente quando crei qualcosa: se c'è già uno strumento che soddisfa le tue esigenze, usalo, non farti prendere dalla sindrome NIH, che nella comunità PHP dilaga.

Veniamo ora alla parte tecnica della tua domanda: per manipolare i dati una volta recuperati devi usare delle espressioni regolari oppure una libreria che ti consenta di navigare tra gli elementi DOM (es. SimpleXML).

Se stai cercando una buona libreria per fare Web scraping, dai un'occhiata a Goutte.

Ciao alex! (posso chiamarti alex? :3 )

Grazie per le dritte!
la sindrome di NIH non la conoscevo xD . Non credo di esserne affetto, probabilmente mi sono espresso male. Non tendo a preferire le cose fatte da me, anzi tutt'altro... xD però se io utilizzo una classe, ovviamente il risultato che ho non so da dove viene. Ti faccio un esempio: ho fatto dei form con la classica mail di php, dopo almeno averla conosciuta un pochino, sono passato alla funzionalissima ed efficientissima classe phpmailer. Ovviamente con questa i risultati sono stati decisamente egregi.

Appena posso consulterò le fonti che mi hai dato :)
 

Discussioni simili