[PHP] [regex] Validare un url

MarcoGrazia

Utente Attivo
15 Dic 2009
852
20
28
63
Udine
www.stilisticamente.com
Ciao, dovrei validare un url ed ho subito pensato alle regex, che però sono il mio tallone d'achille.
In pratica devo validare un valore proveniente da un form e che dovrebbe contenere un url, ben formato.
Cioè:
  • il valore manca, vuol dire che l'utente non ha inserito nulla, e va bene così;
  • il valore c'è, ma manca lo schema, che può essere http:// o https:// nel caso manchi, si sceglie il primo, il più diffuso.
  • il valore c'è, ma non è ben formato, cioè parti di esso sono scritte male o mancanti.
Nei primi due casi è facile verificarlo e me la cavo al solito modo, verifica che il campo non sia vuoto, ricerca della stringa con stripos(), ma sulla terza parte non so da dove iniziare, mi date una mano?
Ho anche provato ad usare i filtri, ma non mi soddisfano molto come resa.
Anche considerando quello che scrivono al riguardo, gli utenti sul manuale del PHP: https://www.php.net/manual/en/filter.filters.validate.php#110411
Tanto per fare un esempio, per i filtri del PHP l'url "http://example.com/"><script>alert(document.cookie)</script>" è valido ;)
 
Per semplicità forse ti converrebbe impostare l'input type su url, così te lo valida da solo, altrimenti potresti usare filter_var() di PHP mettendo come secondo parametro FILTER_VALIDATE_URL
 
Per semplicità forse ti converrebbe impostare l'input type su url, così te lo valida da solo, altrimenti potresti usare filter_var() di PHP mettendo come secondo parametro FILTER_VALIDATE_URL
Come ho scritto su, quel filtro non è molto sicuro, valida anche un tentativo di injection.
D'altra parte validare, gli URL come gli indirizzi email sono un vero incubo da validare, perché le impostazioni sono troppo larghe.
Un URL è un subset di URI e già qui si crea un problema, poi alcune parti che consideriamo fondamentali possono mancare, ad esempio localhost è un indirizzo perfettamente formato, ma sul web non è così.
localdomain@localhost è un indirizzo perfettamente formato, ma sul web non arriveresti da nessuna parte.
Tornando agli URL, la RFC permette come scheme un insieme di protocolli, ma tel: e mail: ad esempio non sono validi, però è possibile usarli.
Inoltre il filtro FILTER_VALIDATE_EMAIL usato da solo non è UTF valido, ma negli indirizzi sono ammessi caratteri non latini, infatti anni dopo PHP col 7.1 è andata ai ripari con una opzione: FILTER_FLAG_EMAIL_UNICODE tanto per dire.
Insomma troppe variabili in gioco.
Ora provo con parse_url() e poi vedo.
 

Discussioni simili