Il web scraping: quali sono i rischi?
- Massimo Zanolla
- 10 giu 2024
- Tempo di lettura: 2 min
Aggiornamento: 28 giu 2024
Il web scraping (o data scraping) è un modo automatizzato per estrarre grandi quantità di informazioni pubbliche dal web. Utilizzi frequenti di questo strumento sono: il monitoraggio dei prezzi da parte delle aziende, per fissare il prezzo ottimale dei prodotti; la ricerca di mercato; il monitoraggio delle notizie; l'analisi delle tendenze degli utenti dei social media e l'invio di email promozionali. Sebbene da un lato questo tipo di pratica non sia vietato, poiché i dati sono pubblicamente disponibili (quindi non crittati o protetti da password), bisogna dall'altro ricordare che la sua liceità dipende innanzitutto dalla liceità dei dati stessi, nonché dalla base giuridica e dalle modalità della loro raccolta. Si pensi, a titolo d'esempio, alla scritta in sovrimpressione comparsa pochi mesi fa nei canali televisivi Mediaset: «È severamente vietato ogni utilizzo delle immagini trasmesse atto all’addestramento di sistemi di intelligenza artificiale generativa così come l’utilizzo di mezzi automatizzati di data scraping».
Tale attività, soprattutto in relazione ai social media, implica possibili rischi per la privacy, ma anche per la tutela e la sicurezza dell'individuo. Le informazioni che gli utenti pubblicano online potrebbero essere infatti utilizzate per scopi non attesi o non desiderati. I principali pericoli, così come individuati dall'Information Commissioner's Office (ICO), riguardano attacchi informatici, furti d'identità, sorveglianza e profilazione, intromissioni del governo o di servizi di intelligence, comunicazioni di marketing o spam.
Le pratiche di data scraping necessitano di particolare controllo qualora i dati raccolti siano utilizzati, come si accennava sopra, per l'addestramento di sistemi di Intelligenza artificiale generativa. Sebbene si possa istruire il sistema di IA generativa, in risposta a determinate interazioni con l'utente, a non divulgare al pubblico informazioni sensibili, è opportuno agire a monte sulle fonti stesse della raccolta, non essendo garantita l'affidabilità dello strumento. Con particolare riguardo a quest'ultimo punto, un recente studio effettuato su ChatGPT ha evidenziato come sia possibile sfruttare un'allucinazione del chatbot, tramite la richiesta di reiterare all'infinito una parola o una sequenza di parole, per provocare la comunicazione di informazioni, anche sensibili, provenienti dal dataset di addestramento.
Le informazioni raccolte sono conservate e riutilizzate per i fini sopra menzionati e quindi, come si diceva, è necessario stabilire dei limiti e porre delle tutele in difesa dell'utente. A tal proposito, in seguito ad un'indagine conoscitiva in materia, Il Garante per la protezione dei dati personali ha indicato alcune misure di contrasto al web scraping indiscriminato. Queste sono:
la creazione di aree riservate (e quindi non pubbliche) a cui accedere tramite registrazione, in modo da impedire la raccolta indesiderata;
inserimento di clausole ad hoc nei termini di servizio che, pur fornendo una tutela ex post, possono comunque svolgere una significativa funzione di deterrenza;
monitoraggio del traffico di rete;
intervento sui bot sull'utilizzo dei quali si basa la raccolta. Tra le soluzioni proposte vi sono la verifica CAPTCHA e la modifica del file robot.txt che permette di indicare se e quali parti del sito web possano essere utilizzate ai fini di scraping. Questo strumento, almeno in teoria, potrebbe essere utilizzato per impedire in modo mirato l'estrapolazione dei contenuti per l'addestramento dell'IA generativa.
Commentaires