WEB SCRAPING & IA GENERATIVA: il Garante invita a valutare l'adozione di misure di contrasto nei siti internet e nelle piattaforme online

Bergs&More
11 giu 2024
Tempo di lettura: 5 min

Con provvedimento n. 329 del 20 maggio 2024, il Garante per la Protezione dei Dati Personali ha adottato la nota informativa “Web scraping ed intelligenza artificiale generativa: nota informativa e possibili azioni di contrasto” allegata al provvedimento stesso. La nota tiene conto dei contributi ricevuti dal Garante nell’ambito dell’indagine conoscitiva in materia di web scraping deliberata con precedente provvedimento del 21 dicembre 2023.

Si premette che con “web scraping” ci si riferisce all’attività di raccolta massiva ed indiscriminata di dati (anche personali) tramite bot al fine di memorizzare e conservare i dati raccolti per successive mirate analisi, elaborazioni ed utilizzi. Il web scraping può essere attuato per molteplici finalità, sia lecite sia illecite: la nota informativa in esame si focalizza sul web scraping connotato dalla finalità di addestrare algoritmi di intelligenza artificiale generativa.

La nota informativa non si rivolge ai soggetti che effettuano web scraping: non vengono espresse valutazioni sulla liceità o meno di tale attività per la finalità di addestramento di algoritmi di intelligenza artificiale generativa[1]. Essa si rivolge ai soggetti, pubblici o privati, che, in qualità di titolari del trattamento, pubblicano sui propri siti web o piattaforme online dati personali. La nota informativa risulta quindi essere particolarmente interessante poiché fornisce indicazioni pratiche a chi gestisce siti web e piattaforme online in qualità di titolari del trattamento. Infatti, molte delle azioni proposte nella nota informativa risultano essere utili per contrastare, o almeno mitigare, qualsiasi attività di web scraping, sebbene il Garante si concentri sull’attività di web scraping effettuata con finalità di training di algoritmi di intelligenza artificiale generativa.

Prima di presentare le possibili azioni di contrasto al web scraping, il Garante effettua una serie di doverose premesse:

in forza del principio di accountability, le azioni di contrasto proposte dal Garante non sono da considerarsi obbligatorie poiché ciascun titolare del trattamento deve valutare, caso per caso, se e quali misure implementare per prevenire o mitigare il web scraping tenendo conto, inter alia, della natura, del contesto e delle finalità dei dati personali pubblicati e della tutela apprestata da altre normative (ad esempio, la normativa sul diritto di autore);
le azioni di contrasto prospettate dal Garante non possono ritenersi idonee a impedire totalmente il web scraping, ma rappresentano cautele da adottarsi per impedire l’utilizzazione ritenuta non autorizzata, da parte di terzi, dei dati personali pubblicati;
la nota informativa non si occupa di indicare le misure di sicurezza da implementare per proteggere i dati personali dal web scraping “malevolo” che sfrutta le vulnerabilità dei sistemi informativi.

Passando alle singole azioni di contrasto prospettate dal Garante, esse possono così riassumersi.

1. Creazione di aree riservate

Le aree riservate sottraggono dati dalla pubblica disponibilità, contribuendo indirettamente ad una maggiore tutela dei dati personali rispetto al web scraping. Di contro, tale misura non può dar luogo ad un trattamento di dati eccessivo da parte del titolare, richiedendo, ad esempio, oneri di registrazione ultronei e/o ingiustificati.

2. Inserimento di clausole ad hoc nei termini di servizio

L’inserimento nei termini di servizio di un sito web o di una piattaforma online dell’espresso divieto di utilizzare tecniche di web scraping costituisce una cautela di mera natura giuridica, che opera ex post, che può fungere da deterrente: se tale clausola non viene rispettata, i gestori dei siti web e delle piattaforme online possono agire in giudizio per far dichiarare l’inadempimento contrattuale della controparte.

3. Monitoraggio del traffico di rete

Il monitoraggio delle richieste HTTP consente di individuare eventuali flussi anomali di dati in ingresso ed in uscita e di intraprendere adeguate contromisure di protezione. Tale cautela può essere accompagnata anche da un rate limiting, una misura tecnica che permette di limitare il traffico di rete ed il numero di richieste selezionando solo quelle provenienti da determinati indirizzi IP, al fine di impedire a priori un traffico eccessivo di dati.

4. Intervento sui bot

Poiché il web scraping si basa sull’utilizzo di bot, qualunque tecnica in grado di limitarne l’accesso si rivela efficace per arginare, prevenire e mitigare il web scraping. Si riassumono qui gli esempi di interventi sui bot proposti dal Garante:

l’utilizzo di verifiche CAPTCHA;
la modifica periodica del markup HTML[2], in modo da ostacolare o comunque rendere più complicato il web scraping da parte dei bot, ad esempio tramite annidamento di elementi HTML[3] oppure modificando altri aspetti del markup, anche in modo randomico;
l'incorporazione dei contenuti ovvero dei dati che si intendono sottrarre al web scraping all'interno di oggetti multimediali (di contro, tale misura potrebbe rappresentare un ostacolo per gli utenti che perseguano fini legittimi, impedendo, ad esempio, di copiare i contenuti dal sito web);
il monitoraggio dei file di log, al fine di bloccare eventuali user-agent non desiderati, ove identificabili;
l’intervento sul file robots.txt, cioè il file di testo che permette ai gestori di siti web e di piattaforme online di indicare se l’intero sito web o alcune sue parti possono o meno essere oggetto di indicizzazione e web scraping (tuttavia, il file robots.txt non impone ai bot di seguire le istruzioni ivi contenute, pertanto il rispetto del file robots.txt si basa solo sull’assunzione di un impegno etico da parte dei web scraper).

Le azioni di contrasto elencate dal Garante non sono da considerarsi obbligatorie in ogni caso. Ciascun titolare del trattamento, come accennato, è chiamato a valutare, di volta in volta, se e quali misure implementare per prevenire e/o mitigare il web scraping per finalità di addestramento di algoritmi di intelligenza artificiale generativa. Tali valutazioni potrebbero risultare essere particolarmente complesse, considerato che esse implicano, tra l’altro, una valutazione circa la compatibilità o incompatibilità delle finalità di web scraping, volto al generative artificial intelligence algorithms training effettuato da soggetti terzi, con le finalità e le basi giuridiche della messa a disposizione del pubblico dei dati personali sui siti web o le piattaforme online da parte dei medesimi titolari del trattamento. A tal fine, i titolari del trattamento sono chiamati ad attuare un coordinamento tra la disciplina normativa sulla protezione dei dati personali con ulteriori numerose discipline normative, come, ad esempio, quelle concernenti il diritto d’autore, gli obblighi di trasparenza a carico della Pubblica Amministrazione e il riuso dei dati.

[1] Viceversa, in riferimento ai soggetti che effettuano il web scraping e alla legittimità di tale pratica, si possono citare i seguenti documenti.

Nel documento “Report of the work undertaken by the ChatGPT Taskforce”, pubblicato dall’EDPB il 23 maggio 2024 e contenente alcuni risultati preliminari delle indagini coordinate dalla ChatGPT task force circa i trattamenti di dati personali effettuati tramite ChatGPT, viene precisato che le valutazioni circa la legittimità del web scraping attuato da OpenAI sono ancora in corso.

E ancora, l’Autorità per la protezione dei dati personali olandese ha pubblicato in data 1° maggio 2024 delle linee guida sul web scraping, sempre rivolte a chi effettua tale attività, indipendentemente dal fatto che venga svolta per finalità di addestramento di algoritmi di intelligenza artificiale. Si sottolinea, in particolare, che nel documento viene affermato che l’unica base giuridica astrattamente invocabile al fine di effettuare web scraping ai sensi della normativa sulla protezione dei dati personali sia il legittimo interesse, sebbene, date le caratteristiche del web scraping, sia spesso difficile se non impossibile che sussistano i presupposti per riconoscere la sussistenza del legittimo interesse. All’interno delle linee guida è presente altresì un paragrafo dedicato al web scraping effettuato con la finalità di addestrare sistemi di intelligenza artificiale. In quest’ultimo paragrafo l’Autorità per la protezione dei dati personali olandese precisa che per tale ipotesi di web scraping sono da considerarsi ulteriori rischi, oltre alla violazione del GDPR, che possono minare i diritti fondamentali. Infatti, nel web si possono rinvenire numerose informazioni errate, ingannevoli o che presentano bias, che se utilizzate per addestrare sistemi di intelligenza artificiale, fan sì che questi ultimi potranno restituire in futuro informazioni errate o determinare effetti discriminatori.

[2] I markup possono definirsi come i mezzi attraverso i quali si esplicita una particolare interpretazione di un testo.

[3] È verosimile che qui il Garante faccia riferimento all’utilizzo di più tag, i quali sono codici di formattazione che contribuiscono a determinare i markup.

Autore: Avv. Lorenzo Balestra

Contatto: Avv. Luisa Romano l.romano@bergsmore.com