27/05/2024 di redazione

La task force europea pro privacy boccia ChatGpt: ancora problematico

Nella sua prima relazione sull’applicazione di OpenAI, il gruppo europeo sottolinea i punti di mancata compliance al Gdpr: dal bias al data scraping, fino alla condivisione dei dati personali fra utenti.

ChatGpt ha fatto progressi per tutelare la privacy e per gestire correttamente i dati personali degli utenti, ma non è ancora conforme al Gdpr. Così ha stabilito, in via preliminare, la task force europea alla tutela della privacy dai rischi dei large language model e delle applicazioni di AI generativa, come quelli di OpenAI. A pochi giorni dal lancio di Gpt-4o, la società di San Francisco ha ricevuto non una totale bocciatura ma una valutazione critica.

Nel report appena pubblicato dalla task force viene sottolineato che si tratta di valutazioni preliminari e che ciascun garante della privacy nazionale dei Paesi Ue dovrà calare l’analisi nel proprio contesto. Si riconosce che OpenAI lo scorso anno ha già introdotto alcune misure correttive assecondando le richieste del garante della privacy italiano. L’azienda di San Francisco non spaccia come verità assoluta gli output di ChatGpt (cioè le risposte o i testi generati in base a un prompt), tuttavia questo non è sufficiente per garantire il rispetto di un punto dell’articolo 5 del Gdpr, cioè l’accuratezza dell’informazione riguardante dati personali degli utenti. Per gli utenti non è sempre facile risconoscere le "allucinazioni" o i contenuti intrisi di bias.

“Di fatto, a causa della natura probabilistica del sistema, l’attuale approccio al training porta a modelli che potrebbero generare output pregiudizievoli o inventati”, si legge nel report. “Inoltre, è probabile che gli utenti considerino come accurati gli output forniti da ChatGpt, incluse le informazioni relative alle persone, a prescindere dalla loro effettiva correttezza”.

Altri elementi problematici sono la raccolta dei dati e il loro utilizzo per il training dell’algoritmo. Come noto, per l’allenamento dei large language model (come i Gpt alla base di ChatGpt) si fa ricorso al data scraping per ottenere grandi quantità di informazioni tratte anche da siti Web e social media. Alcuni di questi dati potrebbero essere stati pubblicati sul Web senza l’autorizzazione del soggetto interessato e potrebbero riguardare categorie sensibili come quelle elencate nell’articolo 9 del Gdpr: appartenenza religiosa o politica, etnia, dati relativi alla salute, orientamento sessuale e anche dati biometrici.

<a href="https://it.freepik.com/foto-gratuito/chat-ai-aperta-sul-laptop_38259334.htm#fromView=search&page=1&position=0&uuid=251f0fae-c997-4d5a-92cb-366231c05c34">Immagine di frimufilms su Freepik</a>

Lo scraping per definizione “rastrella” contenuti in modo automatizzato e senza fare distinzioni sulla loro qualità e tipologia, ed è irrealistico pensare che le aziende che allenano large language model, come OpenAI, valutino caso per caso quali dati acquisire. Tuttavia la task force europea chiede a OpenAI di fissare dei criteri di esclusione e dei meccanismi di filtro per evitare, per quanto possibile, la raccolta di dati personali pubblicati senza consenso e le categorie “sensibili” dell’articolo 9 del Gdpr.

Un ulteriore aspetto problematico riguarda i meccanismi di autoapprendimento dei modelli, che acquisiscono nuovi dati a ogni query dell’utente. Quindi è particolarmente importante che OpenAI informi i titolari dei dati del fatto che i dati di input potrebbero essere usati per scopi di addestramento del modello. Nella relazione si fa notare anche che è possibile, in teoria, che se un utente durante il “dialogo” con ChatGpt condivide propri dati personali, quei dati vengano successivamente impiegati per rispondere ad altre query di altri utenti. 

La task force non propone delle soluzioni tecniche, a parte il suggerimento dei filtri da adottare nello scraping dei dati. Sottolinea però che le difficoltà tecniche non possono valere come giustificazione della mancata conformità al Gdpr: l’onere della compliance, in ogni caso, spetta a OpenAI.

scopri altri contenuti su

ARTICOLI CORRELATI