L’intelligenza artificiale può costare caro alle aziende: non solo e non tanto perché spesso va acquistata e per i suoi consumi energetici, ma perché se non correttamente gestita è un fattore di rischio. Anzi, di diversi rischi. Il rischio non è solo di un tipo e non si lega solo a dinamiche di cybersicurezza intensa in senso stretto. In gioco ci sono la privacy, la reputazione di un’azienda, l’affidabilità dei suoi servizi e anche la tutela della “verità” di fronte ad applicazioni di intelligenza artificiale che possono essere usate per censurare, distorcere e manipolare le coscienze. Gli errori possono passare in cavalleria, a volte, ma anche tradursi in figuracce, problemi con i clienti, danni di reputazione o multe per mancata compliance. D’altro canto l’adozione dell’AI nelle aziende prosegue, in varie forme, dati gli innegabili vantaggi che l’uso di questa tecnologia comporta.
A fare il punto della situazione arriva un nuovo studio di Trend Micro, titolato “Risks of Unmanaged AI Reliance: Evaluating Regional Biases, Geofencing, Data Sovereignty, and Censorship in LLM Models”. Si tratta del risultato di un’analisi condotta su oltre 100 grandi modelli linguistici, tra cui quelli sviluppati da OpenAI, Anthropic, Google, Meta, Mistral, Nvidia, Perplexity, oltre al discusso Grok di xAI e ai prodotti della cinese DeepSeek, che si stanno consolidando in determinate geografie nel nuovo “risiko” dell’intelligenza artificiale (come evidenziato da un recente studio di Microsoft).
Gli oltre cento LLM sono stati messi alla prova con più di 800 prompt non casuali, cioè mirati a valutare i bias, la consapevolezza politica e culturale, i comportamenti di geofencing, i segnali di sovranità dei dati e le limitazioni contestuali dei modelli. I ricercatori di Trend Micro hanno realizzato migliaia di esperimenti, per misurare come gli output cambino a seconda del momento, della lingua usata nel prompt o del luogo da cui parte la domanda.
Si potrebbe pensare che a parità di prompt e di LLM l’output sia sempre lo stesso, ma non è così: dall’analisi è emerso che prompt identici possono produrre risposte diverse a seconda dei modelli (e questo è pacifico) ma anche dell’area geografica e che, inoltre, possono persino variare nel corso di interazioni ripetute con lo stesso sistema. E se vengono poste domande “delicate” dal punto di vista politico, per esempio su territori contesi o questioni che riguardano l’identità nazionale, ecco che gli LLM si differenziano tra di loro in modo più chiaro. In alcuni test, poi, i modelli hanno prodotto output con informazioni non aggiornate oppure troppo approssimative laddove era richiesta precisione (ad esempio, calcoli finanziari).
I rischi nascosti
Perché ciò accada, i ricercatori lo spiegano a grandi linee nell’overview dello studio: “I modelli linguistici di grandi dimensioni esistono e si cristallizzano in un particolare momento nel tempo e nello spazio. Quando vengono addestrati, gli LLM catturano solo quella specifica istantanea o momento temporale. Inoltre, i dati utilizzati per addestrare gli LLM sono limitati dalle capacità della piattaforma che ha addestrato il modello e riflettono le norme culturali dei dataset di addestramento. Di conseguenza, gli LLM ereditano involontariamente i bias presenti in tali dataset”. I pregiudizi e le distorsioni che influenzeranno, poi, gli output possono essere introdotti in diversi momenti, sia nel training iniziale, sia nel fine-tuning e anche durante le attività di inferenza attraverso guardrail o prompt di sistema.
“In molte organizzazioni si pensa che l’intelligenza artificiale si comporti come un software tradizionale e che lo stesso input produca in modo affidabile lo stesso output”, ha commentato Marco Fanuli, technical director di Trend Micro Italia. "La nostra ricerca mostra che questo pensiero non è corretto. Gli LLM possono fornire risposte diverse in base all’area geografica, alla lingua, ai guardrail e possono anche cambiare da un'interazione all'altra. Quando i risultati dell'intelligenza artificiale vengono utilizzati direttamente dai clienti o per prendere decisioni di business, il rischio è di perdere il controllo sulla comunicazione, sulla compliance e sul rispetto delle norme culturali”.
Un caso illustrato nello studio di Trend Micro è l’incoerenza di fronte alla questione tainwanese. I modelli “occidentali” (e in particolare quelli di Google, Mistral e OpenAI) tendono a schierarsi per l’indipendenza di Taiwan con frequenza molto maggiore, anche se con significative differenze tra uno e l’altro; di contro, i modelli di DeepSeek e Alibaba tendono a replicare il punto di vista della Cina, ma fanno lo stesso (anzi, in maggiore misura) anche quelli di Nvidia.
Le origini del bias
Il pregiudizio associato all’intelligenza artificiale è un problema ben noto, ormai non più solo tra gli addetti ai lavori. Pur non confinata all'AI generativa, è con questi strumenti che la questione ha assunto una portata planetaria, dato che servizi come ChatGPT hanno abbattuto le barriere all’accesso e pervadono ormai la quotidianità privata e lavorativa di centinaia di milioni di persone.
Nel frattempo, in ambito accademico sono stati sviluppati benchmark e altre tecniche per valutare pregiudizi di diverso tipo, linguistici, razziali, politici, di genere e altro ancora. Bisogna intendersi sulla terminologia: come spiega Trend Micro nel suo report, l’espressione “bias dell’AI” si riferisce a discriminazioni sistemiche incorporate nei sistemi di intelligenza artificiale, che possono rafforzare e amplificare esistenti pregiudizi, stereotipi e discriminazioni.
Il report procede con un’utile tassonomia, per fare chiarezza sia sulle radici del problema sia sulle diverse sue declinazioni. Il bias dell’AI può derivare da diversi fattori, ognuno dei quali influenza la natura del bias stesso e le sue conseguenze. I principali sono:
- Distribuzione regionale dei dati. Al momento dell’addestramento dei modelli, la disponibilità di dati pubblici e con licenza varia tra fornitori di modelli, regioni, settori critici, discipline e lingue di diverse aree geografiche.
- Disponibilità e affidabilità del contesto. In mancanza di informazioni “di contorno”, che ne chiariscono il significato semantico, i dati perdono valore.
- Differenze nei valori culturali del luogo in cui un modello viene sviluppato, addestrato e utilizzato. I modelli sviluppati all’interno di una determinata regione o cultura possono produrre output che violano valori culturali, religiosi o sociali di altre regioni e culture.
- Avvelenamento dei dati, intenzionale o involontario. L’affidabilità dei dati usati nel training può essere manipolata intenzionalmente o per errore: si parla, in questi casi, di poisoning. Secondo ricerche condotte da Anthropic, l’avvelenamento di appena lo 0,00016% dei punti di addestramento totali può influenzare gli output del modello. Nei grandi dataset di addestramento, ciò può corrispondere a poche centinaia di articoli accuratamente costruiti.
- Compromissione dei parametri del modello, intenzionale o involontaria. I parametri di un modello pre-addestrato possono essere manipolati, consentendo a un potenziale attaccante di influenzare gli output del modello stesso semplicemente inserendo una parola chiave arbitraria.¹
- Uso del modello per compiti non previsti (nello sviluppo del modello) o per i quali il modello non dispone di dati di addestramento sufficienti. Molti modelli vengono sviluppati privilegiando l’utilità rispetto all’affidabilità dell’output. Quindi cercano, tendenzialmente, di rispondere sempre alle domande o richieste degli utenti, anche quando i dati di addestramento sono insufficienti per quella determinata domanda o richiesta. In pratica, spesso forniscono risposte apparentemente plausibili ma non supportate dai dati.
Una tassonomia del pregiudizio
Non c’è un solo metodo per classificare il bias dell’IA. Alcuni approcci si basano su variabili tecniche, altri su fattori sociali o su una combinazione di entrambe le cose. Lo studio di Trend Micro fa una semplice tassonomia in base alla causa principale del pregiudizio..
- Bias sistemici. Sono spesso suddivisi in storici, sociali e istituzionali. Il bias storico è la pratica di osservare e rappresentare il mondo da una prospettiva “occidentale”. Il bias sociale si traduce in atteggiamenti di favore o contrarietà a persone o gruppi in base a identità sociali, fattori demografici o caratteristiche fisiche. Il bias istituzionale si riferisce a pregiudizi che operano a livello di intere istituzioni che possono determinare vantaggi o svantaggi per determinati gruppi sociali.
- Bias umano. È la tendenza (individuale o di gruppo) a favorire o sfavorire determinati individui, gruppi, idee o cose sulla base di pregiudizi, stereotipi o altre inclinazioni soggettive. Un esempio di bias umano individuale è il pregiudizio di conferma, per cui si tende a preferire o a selezionare cognitivamente le informazioni che confermano le proprie convinzioni preesistenti.
- Bias statistici, computazionali o dei dati. Si riferiscono a risultati ingiusti, discriminatori o inaccurati derivanti da errori sistemici o pregiudizi negli algoritmi, nei criteri di ponderazione o di selezione dei campioni, oppure nei dataset. Ad esempio, addestrare un assistente per le assunzioni su curricula provenienti da settori a predominanza maschile e applicarlo, poi, a una professione più ampia può introdurre favoritismi e discriminazioni di genere.