16/10/2024 di redazione

Sicurezza e bias: i modelli di AI delle Big Tech non passano l’esame

La Commissione Europea inizierà a usare un nuovo framework, Compl-AI, per valutare l’aderenza dei principali Large Language Model all’AI Act. Punteggi bassi su alcuni indicatori per Meta, OpenAI, Alibaba e Mistral.

<a href="https://www.freepik.com/free-vector/artificial-intelligence-concept-robotic-face_4402942.htm#fromView=search&page=1&position=41&uuid=547d19f2-c6f1-4c26-8f12-7f503731862d">Image by starline on Freepik</a>

Image by starline on Freepik

Le Big Tech dell’intelligenza artificiale non passano l’esame dell’AI Act europeo, o almeno non del tutto. Alcuni dei più popolari modelli di AI al momento non rispettano i requisiti del nuovo regolamento europeo, in particolare in tema di cybersicurezza e sul principio di non discriminazione. L’ufficio competente all’interno della Commissione Europea ha infatti cominciato a usare un nuovo strumento, un framework, che può valutare i Large Language Model su diversi di aspetti e che può quindi aiutare verificarne l’aderenza all’AI Act.

Lo strumento, chiamato Compl-AI, è stato sviluppato dalla startup svizzera LatticeFlow AI in collaborazione con due istituti di ricerca, Eth Zurich e l’Institute for Computer Science, Artificial Intelligence and Technology di Sofia. Compl-AI assegna un punteggio decimale, da 0 a 1, dopo aver mappato 18 indicatori riguardanti sei aree: la sicurezza e solidità tecnica del modello, il trattamento dei dati (privacy e data governance), la trasparenza, l’equità (rispetto della diversità, non discriminazione), gli impatti ambientali e sociali, la possibilità di supervisione umana. Gli indicatori vengono confrontati con i più recenti benchmark, consentendo di inserire la valutazione dei modelli nel contesto dell’AI Act.

Compl-AI ha già prodotto i primi risultati testando alcuni dei principali LLM oggi disponibili. Mediamente, i modelli di Alibaba, Anthropic, OpenAI, Meta e Mistral hanno ottenuto punteggi pari o superiori a 0,75, ma su alcuni indicatori emergono criticità. Sull’assenza di discriminazioni nell’output, GPT-3.5 Turbo (uno dei modelli alla base di ChatGpt) ha ottenuto solo 0,46, mentre il modello di Alibaba, Qwen1.5 72B Chat, appena 0,37.

Altro punto debole è, per alcuni, la sicurezza. Llama 2 13B, di Meta, può essere facilmente manipolato con attacchi di prompt hijacking, con una valutazione di 0,42 su questo aspetto, e fa ancora peggio con il suo 0,38 il modello 8x7B Instruct della francese Mistral.

framework-compliance-Ai-Act-modelli-intelligenza-artificiale.jpg

Per le società che operano sul mercato senza conformarsi all’AI Act sono previste sanzioni che possono arrivare a 35 milioni di euro o al 7% del giro d’affari annuo. Dall’esame di Compl-AI non risultano però sentenze definitive di promozione o bocciatura dei modelli. Piuttosto, lo strumento è utile alla stessa Commissione Europea per dare indicazioni più precise ai provider tecnologici.

“La Commissione Europea accoglie questo studio e questa piattaforma di valutazione come il primo passo per tradurre l’AI europeo in requisiti tecnici, che aiutano i fornitori di modelli di intelligenza artificiale a mettere in pratica l’AI Act”, ha dichiarato Thomas Regnier, portavoce della Commissione Europea per economia, ricerca e innovazione digitale.

“L’Unione Europea sta ancora lavorando sui benchmark di compliance, ma possiamo già notare alcune lacune nei modelli”, ha detto il cofondatore e Ceo di LatticeFlow AI, Petar Tsankov. “Focalizzandoci maggiormente sull’ottimizzazione per la compliance, crediamo che i fornitori di modelli possano prepararsi bene per soddisfare i requisiti regolatori”.

scopri altri contenuti su

Sicurezza e bias: i modelli di AI delle Big Tech non passano l’esame

ARTICOLI CORRELATI

Data Reply e Nebuly insieme per portare i progetti pilota di AI in produzione
21/10/2025 di Redazione

Lenovo punta sull'IA agentica per creare un ROI misurabile
20/10/2025 di Redazione

Il Copilot di WIndows 11 può essere “invocato” e completare azioni sul Pc
17/10/2025 di redazione

Ci fidiamo di più dei chatbot se possiamo parlarci, anziché scrivere
17/10/2025 di redazione

Data Reply e Nebuly insieme per portare i progetti pilota di AI in produzione
21/10/2025 di Redazione

Intelligenza artificiale ed Erp, un incontro fruttuoso
21/10/2025 di Valentina Bernocco

Lenovo punta sull'IA agentica per creare un ROI misurabile
20/10/2025 di Redazione

Supply chain: abbattere i rischi con dati, automazione e monitoraggio
20/10/2025 di redazione

Spesa IT in crescita del 7,9% nel 2025, ma col freno tirato
29/07/2025 di Valentina Bernocco

Microsoft ammette: “Non possiamo garantire la sovranità dei dati in Europa”
29/07/2025 di redazione

Pubblica Amministrazione, Altea accelera con Comp.Sys
07/08/2025 di redazione

OpenAI al punto di svolta con Gpt-5: più intelligente, sicuro e sincero
08/08/2025 di redazione

Sicurezza e bias: i modelli di AI delle Big Tech non passano l’esame

ARTICOLI CORRELATI

Data Reply e Nebuly insieme per portare i progetti pilota di AI in produzione 21/10/2025 di Redazione

Lenovo punta sull'IA agentica per creare un ROI misurabile 20/10/2025 di Redazione

Il Copilot di WIndows 11 può essere “invocato” e completare azioni sul Pc 17/10/2025 di redazione

Ci fidiamo di più dei chatbot se possiamo parlarci, anziché scrivere 17/10/2025 di redazione

Data Reply e Nebuly insieme per portare i progetti pilota di AI in produzione 21/10/2025 di Redazione

Intelligenza artificiale ed Erp, un incontro fruttuoso 21/10/2025 di Valentina Bernocco

Lenovo punta sull'IA agentica per creare un ROI misurabile 20/10/2025 di Redazione

Supply chain: abbattere i rischi con dati, automazione e monitoraggio 20/10/2025 di redazione

Spesa IT in crescita del 7,9% nel 2025, ma col freno tirato 29/07/2025 di Valentina Bernocco

Microsoft ammette: “Non possiamo garantire la sovranità dei dati in Europa” 29/07/2025 di redazione

Pubblica Amministrazione, Altea accelera con Comp.Sys 07/08/2025 di redazione

OpenAI al punto di svolta con Gpt-5: più intelligente, sicuro e sincero 08/08/2025 di redazione

Iscriviti alla newsletter di ictBusiness.it

Data Reply e Nebuly insieme per portare i progetti pilota di AI in produzione
21/10/2025 di Redazione

Lenovo punta sull'IA agentica per creare un ROI misurabile
20/10/2025 di Redazione

Il Copilot di WIndows 11 può essere “invocato” e completare azioni sul Pc
17/10/2025 di redazione

Ci fidiamo di più dei chatbot se possiamo parlarci, anziché scrivere
17/10/2025 di redazione

Data Reply e Nebuly insieme per portare i progetti pilota di AI in produzione
21/10/2025 di Redazione

Intelligenza artificiale ed Erp, un incontro fruttuoso
21/10/2025 di Valentina Bernocco

Lenovo punta sull'IA agentica per creare un ROI misurabile
20/10/2025 di Redazione

Supply chain: abbattere i rischi con dati, automazione e monitoraggio
20/10/2025 di redazione

Spesa IT in crescita del 7,9% nel 2025, ma col freno tirato
29/07/2025 di Valentina Bernocco

Microsoft ammette: “Non possiamo garantire la sovranità dei dati in Europa”
29/07/2025 di redazione

Pubblica Amministrazione, Altea accelera con Comp.Sys
07/08/2025 di redazione

OpenAI al punto di svolta con Gpt-5: più intelligente, sicuro e sincero
08/08/2025 di redazione