C’è troppa lingua inglese nell’intelligenza artificiale, e la questione non è puramente linguistica. Il fatto che la stragrande maggioranza dei Large Language Model sia addestrata, affinata e messa al lavoro su contenuti testuali in inglese ha varie conseguenze, tra cui quella ovvia di escludere o almeno penalizzare i non anglofoni (o comunque coloro che non hanno una buona dimestichezza con la lingua di Albione) nel quotidiano utilizzo dei servizi di GenAI; e quella, meno ovvia, di favorire nel lungo periodo una versione “anglo-centrica” del mondo.
“Sebbene i modelli più grandi e generici possano gestire più lingue, possono comunque perdere le sfumature linguistiche, il contesto culturale e la profondità regionale necessari per applicazioni veramente inclusive. Gli LLM addestrati su dati limitati sono meno accurati, hanno allucinazioni ed errori più grandi, hanno difficoltà con il vocabolario e riflettono più pregiudizi”. A parlare, o meglio a scrivere in un blogpost, è persona madrelingua inglese che però ha tutto l’interesse a vendere soluzioni tecnologiche il più linguisticamente inclusive possibile: è Brad Smith, vice chair & president of Microsoft, in un blogpost che dettaglia gli annunci fatti dall’azienda a Parigi.
Qui, in settimana Smith ha incontrato il ministro della Cultura francese, Rachida Dati, per presentare l’impegno di Microsoft in diverse iniziative “europee”, non solo transalpine. Sul tema degli LLM “poliglotti”, è stato sottolineato come in Unione Europea si parlino 24 lingue ufficiali, molte delle quali sono sottorappresentate nella sfera digitale e su Internet. Idiomi come il danese, il finlandese, lo svedese e il greco, per esempio, rappresentano meno dello 0,6% dei contenuti Web, mentre i testi in inglese (prima lingua per meno del 5% della popolazione mondiale) ne costituiscono il 50%. In base a un'ìnfografica pubblicata da Microsoft, su Internet l'italiano è più rappresentato del portoghese e dell'olandese, ma meno del tedesco, del francese e dello spagnolo.
Questa “sottorappresentazione digitale”, come l’ha definita Smith, rischia di scoraggiare l’adozione dell’intelligenza artificiale tra i consumatori e le aziende che non hanno dimestichezza con l’inglese. I principali LLM possono gestire più lingue, ma non necessariamente comprendono le sfumature lessicali, il contesto culturale e altre dinamiche specifiche di una lingua. “Gli LLM addestrati su dati limitati sono meno accurati, creano maggiori allucinazioni ed errori, hanno difficoltà con il vocabolario e riflettono più pregiudizi”, ha rimarcato Smith. “Ad esempio, Llama 3.1, un popolare modello open source, mostra un divario di prestazioni di oltre 15 punti percentuali tra le risposte in inglese e quelle in greco e un divario di oltre 25 punti quando si confronta l’inglese con il lettone”.
Per sostenere lo sviluppo di LLM multilingue, si farà leva sul cloud di Azure, sulle competenze tecniche di Microsoft e sulle partnership avviate in diversi Paesi europei con università, centri di ricerca e reti di professionisti. Per prima cosa, ha scelto di collocare a Strasburgo i i team di due dei propri centri di innovazione, il Microsoft Open Innovation Center (Moic) e del Microsoft AI for Good Lab. Più precisamente, queste due squadre di professionisti lavoreranno nel Laboratorio ICube dell’Università di Strasburgo su vari progetti. Il Microsoft Open Innovation Center, inoltre, finanzierà il lavoro di Common Crawl, uno dei più maggiori archivi gratuiti e aperti di dati scansionati sul Web. Insieme, il Moic e l’AI for Good Lab pubblicheranno un bando per presentare proposte volte a contribuire ad ampliare l’offerta di contenuti digitali per dieci lingue europee. L’AI for Good Lab pubblicherà un piano per descrivere nel dettaglio come creare set di dati linguistici di alta qualità e addestrare al meglio gli LLM “locali”.
Nell’ambito di questi progetti sono anche previsti il finanziamento di due ricercatori post-dottorato e la fornitura di crediti Azure per un valore massimo di un milione di dollari. Il team impegnato a Strasburgo potrà attingere all’archivio di dati multilingue di Microsoft, che sarà anche reso disponibile agli sviluppatori open source attraverso GitHub e Hugging Face.
Microsoft sta anche lanciando due nuove collaborazioni accademiche in Europa, una in Francia con l’Università di Strasburgo e una in Spagna con la IE University School of Science & Technology. In Spagna, inoltre, Microsoft continuerà a supportare iniziative come quelle del Barcelona Supercomputing Center, del Basque Center for Language Technology e dell’Università di Santiago de Compostela per rilasciare modelli di intelligenza artificiale addestrati in castigliano, catalano, basco e galiziano in Azure AI Foundry.
Un digital twin della cattedrale di Notre-Dame
La tappa parigina di Brad Smith è stata occasione per annunciare anche un altro progetto: la creazione di una replica digitale della cattedrale di Notre-Dame. A partire dal prossimo autunno Microsoft collaborerà con Ministero della Cultura transalpino e con la società francese Iconem per creare il digital twin combinando tecniche di fotogrammetria e intelligenza digitale.
Il progetto è inserito nella più ampia iniziativa Culture AI, lanciata nel 2019, che ha già portato alla realizzazione di
digital twin della Basilica di San Pietro, dell’antica Olimpia in Grecia, di Mount St. Michel in Francia e dello storico evento dello sbarco in Normandia. La tecnologia e i metodi già sviluppati da Microsoft insieme a Iconem per il progetto della Basilica di San Pietro torneranno utili per ricostruire digitalmente il capolavoro gotico lungo 128 metri e alto 69.
Microsoft sarà anche impegnata nella digitalizzazione di
1.500 modelli scenografici dell’Opéra National de Paris e nella creazione di descrizioni digitali dettagliate di
un milione e mezzo di manufatti del Musée des Arts Décoratifs. “
Questa iniziativa consentirà ai ricercatori di storia, storia dell’arte e conservazione di accedere a queste nuove informazioni per lo studio e per l’utilizzo nella propria ricerca basata sull’intelligenza artificiale”, ha spiegato Smith.
“La tecnologia dovrebbe riflettere la ricchezza dell’umanità, non ridurla. Con azioni mirate, possiamo far sì che l’intelligenza artificiale valorizzi, invece di minacciare la diversità linguistica e culturale”.