30/03/2026 di Valentina Bernocco

Il costo della GenAI è destinato a crollare (ma solo per i provider)

Secondo le stime di Gartner, per i fornitori di LLM in cinque anni i costi di inferenza per token caleranno del 90%. In compenso, consumeremo più token.

Il costo economico ed energetico dell’intelligenza artificiale è un tema spinoso, sia su piani più elevati, in cui discute sul futuro e sulle risorse del Pianeta, sia per chi deve ragionare su budget e strategie aziendali. Un po’ tutti contano sul fatto che l’evoluzione tecnologica, in particolare quella dei chip, dei server e di altri sistemi infrastrutturali, contribuirà a ridurre i costi di infrastruttura ed energetici dell’addestramento e dell’inferenza, in direzione di una sempre maggiore efficienza del calcolo e dello storage. Una nuova analisi di Gartner arriva a gettare un po’ di ottimismo sul futuro. Se non altro per i fornitori di Large Language Model e connessi servizi, cioè per aziende come Amazon, Google, Microsoft, OpenAI, Anthropic, e ancora per innunerevoli fornitori software che intergano funzionalità di GenAI nella propria tecnologia erogata come SaaS.

Secondo gli analisti, nel giro di cinque anni per i provider i costi dell’inferenza caleranno del 90%, considerando come termine di confronto il 2025 e come punto di arrivo il 2030, e considerando un’attività eseguita su un LLM con mille miliardi di parametri (dunque con caratteristiche superiori a quelle dei modelli di fascia altissima disponibili sul mercato oggi). Nella sua misurazione, Gartner ha considerato come unità di inferenza token da 3,5 byte.

Gli analisti prevedono anche che i grandi modelli linguistici disponibili nel 2030 avranno un rapporto costo/efficienza fino a cento volte migliore rispetto agli LLM (di grandezza comparabile) sviluppati nel 2022. Tutto ciò sarà il risultato di una combinazione di fattori tecnologici e di mercato. “I miglioramenti di costo”, ha scritto Will Sommer, senior director analyst di Gartner, “saranno innescati da una combinazione di miglioramenti nell’efficienza dei semiconduttori e dell’infrastruttura, innovazioni nella progettazione, un maggior utilizzo di chip più elevati e di semiconduttori specializzati per l’inferenza, e ancora applicazioni di dispositivi edge per casi d’uso specifici”.

L’inghippo dei token

Ma attenzione: il vantaggio economico di cui beneficeranno i provider non sarà automaticamente trasferito alle aziende utenti. Non possiamo sapere, al momento, quali saranno le strategie di mercato e di concorrenza, quale sarà il bilanciamento tra domanda e offerta di servizi basati su LLM, né quanto i provider avranno il coltello dalla parte del manico. 

Inoltre, come fa notare Gartner, le applicazioni più evolute (come sistemi di Agentic AI o modelli di ragionamento) richiederanno mediamente un maggiore consumo di token rispetto ai servizi di intelligenza artificiale generalisti. Per far funzionare un agente AI attualmente si “consumano” da cinque a trenta volte più token di quanti non siano necessari per interrogare ChatGPT, Gemini, Claude o Copilot. Dunque, se calcolati unità di misura diverse dai token (per esempio sul tempo o sul task da completare), i costi dell’inferenza potrebbero scendere secondo traiettorie differenti. O magari non scendere affatto. Se il consumo di token aumenterà più velocemente rispetto alla speculare discesa del costo per “gettone”, i costi complessivi dell’inferenza potrebbero addirittura aumentare.

“I chief product officer non devono confondere il calo di prezzi dei token commodity con la democratizzazione del ragionamento di frontiera”, ha ammonito Sommer. “Mentre l’intelligenza commoditizzata tende verso un costo quasi nullo, d’altro canto la potenza di calcolo e i sistemi necessari per supportare il ragionamento avanzato rimangono scarsi. I Cpo che oggi mascherano inefficienze architetturali con token economici scopriranno, un domani, di non poter raggiungere la scalabilità agentica”. Brutta espressione, quest’ultima, per dire che gli agenti AI non potranno essere adottati su larga scala a fronte di costi sostenibili.

E quindi? Gli analisti di Gartner suggeriscono alle aziende di puntare su “piattaforme in grado di orchestrare i carichi di lavoro su un portafoglio diversificato di modelli”. Le attività di routine, ad alta frequenza, potranno essere eseguite su modelli linguistici più piccoli e specifici per dominio, con vantaggi sia di qualità degli output sia di costi. Per attività complesse si potranno usare i modelli “di frontiera”, ma con parsimonia, solo dove l’AI più evoluta e costosa rappresenti davvero un valore aggiunto.

scopri altri contenuti su

ARTICOLI CORRELATI