A detta di Gartner, potenziando modelli linguistici dominio-specifici, la GenAI multimodale porterà alle aziende una migliore accuratezza, automazione delle operations e intelligenza contestuale nei processi decisionali. Tutto questo consentirà di usare l’AI anche per “intraprendere azioni proattive” in varie attività, ha spiegato Cozza.
Il fenomeno della GenAI multimodale non vedrà una crescita quantitativa, dunque, ma anche qualitativa. Oggi molti LLM riescono a gestire processi di elaborazione e generazione di contenuti su due o tre modalità, per esempio con processi text-to-video o speech-to-image. Nei prossimi anni, tendenzialmente, la varietà di forme di contenuti gestiti da ciascun modello aumenterà.
“Le aziende dovrebbero focalizzarsi sull’integrazione di capacità multimodali all’interno dei propri software, per migliorare la user experience e l’efficienza operativa”, ha suggerito Cozza. “Facendo leva su diversi tipi di dati di input e di output, grazie alla GenAI multimodale, le aziende possono sbloccare nuovi livelli di produttività e innovazione”.
In principio fu il testo scritto, poi arrivarono le immagini, il parlato, i video muti e quelli corredati di audio, e persino linguaggi di programmazione e formule numeriche. La multimodalità sta diventando quasi la norma per i Large Language Model che stanno alla base di servizi di intelligenza artificiale generativa, come ChatGpt, Sora, Gemini, Copilot, Claude, Deepseek, Grok o Movie Gen. In questi servizi (con alcune differenze a seconda delle versioni, gratuite e premium) un singolo modello può gestire vari tipi di contenuto sia nell’input (il prompt) sia nell’output.
Se però guardiamo all’uso dei modelli di GenAI in software e applicazioni aziendali, la multimodalità non è ancora la norma. Secondo Gartner, l’anno scorso era multimodale solo il 10% delle applicazioni e dei software aziendali con funzionalità di AI. Ma lo scenario cambierà nei prossimi anni, con la previsione di una quota dell’80% entro il 2030.
“Lo spostamento verso l’enterprise software multimodale è una trasformazione fondamentale nelle operazioni e nell’innovazione delle aziende”, ha osservato Roberta Cozza, senior director analyst di Gartner. “La GenAI multimodale rivoluzionerà le applicazioni aziendali aggiungendo funzionalità e strumenti in precedenza inarrivabili, con un impatto su settori come sanità, finanza e manifatturiero”.