18/12/2023 di Roberto Bonino

La sfida “multimodale” di Gemini a Gpt-4 parte col giallo

Google ha finalmente tolto i veli al proprio modello avanzato di intelligenza artificiale, pronto a interagire in tempo reale con ogni tipo di informazione proveniente dal mondo esterno. Qualche polemica sul video manipolato di presentazione non ferma un percorso che parte dagli sviluppatori.

gemini-google-AI-generative-Llm 9x5.jpg

Nei giorni scorsi, Google ha finalmente annunciato il proprio modello di intelligenza artificiale avanzata Gemini, declinato nelle versioni Pro, Nano e Ultra. La prima è già integrata nell’applicazione di AI generativa Bard e intende ampliarne le capacità in ambiti come la comprensione, l’editing e la pianificazione. Nano farà il proprio debutto in Pixel 8 Pro, aggiungendo capacità come la funzione di riassunto nell’applicazione di registrazione e di risposta automatica con la tastiera Gboard. Ultra, infine, appare la versione più estesa delle tre e sarà inizialmente testata da una selezione di clienti, sviluppatori, partner ed esperti prima di andare ad alimentare una versione potenziata di Bard, denominata Advanced e attesa per la prima parte del 2024.

La novità di Gemini sta nel modello “multimodale” che propone e che intende andare oltre le applicazioni fin qui conosciute, capaci di elaborare testi e immagini, per comprendere differenti tipologie di prompt, inclusi il parlato, la musica o il codice informatico, tra gli altri. L’obiettivo, di fatto, diventa la capacità di analizzare e rispondere in tempo reale alle informazioni provenienti dal mondo esterno.

Il principale dubbio, al momento, riguarda le effettive capacità attuali del sistema. Se, infatti, la possibilità di elaborare simultaneamente dati multimodali rende Gemini potenzialmente superiore a concorrenti come Gpt-4 di OpenAI, la presentazione agli addetti ai lavori è avvenuta con un video parzialmente manipolato, per enfatizzare la velocità nelle risposte e ridurre la latenza. La stessa Google ha ammesso di aver usato questo trucco, per non minare oltre il necessario la fiducia sulla portata dell’innovazione annunciata.

Pro disponibile per gli sviluppatori

Quasi a correre ai ripari, il vendor ha prontamente reso disponibile Gemini Pro per gli sviluppatori e gli early tester aziendali. Questa declinazione offre già la capacità di recepire ed elaborare in modo avanzato testi in 38 lingue, che rappresentano oltre 180 paesi e territori. In aggiunta, Pro Vision permette di combinare testi e immagini in ingresso e restituire un testo per diverse applicazioni.

Google ha presentato anche AI Studio, un tool di sviluppo rapido Web che consente di ottenere chiavi Api, con una quota gratuita di 60 richieste al minuto. Ciò semplifica l'avvio e il trasferimento agli ambienti di sviluppo integrati (Ide) desiderati. Gli sviluppatori possono passare da Google AI Studio a Vertex AI su Google Cloud, una piattaforma AI che include innanzitutto Imagen 2, il nuovo géneratore d’immagini di Google. Vertex AI offre opzioni di personalizzazione per Gemini e funzionalità di sicurezza, privacy, governance dei dati e conformità di livello aziendale.

Al di là delle stranezze in fase di presentazione e delle prime disponibilità, l’annuncio di Gemini indica la strada che i big player stanno prendendo per espandere il potenziale dei motori AI. Attualmente, infatti, i dati su cui aziende come Google, OpenAI, Meta e altre addestrano i loro modelli provengono ancora principalmente da informazioni digitalizzate su Internet. Tuttavia, si stanno compiendo sforzi per espandere radicalmente la portata dei dati su cui l'intelligenza artificiale può lavorare. Ad esempio, utilizzando telecamere, microfoni e altri sensori e rilevatori costantemente accesi, sarebbe possibile consentire a un'intelligenza artificiale di sapere cosa sta succedendo nel mondo, nel momento in cui ciò accade.

Il nuovo sistema Gemini di Google può interpretare e utilizzare i contenuti in tempo reale, ad esempio video in diretta o discorsi pronunciati da esseri umani. Probabilmente, il livello di maturità della tecnologia non è quello che lo stesso costruttore vorrebbe far credere e c’è un po' di marketing dietro l’annuncio, ma la strada appare segnata. Certo, più si lavora sul mondo reale, arrivando al dettaglio dell’intrusione nella vita privata dei singoli cittadini, meglio occorrerà marcare il confine etico di questi sviluppi.

scopri altri contenuti su

ARTICOLI CORRELATI