L’intelligenza artificiale generativa non smette di stupire, e questa volta è il turno di Google. L’azienda di Mountain View ha annunciato Imagen 3 e Veo, due nuovi modelli per la generazione di immagini e video, capaci di far concorrenza a Dell-E e Sora, entrambi frutto della ricerca e sviluppo di OpenAI, e a MovieGen, recentemente lanciato da Meta.
Opera degli sviluppatori di Google DeepMind, Veo viene definito dall’azienda come il proprio modello di generazione video più potente di sempre. Capace di comprendere il linguaggio naturale e la semantica visiva, Veo può generare un video a partire da prompt testuali, con la funzione text-to-video, ma anche da immagini fisse, con l'image to-video. Come spiegato da Google, genera un filmato che è coerente con la richiesta (o con l’immagine di partenza), rappresentando il movimento di persone, animali e oggetti in modo realistico.
Questo modello potrà far storcere il naso ai videomaker e ai professionisti dell’animazione video, ma d’altro canto è una risorsa utile per creare contenuti in modo rapido, anche su larga scala e senza la necessità di particolari competenze. Si presta, dunque, a diversi casi d’uso nel marketing visuale e nello storytelling, dai siti Web ai social media.
Imagen 3 è, invece, un modello text-to-image che a detta di Google supera tutti i suoi predecessori in termini di realismo, dettaglio, gestione della luce e minimizzazione degli errori nelle immagini generate. Non è tutto: gli utenti in whitelist potranno anche testare alcune funzioni aggiuntive per la personalizzazione manuale delle immagini create dall’AI. Gli utilizzi di Imagen 3 spaziano dal marketing all’advertising, dalla progettazione (specie per le attività di brainstorming ed esplorazione di nuove idee) alla creazione di contenuti.
Per tutti e due i nuovi modelli sono state adottare misure di trasparenza, privacy e sicurezza. La tecnologia SynthID di Google DeepMind inserisce un watermark invisibile all’occhio in ciascuna immagine e fotogramma generato da Imagen 3 e Veo, come tentativo di arginare abusi di copyright e disinformazione. Per quanto riguarda la sicurezza, sono presenti dei filtri che dovrebbero impedire la generazione di contenuti che violano i principi di “AI responsabile” di Google. L’azienda ha sottolineato che i dati delle aziende, inseriti nei prompt, non vengono poi usati per l’addestramento di questi o altri modelli.
Queste novità sono distribuite tramite Vertex AI, la piattaforma di machine learning gestita di Google, ma al momento non ancora in disponibilità generale. Veo è attualmente accessibile come solo come anteprima privata, mentre Imagen 3 sarà disponibile per tutti i clienti di Vertex AI dalla settimana prossima.