04/10/2024 di redazione

Meta sfida OpenAI con una intelligenza artificiale audio e video

L’azienda di Mark Zuckerberg ha presentato un nuovo modello multimodale di AI generativa che potrebbe far concorrenza a Sora.

(Immagine: Meta)

(Immagine: Meta)

Si avvicina il giorno in cui vedremo al cinema o su qualche servizio di streaming un film realizzato interamente con l’intelligenza artificiale? Forse quel giorno è ancora lontano e probabilmente molti non lo attendono con trepidazione, ma con l’ultima novità di Meta si fa un passo avanti: Movie Gen è un modello multimodale di AI generativa che può creare dei filmati video corredati anche da sonoro. Una tecnologia dichiaratamente indirizzata a videomaker, pubblicitari e content creator.

OpenAI con Sora ha permesso per la prima volta di generare dei contenuti video di qualità a partire da prompt testuali, ma Movie Gen si distingue per la capacità di aggiungervi il sonoro. Diverse le attività possibili: generazione di video sintetici originali attraverso comandi testuali (text-to-video), editing di video esistenti, trasformazione di immagini statiche in video e generazione di audio.

Meta ha allenato il modello sia su dataset acquistati su licenza sia su dataset pubblici. Per quanto riguarda le capacità text-to-video, il Gpt impiega 30 miliardi di parametri e può generare contenuti della durata massima di 16 secondi. Nel prompt è possibile dare indicazioni su movimenti dei soggetti, interazioni e anche sul “movimento della videocamera”. Movie Gen può anche generare musica di sottofondo o effetti sonori sincronizzati con le immagini video.

Particolarmente interessante è la possibilità di creare dei video personalizzati: partendo dall’immagine reale di una persona, si aggiungono prompt di testo per ottenere la scena desiderata. A detta di Meta, le persone “conservano la loro identità”, nell’aspetto e nei movimenti.

Per quanto riguarda l’editing di video esistenti, è possibile aggiungere, cancellare e spostare oggetti, così come modificare lo sfondo o caratteristiche stilistiche. A differenza di altri strumenti, che sono imprecisi oppure difficili da usare, Movie Gen consente di fare tutto ciò in modo semplice e preservando il contenuto originale, perché modifica i singoli pixel dell’immagine. Il modello per la generazione di audio comprende 13 miliardi di parametri e può creare musica di sottofondo strumentale, rumori ambientali, della durata massima di 45 secondi.

scopri altri contenuti su

ARTICOLI CORRELATI