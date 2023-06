Intel inventa l’AI che crea immagini 3D e alimenta il metaverso Latent Diffusion Model for 3D (LDM3D) è il primo modello di intelligenza artificiale capace di creare contenuti video 3D realistici. Pubblicato il 21 giugno 2023 da Redazione

L’intelligenza artificiale generativa adesso sa anche creare immagini tridimensionali esplorabili a 360 gradi.I laboratori di ricerca di Intel hanno sviluppato in collaborazione con Blockade Labs un nuovo Latent Diffusion Model for 3D (LDM3D), il primo modello di diffusione al mondo in grado di ricevere comandi testuali e usarli per generare una mappatura di profondità. Oltre a poter creare immagini a due dimensioni, può generare contenuti visivi 3D realistici e navigabili spostando il punto di osservazione.

Un bel salto evolutivo rispetto agli altri modelli di diffusione finora disponibili, che si limitano alla generazione di immagini Rgb bidimensionali a partire da prompt di testo. LDM3D impiega all’incirca lo stesso numero di parametri della diffusione stabile latente, ma è molto più accurato rispetto ai metodi standard di post-elaborazione per la stima della profondità.

“L’AI generativa mira ad aumentare e migliorare la creatività umana e a risparmiare tempo”, ha dichiarato Vasudev Lal, AI/ML research scientist degli Intel Labs. “Tuttavia, la maggior parte dei modelli di AI generativa oggi disponibili si limita a generare immagini 2D; solo pochissimi sono in grado di generare immagini 3D da istruzioni testuali. A differenza dei modelli esistenti di latent stable diffusion, LDM3D consente di generare un'immagine e una mappa di profondità da un dato messaggio di testo utilizzando quasi lo stesso numero di parametri. Fornisce una profondità relativa più accurata per ogni pixel rispetto ai metodi standard di post-elaborazione per la stima della profondità e consente agli sviluppatori di risparmiare molto tempo nella creazione delle scene".

A detta di Intel, questa tecnologia ha “il potenziale di rivoluzionare la creazione di contenuti, il metaverso e le esperienze d’uso digitali”, con applicazioni che spaziano dall'intrattenimento e al gaming, dall'interior design ai render architettonici, da musei virtuali ad altri tipi di esperienze di realtà virtuale immersiva.

Un progetto di ricerca “aperto”

LDM3D è stato istruito su un dataset costituito da un sottoinsieme di 10.000 campioni del database LAION-400M, contenente oltre 400 milioni di coppie immagine-didascalia. Si tratta di un database creato per scopi di ricerca e che Intel rende disponibile ad altri ricercatori e community interessate. Il team di Intel ha utilizzato il modello di stima a grande profondità Dense Prediction Transformer (Dpt, sviluppato dagli stessi Intel Labs) per annotare il corpus di addestramento. Il modello Dpt-large fornisce una profondità relativa estremamente accurata per ogni pixel in un'immagine.Per il training di LDM3D viene utilizzato un supercomputer della stessa Intel, alimentato da processori Xeon e acceleratori Habana Gaudi. Il modello e la pipeline risultanti combinano l'immagine Rgb generata e la mappa di profondità.



Per dimostrare il potenziale di questo modello, i ricercatori Intel e Blockade hanno sviluppato DepthFusion, un'applicazione che sfrutta immagini standard Rgb e mappe di profondità per creare esperienze di visualizzazione a 360 gradi interattive. Inoltre LDM3D viene proposto come modello open source, a disposizione della community degli sviluppatori tramite HuggingFace.