ChatGPT sa già leggere e scrivere, ma presto avrà imparato anche ad ascoltare, guardare e parlare. OpenAI ha annunciato alcune novità per la popolare applicazione di AI generativa, che nella prossima release potrà non solo fornire risposte e creare riassunti o liste di suggerimenti, ma anche interagire con fotografie e intavolare conversazioni orali. Nella nuova interfaccia potremo, quindi, formulare domande ad alta voce o anche usare una fotografia come input per ottenere risposte o suggerimenti.
OpenAI ha spiegato che la funzionalità vocale si basa su un nuovo modello di intelligenza artificiale, capace di generare contenuti audio che ricordano la voce umana. Anzi, diverse voci umane. L’azienda di Sam Altman ha collaborato con doppiatori professionisti, le cui voci sono state sottoposte a campionamento, per creare diversi profili vocali. Whisper, la tecnologia open source di OpenAI per il riconoscimento del linguaggio, viene invece usata per tradurre il parlato dell’utente in un testo scritto.
La funzionalità vocale di ChatGPT torna utile negli scambi di domande e risposte con il chatbot come alternativa al testo scritto per assecondare una preferenza personale o la circostanza del momento (se, per esempio, stiamo camminando o abbiamo le mani occupate). Con questa nuova opzione, inoltre, il chatbot può enunciare ad alta voce il testo scritto da un utente oppure raccontare una storia. E non è tutto: OpenAi ha avviato una collaborazione con Spotify per poter tradurre in spagnolo e francese i podcast originariamente in lingua inglese.
Per quanto riguarda il supporto alle immagini, sarà possibile proporre a ChatGPT una o più fotografie scattate al momento a corredo di una richiesta, per ottenere risposte mirate. Per esempio, un’indicazione su come risolvere un problema tecnico o un suggerimento sui piatti da cucinare in base ai cibi conservati in frigorifero. Sarà anche possibile evidenziare porzioni o dettagli dell’immagine proposta. In questo caso, l’applicazione esistente che più si avvicina a queste capacità è Google Lens, a cui mancano però le abilità interpretative di ChatGPT, in questo caso basate sui modelli multimodali GPT-3.5 e GPT-4.
(Immagine di rawpixel da Freepik)
Si tratta, evidentemente, di sviluppi che fanno convergere i chatbot di AI generativa con gli assistenti vocali come Siri, Alexa e Cortana, e che lasciano immaginare possibili sovrapposizioni o integrazioni future. Per ora, e non è poco, si attende il debutto di queste novità sulle applicazioni mobili per Android e iOS di ChatGPT, ma solo per gli abbonati al servizio Plus o alla versione Enterprise, rivolta alle aziende. In un secondo momento la nuova funzione sarà resa accessibile anche agli sviluppatori.
OpenAI ha spiegato che il rollout graduale le consente di “fare miglioramenti e perfezionare le mitigazioni dei rischi nel tempo”. Inoltre per l’utente questo significa avere tempo per familiarizzare con gli strumenti attuali e per prepararsi a quelli, più potenti, che arriveranno in futuro. “Questa strategia”, ha sottolineato l’azienda, “diventa ancor più importante con modelli evoluti, che coinvolgono la voce e le immagini”.