26/09/2023 di Redazione

ChatGPT fa un altro salto: ora sa anche ascoltare, vedere e parlare

Novità in arrivo per l’applicazione Android e iOS (Premium ed Enteprise) di ChatGPT, che avrà capacità di conversazione orale e riconoscimento immagini.

ChatGPT sa già leggere e scrivere, ma presto avrà imparato anche ad ascoltare, guardare e parlare. OpenAI ha annunciato alcune novità per la popolare applicazione di AI generativa, che nella prossima release potrà non solo fornire risposte e creare riassunti o liste di suggerimenti, ma anche interagire con fotografie e intavolare conversazioni orali. Nella nuova interfaccia potremo, quindi, formulare domande ad alta voce o anche usare una fotografia come input per ottenere risposte o suggerimenti.

OpenAI ha spiegato che la funzionalità vocale si basa su un nuovo modello di intelligenza artificiale, capace di generare contenuti audio che ricordano la voce umana. Anzi, diverse voci umane. L’azienda di Sam Altman ha collaborato con doppiatori professionisti, le cui voci sono state sottoposte a campionamento, per creare diversi profili vocali. Whisper, la tecnologia open source di OpenAI per il riconoscimento del linguaggio, viene invece usata per tradurre il parlato dell’utente in un testo scritto.

La funzionalità vocale di ChatGPT torna utile negli scambi di domande e risposte con il chatbot come alternativa al testo scritto per assecondare una preferenza personale o la circostanza del momento (se, per esempio, stiamo camminando o abbiamo le mani occupate). Con questa nuova opzione, inoltre, il chatbot può enunciare ad alta voce il testo scritto da un utente oppure raccontare una storia. E non è tutto: OpenAi ha avviato una collaborazione con Spotify per poter tradurre in spagnolo e francese i podcast originariamente in lingua inglese.

Per quanto riguarda il supporto alle immagini, sarà possibile proporre a ChatGPT una o più fotografie scattate al momento a corredo di una richiesta, per ottenere risposte mirate. Per esempio, un’indicazione su come risolvere un problema tecnico o un suggerimento sui piatti da cucinare in base ai cibi conservati in frigorifero. Sarà anche possibile evidenziare porzioni o dettagli dell’immagine proposta. In questo caso, l’applicazione esistente che più si avvicina a queste capacità è Google Lens, a cui mancano però le abilità interpretative di ChatGPT, in questo caso basate sui modelli multimodali GPT-3.5 e GPT-4.

(Immagine di rawpixel da Freepik)

Si tratta, evidentemente, di sviluppi che fanno convergere i chatbot di AI generativa con gli assistenti vocali come Siri, Alexa e Cortana, e che lasciano immaginare possibili sovrapposizioni o integrazioni future. Per ora, e non è poco, si attende il debutto di queste novità sulle applicazioni mobili per Android e iOS di ChatGPT, ma solo per gli abbonati al servizio Plus o alla versione Enterprise, rivolta alle aziende. In un secondo momento la nuova funzione sarà resa accessibile anche agli sviluppatori.

OpenAI ha spiegato che il rollout graduale le consente di “fare miglioramenti e perfezionare le mitigazioni dei rischi nel tempo”. Inoltre per l’utente questo significa avere tempo per familiarizzare con gli strumenti attuali e per prepararsi a quelli, più potenti, che arriveranno in futuro. “Questa strategia”, ha sottolineato l’azienda, “diventa ancor più importante con modelli evoluti, che coinvolgono la voce e le immagini”.

ChatGPT fa un altro salto: ora sa anche ascoltare, vedere e parlare

ARTICOLI CORRELATI

Vertiv punta sulle soluzioni rack personalizzate con un’acquisizione
18/07/2025 di redazione

Chip: grande balzo dei guadagni di Tsmc, ma c’è l’incognita dei dazi
18/07/2025 di Valentina Bernocco

L’Italia costruisce il suo futuro quantistico con una nuova alleanza nazionale
18/07/2025 di Redazione

Agenti AI in cloud, nuova offerta su Aws per semplificare e velocizzare
17/07/2025 di Valentina Bernocco

Vertiv punta sulle soluzioni rack personalizzate con un’acquisizione
18/07/2025 di redazione

Chip: grande balzo dei guadagni di Tsmc, ma c’è l’incognita dei dazi
18/07/2025 di Valentina Bernocco

L’Italia costruisce il suo futuro quantistico con una nuova alleanza nazionale
18/07/2025 di Redazione

Agenti AI in cloud, nuova offerta su Aws per semplificare e velocizzare
17/07/2025 di Valentina Bernocco

Altograno integra l’AI generativa nei processi di comunicazione e vendita
09/05/2025 di Giancarlo Calzetta

Multe per 6 miliardi di euro in sette anni di Gdpr, il record a Meta
20/05/2025 di redazione

Ransomware, hacktivismo, Apt: crescono i numeri e soprattutto i danni
28/05/2025 di Valentina Bernocco

Attenzione ai metadati: che cosa insegna la multa a Regione Lombardia
17/06/2025 di Elena Vaciago

ChatGPT fa un altro salto: ora sa anche ascoltare, vedere e parlare

ARTICOLI CORRELATI

Vertiv punta sulle soluzioni rack personalizzate con un’acquisizione 18/07/2025 di redazione

Chip: grande balzo dei guadagni di Tsmc, ma c’è l’incognita dei dazi 18/07/2025 di Valentina Bernocco

L’Italia costruisce il suo futuro quantistico con una nuova alleanza nazionale 18/07/2025 di Redazione

Agenti AI in cloud, nuova offerta su Aws per semplificare e velocizzare 17/07/2025 di Valentina Bernocco

Vertiv punta sulle soluzioni rack personalizzate con un’acquisizione 18/07/2025 di redazione

Chip: grande balzo dei guadagni di Tsmc, ma c’è l’incognita dei dazi 18/07/2025 di Valentina Bernocco

L’Italia costruisce il suo futuro quantistico con una nuova alleanza nazionale 18/07/2025 di Redazione

Agenti AI in cloud, nuova offerta su Aws per semplificare e velocizzare 17/07/2025 di Valentina Bernocco

Altograno integra l’AI generativa nei processi di comunicazione e vendita 09/05/2025 di Giancarlo Calzetta

Multe per 6 miliardi di euro in sette anni di Gdpr, il record a Meta 20/05/2025 di redazione

Ransomware, hacktivismo, Apt: crescono i numeri e soprattutto i danni 28/05/2025 di Valentina Bernocco

Attenzione ai metadati: che cosa insegna la multa a Regione Lombardia 17/06/2025 di Elena Vaciago

Iscriviti alla newsletter di ictBusiness.it

Vertiv punta sulle soluzioni rack personalizzate con un’acquisizione
18/07/2025 di redazione

Chip: grande balzo dei guadagni di Tsmc, ma c’è l’incognita dei dazi
18/07/2025 di Valentina Bernocco

L’Italia costruisce il suo futuro quantistico con una nuova alleanza nazionale
18/07/2025 di Redazione

Agenti AI in cloud, nuova offerta su Aws per semplificare e velocizzare
17/07/2025 di Valentina Bernocco

Vertiv punta sulle soluzioni rack personalizzate con un’acquisizione
18/07/2025 di redazione

Chip: grande balzo dei guadagni di Tsmc, ma c’è l’incognita dei dazi
18/07/2025 di Valentina Bernocco

L’Italia costruisce il suo futuro quantistico con una nuova alleanza nazionale
18/07/2025 di Redazione

Agenti AI in cloud, nuova offerta su Aws per semplificare e velocizzare
17/07/2025 di Valentina Bernocco

Altograno integra l’AI generativa nei processi di comunicazione e vendita
09/05/2025 di Giancarlo Calzetta

Multe per 6 miliardi di euro in sette anni di Gdpr, il record a Meta
20/05/2025 di redazione

Ransomware, hacktivismo, Apt: crescono i numeri e soprattutto i danni
28/05/2025 di Valentina Bernocco

Attenzione ai metadati: che cosa insegna la multa a Regione Lombardia
17/06/2025 di Elena Vaciago