25/11/2016 di Redazione

La Bbc ha insegnato a Google come leggere il labiale

Il gruppo Deepmind di Big G e un team di ricercatori di Oxford hanno sviluppato un sistema di intelligenza artificiale in grado di interpretare il movimento di labbra e bocca, trascrivendo le parole in tempo reale. Il tasso di accuratezza è del 46,8%. Per

immagine.jpg

Dalla televisione si può anche imparare. Basta chiedere ai sistemi di intelligenza artificiali (Ai) sviluppati da Deepmind, divisione di Google acquisita dall’omonima azienda nel 2014. Il team di ricercatori di Big G, insieme all’Università di Oxford, è infatti riuscito a insegnare ai computer come leggere il labiale delle persone in Tv. Con un’accuratezza, ad oggi, del 46,8 per cento. Gli esperti hanno fatto “digerire” ai sistemi di Ai “migliaia di ore” (5.000) di video realizzati dalla Bbc, per consentire ai computer di imparare passo dopo passo a riconoscere i movimenti di labbra e bocca. Creando così una nuova rete neurale, che può crescere in modo proporzionale alle ore di “allenamento”.

I ricercatori sono ricorsi a show popolari in Gran Bretagna come Newsnight, Question Time e World Today: il training, chiamato “Watch, listen, attend and spell” ha previsto l’elaborazione di circa 118mila frasi e di 17.500 parole uniche. Un numero di risorse infinitamente maggiore rispetto a quello su cui si basa Lipnet, un software di lettura labiale sviluppato sempre a Oxford, che in precedenza era stato allenato su 51 parole soltanto.

Esperimenti di questo genere potrebbero portare in futuro allo sviluppo di soluzioni commerciali utili soprattutto per i non udenti: la tecnologia di deep learning di Google potrebbe, per esempio, essere integrato nei sistemi di videoconferenza e aiutare così le persone con problemi uditivi a comprendere molto meglio quanto viene detto dai partecipanti al meeting.

 

Fonte: Arxiv. "Lip reading sentences in the wild"

 

Ma non solo. Con l’avvento di assistenti digitali intelligenti, come Siri e Alexa, si sta diffondendo sempre più il controllo vocale di dispositivi e applicazioni. Con Deepmind si potrebbero impartire comandi “silenziosi”, semplicemente muovendo le labbra e parlando sottovoce: una videocamera integrata nel ricevitore potrebbe capire in tempo reale quello che l’utente sta dicendo, avviando così l’azione richiesta.

E se un tasso di accuratezza del 46,8 per cento può sembrare poco, può servire il confronto con una persona in carne e ossa. Un professionista abituato a leggere il labiale riesce a capire, in media, poco più di una parola su dieci. I ricercatori di Google e di Oxford hanno pubblicato i risultati del proprio lavoro scientifico congiunto su Arxiv. Il documento è disponibile a questo link.

 

ARTICOLI CORRELATI