30/11/2017 di Redazione

L'invito di Mozilla: donate la vostra voce tramite browser

Parte il progetto Common Voice, mirato a raccogliere i contributi delle persone e allargare un dataset pubblico di dati audio. Debutta anche Deep Speech, una piattaforma utile per creare applicazioni con interfacce vocali.

immagine.jpg

Donate la vostra voce! È l'invito che Mozilla rivolge a chiunque voglia contribuire al progetto “collaborativo” e open source di intelligenza artificiale, Common Voice, nel giorno in cui presenta anche una seconda iniziativa (nata da Baidu e perfezionata da Mozilla), la “rete neurale artificiale Deep Speech. In comune, i due progetti hanno la vitale necessità di alimentarsi di dati, in grande quantità, e da qui parte l'invito rivolto all'intera platea di Internet. L'intento di Common Voice è quello di aiutare gli sviluppatori a creare applicazioni con interfacce vocali, fornendo loro un archivio di registrazioni abbastanza ampio e vario. “Il nostro obiettivo”, ha spiegato l'azienda, “è quello di contribuire a rendere le tecnologie vocali più inclusive, capaci di riflettere la varietà delle voci nel mondo”.

Il dataset è già disponibile e, una volta scaricato, può essere impiegato per istruire algoritmi e far funzionare applicazioni con capacità di riconoscimento vocale. Ma si tratta di un lavoro progressivo: a circa quattro mesi dal suo primo annuncio, questa piattaforma è ancora acerba, avendo raccolto circa 500 ore di contenuti audio sulle 10mila fissate come obiettivo da raggiungere entro la fine di marzo 2018. Le cinquecento ore attuali sono la somma di 40mila registrazioni, inviate dalle circa 20mila persone che hanno colto l'invito lanciato lo scorso luglio da Mozilla.

Come hanno fatto? Semplicemente hanno “parlato” con il browser, recandosi sulla pagina Web dell'iniziativa e registrando la propria voce che recitava le tre frasi proposte. Si può contribuire anche valutando come accurate o inaccurate alcune registrazioni di altri utenti. Al momento è possibile registrare la propria voce solo leggendo in inglese e, per i non madrelingua, segnalare quale sia il proprio accento (l'italiano non è ancora incluso nella lista di quelli contemplati), ma nuove lingue saranno inserite prossimamente. Mozilla fornisce anche indicazioni per scaricare altri dataset pubblici, come LibriSpeech, Ted-Lium Corpus, VoxForge e Tatoeba.

In tema di intelligenza artificiale e voce, l'altra novità di questi giorni è il rilascio su GitHub della versione iniziale di Deep Speech: si tratta di un motore di trascrizione Speech-To-Text basato sugli algoritmi di TensorFlow, la libreria software di Google, e sul lavoro di ricerca svolto in quest'ambito da Baidu.

 

Deep Speach e Common Voice sono due progetti contigui per Mozilla

 

 

Il materiale a disposizione degli sviluppatori include alcuni pacchetti predefiniti in Python e Node.js e un'interfaccia a riga di comando. A detta di Mozilla, questa rete neurale assicura una buona accuratezza, avendo mostrato durante i test un tasso di errore del 6,5%. Deep Speech puà comunque essere “allenata” utilizzando algoritmi di machine learning con supervisione.

Vale la pena rimarcare come le interfacce vocali siano al centro dei pensieri di diversi protagonisti del settore tecnologico. Lo dimostrano sia l'accelerata di Amazon su Alexa e sull'offerta di smart speaker, sia le acquisizioni di Samsung mirate a far crescere l'assistente virtuale Bixby, sia la nascita di interessanti progetti alternativi a quelli dei colossi.

 

ARTICOLI CORRELATI