La voce sintetica di Microsoft è più veloce da allenare. L’azienda di Redmond, insieme a un gruppo di ricercatori cinesi, ha sviluppato una soluzione di text-to-speech basata sull’intelligenza artificiale, che riesce a imitare la voce umana sfruttando circa duecento campioni. Il sistema, una volta forniti i dati di input, è pronto in una ventina di minuti. Come spiegato su questa pagina di Github, il progetto sfrutta reti neurali di tipo Transformer che “imitano” il funzionamento dei neuroni umani. Questi componenti valutano in tempo reale tutti gli input e gli output come succede nei collegamenti sinaptici, in modo da elaborare al meglio anche sequenze di caratteri (frasi) molto lunghe. La soluzione impiega anche un encoder per rimuovere il rumore di fondo e migliorare ulteriormente il risultato.

La voce sintetica elaborata da Microsoft non è ancora perfetta e sembra lievemente robotica, ma il tasso di intelligibilità delle parole tocca il 99,84 per cento. Riducendo però drasticamente i tempi di allenamento dei modelli di intelligenza artificiale è possibile abbattere anche i costi di sviluppo, ideando così applicazioni più economiche.

Microsoft non è però l’unico colosso tecnologico a lavorare in questo campo. Pochi giorni fa Google ha presentato Translatotron, che traduce in automatico il discorso di una persona in un’altra lingua, imitando la voce e la cadenza dell’oratore. Per accelerare l’output e ridurre il tasso di errori, la soluzione di Big G non converte l’audio in testo per tradurlo, ma effettua in modo istantaneo la traduzione partendo direttamente dal campione vocale: proprio come un interprete in carne e ossa.