L'AI di QuestIT può clonare la voce umana (a fin di bene) Il sistema di voice cloning realizzato per la giornalista Deborah Ullasci ha permesso di ricreare artificialmente la sua voce, che viene riprodotta con il text to speech. 04 ottobre 2023

L’ intelligenza artificiale è un potente strumento servizio del bene e del progresso, nonostante i rischi e gli utilizzi spregiudicati a cui oggi assistiamo. Ultimo, per citare un caso rimbalzato in prima pagina, la “clonazione” dell’attore Tom Hanks, senza consenso e a sua insaputa, per uno spot pubblicitario. Ma l’AI può servire anche per ridare la voce a chi l’ha persa . Così è successo nel caso di Deborah Ullasci , giornalista esperta di fintech, che in seguito a un intervento chirurgico ha riportato danni alle corde vocali e conseguenti problemi di disfonia.



Grazie alla tecnologia di QuestIT la giornalista ha potuto clonare la propria voce, questa volta con una scelta volontaria e a proprio beneficio. Il nuovo sistema di voice cloning è stato presentato oggi a Bologna, in occasione della conferenza Ecommerce Women, di cui Ullasci è uno tra i relatori sul palco. “ Ho subìto la rimozione di un tumore alla tiroide, che ha portato ad una disfonia acuta ”, ha dichiarato. “ Sapendo che avrei dovuto presenziare e parlare ad un evento così importante sulle donne che operano nel e-commerce, ho fatto delle ricerche in rete per trovare una soluzione tecnologica adeguata. E così ho trovato in QuestIT il partner giusto per affrontare al meglio questa fase della mia vita”.



Il sistema messo a punto da QuestIT, azienda già ideatrice del primo avatar capace di parlare la lingua dei segni italiana, si è basato sulla raccolta di campioni della voce della giornalista, tratti da video e interviste audio, elaborati dal software Algho. L’intelligenza artificiale ha sostanzialmente “clonato” il timbro di voce e il modo di parlare della donna. “Ci tengo a precisare”, ha detto Ernesto Di Iorio, Ceo di QuestIT, “che la voce riprodotta dalla piattaforma è al 100% quella di Deborah. Questo perché, partendo da video ed interviste preesistenti, siamo riusciti a clonare il suo tone of voice attraverso l’AI. Il nostro augurio, in quanto azienda di spicco dell’asset, è che l’utilizzo dell’AI diventi una buona abitudine utile a facilitare le singole attività quotidiane”.



Nell’ultimo anno si è parlato molto di AI generativa, che crea contenuti a partire dalla base di dati usata per allenare l’algoritmo e dalle abilità acquisite da esso nel tempo, come accade per esempio con ChatGPT (per i testi) o con Dall-E e Midjourney (per le immagini), o ancora con diverse applicazioni di generazione di contenuti audio e musicali, come AudioCraft. Il sistema realizzato da QuestIT è però qualcosa di diverso: in questo caso l’AI ha appreso le caratteristiche uniche di una voce ed è stata integrata in un’applicazione che converte il testo scritto in audio con il text-to-speech, ma a generare i contenuti è la persona.





Deborah Ullasci





“Lo stato delle mie corde vocali grazie all’innovazione tecnologica oggi non è un problema invalidante”, ha aggiunto Ullasci. “Quando sarò chiamata ad intervenire digiterò per iscritto sulla piattaforma quello che voglio dire o, in alternativa, potrò suggerire ad essa il messaggio da condividere in forma orale. In seguito, la platform riprodurrà il tutto con la mia voce ma con un volume e una chiarezza migliori in modo tale da farmi risultare estremamente naturale e comunicativa”.



Un caso illustre di “voce ritrovata” grazie alle invenzioni dell’informatica è quello di Stephen Hawkins: l’astrofisico, malato di SLA, perse la capacità di parlare a metà degli anni Ottanta in seguito a una tracheotomia, ma per il resto della vita potè comunicare oralmente grazie, prima, a un sintetizzatore vocale, un computer e un’applicazione text-to-speech, e poi con un sistema di riconoscimento facciale (composto da sensori di movimento e raggi infrarossi) che traduceva in parole i piccoli movimenti della bocca e degli occhi. Queste invenzioni prototipali, benché avveniristiche per l’epoca, avevano notevoli limiti in termini di velocità e fluidità del parlato, nonché di realismo. Il progresso esemplificato oggi da QuestIT è (diciamo così, per rendere omaggio a Hawkins) avanti di anni luce e il vero progresso sarà, nei prossimi anni, vederlo applicato su larga scala.