Siamo destinati ad essere invasi dalle intelligenze artificiali. Dopo l’IA conversazionale ChatGPT lanciata da OpenAI, adesso anche Microsoft si unisce il club ed annuncia la sua AI: il suo nome è VALL-E. Ma in questo caso l’intelligenza artificiale ha tutt’altro scopo: imitare le voci delle persone. La nuova diavoleria del colosso di Redmond è in grado di copiare le voci alla perfezione, riproducendo anche il loro tono e il loro stato emotivo.
VALL-E ha bisogno solo di tre secondi di registrazione di una qualsiasi voce per ricrearla e riprodurre qualsiasi tipo di messaggio. Tutto ciò che è necessario fare è digitare il messaggio da far riprodurre: fino ad ora il modello di intelligenza artificiale è stato allenato con più di 60.000 ore di discorsi e parole, tuttavia è disponibile solo in lingua inglese.
Sono stati pubblicati anche i primi sample vocali di VALL-E e a quanto pare è di gran lunga superiore ai migliori sistemi TTS zero-shot che si trovano al momento sul mercato. Riesce infatti a garantire una pronuncia più naturale e una maggiore somiglianza alla voce vera. I risultati si dimostrano quindi all’altezza e le voci sono realmente vicinissime a quelle originali, anche se a volte ci sono aberrazioni e artefatti che possono permettere all’ascoltatore di accorgersi dell’imitazione.
Il modello non è disponibile all’utilizzo, a differenza di ChatGPT (è possibile solo ascoltare i primi sample). E se lo fosse potrebbe ampliarsi a dismisura il fenomeno dei deepfake (così come quello delle fake news), rappresentando un problema non da poco per la società.