Microsoft annuncia VALL-E: l’AI che copia le voci umane

Siamo destinati ad essere invasi dalle intelligenze artificiali. Dopo l’IA conversazionale ChatGPT lanciata da OpenAI, adesso anche Microsoft si unisce il club ed annuncia la sua AI: il suo nome è VALL-E. Ma in questo caso l’intelligenza artificiale ha tutt’altro scopo: imitare le voci delle persone. La nuova diavoleria del colosso di Redmond è in grado di copiare le voci alla perfezione, riproducendo anche il loro tono e il loro stato emotivo.

VALL-E ha bisogno solo di tre secondi di registrazione di una qualsiasi voce per ricrearla e riprodurre qualsiasi tipo di messaggio. Tutto ciò che è necessario fare è digitare il messaggio da far riprodurre: fino ad ora il modello di intelligenza artificiale è stato allenato con più di 60.000 ore di discorsi e parole, tuttavia è disponibile solo in lingua inglese.

Sono stati pubblicati anche i primi sample vocali di VALL-E e a quanto pare è di gran lunga superiore ai migliori sistemi TTS zero-shot che si trovano al momento sul mercato. Riesce infatti a garantire una pronuncia più naturale e una maggiore somiglianza alla voce vera. I risultati si dimostrano quindi all’altezza e le voci sono realmente vicinissime a quelle originali, anche se a volte ci sono aberrazioni e artefatti che possono permettere all’ascoltatore di accorgersi dell’imitazione.

Il modello non è disponibile all’utilizzo, a differenza di ChatGPT (è possibile solo ascoltare i primi sample). E se lo fosse potrebbe ampliarsi a dismisura il fenomeno dei deepfake (così come quello delle fake news), rappresentando un problema non da poco per la società.

Fonte

Michele Ingelido: Blogger che da anni lavora nel settore tecnologico. Da perito tecnico mi definisco non solo un incurabile fanatico della tecnologia, ma anche un profondo estimatore di tutto ciò che intelligentemente crea innovazione, specie se in modo anticonformista… Un po’ come il Rock ‘n Roll!