Molto spesso, chi è solito utilizzare software TTS (Text To Speech) per la sintesi vocale dei testi, si lamenta della scarsa “naturalezza” delle voci digitali sintetizzate, meno fluenti rispetto al parlato umano. Google, come sempre attenta agli ultimi sviluppi in campo AI, è riuscita nell’intento di creare un algoritmo TTS, Tacotron 2, in grado di imitare perfettamente la voce umana, con le tipiche pause e cadenze del parlato naturale.
Tacotron 2 è un sistema in grado di simulare accuratamente una lettura “umana” dei testi che gli utenti possono sottoporre, ed è l’evoluzione del precedente Tacotron, prima generazione dell’algoritmo AI sviluppato dalla casa di Mountain View. Al centro del funzionamento dell’intelligenza artificiale, come possiamo aspettarci, ci sono reti neurali incentrate sul deep learning, che consente a Tacotron 2 di imparare da eventuali errori di dizione integrando le modifiche e applicandole alle successive letture.
Google ha varato diversi esperimenti per testare la bontà di Tacotron 2, tra i quali la conversione di un testo in uno spettrogramma audio successivamente inviato a WaveNet, un sistema creato dalla divisione Alphabet di Google in grado di generare l’output audio richiesto, pressoché indistinguibile dalla voce umana. Big G ha allegato al suo paper, ora in fase di peer-review, alcuni sample contenenti le registrazioni effettuate con Tacotron 2, da cui si può intuire la capacità dell’AI di distinguere i diversi contesti in cui una frase può essere pronunciata, assegnandole così il giusto tono.
Infine, potremo vedere presto all’opera il nuovo “enfant prodige” di Big G: alcuni degli aspetti dell’algoritmo di Tacotron 2 verranno implementati sulle prossime versioni di Google Assistant, per la felicità degli utenti Android: non ci resta che scoprire come l’ecosistema del robottino verde verrà migliorato dall’AI vocale.