Il motore di sintesi vocale Tacotron 2 di Alphabet sembra quasi indistinguibile da quello umano

click fraud protection

Il laboratorio di ricerca sull'intelligenza artificiale di Alphabet ha sviluppato Tacotron 2, un sistema di sintesi vocale che produce audio indistinguibile da quello di un essere umano.

Nasce la filiale di Alphabet, DeepMind WaveNet, una rete neurale che alimenta la sintesi vocale dell'Assistente Google, a ottobre. È in grado di produrre campioni audio migliori e più realistici rispetto al precedente del gigante della ricerca sistema di sintesi vocale e, cosa ancora più importante, genera audio grezzo, non suoni uniti insieme da doppiatori. Ora, i ricercatori di Alphabet hanno sviluppato una nuova versione, Tacotron 2, che utilizza più reti neurali per produrre un parlato quasi indistinguibile da quello di un essere umano.

Ecco un esempio. Il primo è stato generato utilizzando Tacotron 2 e il secondo è un doppiatore:

[audio wav=" https://static1.xdaimages.com/wordpress/wp-content/uploads/2017/12/washington_gen.wav"][/audio]

[audio wav=" https://static1.xdaimages.com/wordpress/wp-content/uploads/2017/12/washington_gt.wav"][/audio]

Tacotron 2 è costituito da due reti neurali profonde. Come descritto nel documento di ricerca pubblicato questo mese, il primo traduce il testo in uno spettrogramma, una rappresentazione visiva di uno spettro di frequenze audio. Il secondo, WaveNet di DeepMind, interpreta il grafico e genera gli elementi audio corrispondenti. Il risultato è un motore end-to-end in grado di enfatizzare le parole, pronunciare correttamente i nomi e cogliere la sintassi indizi (ad esempio, sottolinea le parole in corsivo o in maiuscolo) e altera il modo in cui si enuncia in base a punteggiatura.

Non è chiaro se Tacotron 2 arriverà ai servizi rivolti agli utenti come l'Assistente Google, ma sarebbe la norma. Poco dopo la pubblicazione della ricerca WaveNet di DeepMind, Google ha lanciato la macchina riconoscimento vocale basato sull'apprendimento in più lingue su smartphone, altoparlanti e dispositivi con l'assistente e compresse.

C'è solo un problema: al momento, il sistema Tacotron 2 è addestrato per imitare una voce femminile. Per generare nuove voci e modelli vocali, Google dovrebbe addestrare nuovamente il sistema.


Tacotron 2