Motorul text-to-speech al Alphabet Tacotron 2 sună aproape imposibil de distins de oameni

click fraud protection

Laboratorul de cercetare AI al Alphabet a dezvoltat Tacotron 2, un sistem text-to-speech care produce sunet care nu se poate distinge de un om.

Filiala Alphabet, DeepMind, s-a dezvoltat WaveNet, o rețea neuronală care alimentează sinteza vorbirii Asistentului Google, în octombrie. Este capabil de mostre audio mai bune și mai realiste decât precedentele gigantului de căutare sistem text-to-speech și, în plus, generează sunet brut -- nu sunete îmbinate de la actori de voce. Acum, cercetătorii de la Alphabet au dezvoltat o nouă versiune, Tacotron 2, care utilizează mai multe rețele neuronale pentru a produce vorbire aproape imposibil de distins de un om.

Iată o mostră. Primul a fost generat folosind Tacotron 2, iar al doilea este un actor vocal:

[audio wav=" https://static1.xdaimages.com/wordpress/wp-content/uploads/2017/12/washington_gen.wav"][/audio]

[audio wav=" https://static1.xdaimages.com/wordpress/wp-content/uploads/2017/12/washington_gt.wav"][/audio]

Tacotron 2 este format din două rețele neuronale profunde. După cum o descrie lucrarea de cercetare publicată luna aceasta, prima traduce textul într-o spectrogramă, o reprezentare vizuală a unui spectru de frecvențe audio. Al doilea -- DeepMind's WaveNet -- interpretează diagrama și generează elemente audio corespunzătoare. Rezultatul este un motor end-to-end care poate evidenția cuvintele, poate pronunța corect numele, poate prelua cuvintele sintactice. indicii (adică, accentuează cuvintele care sunt scrise în cursiv sau cu majuscule) și modifică modul în care enunțează pe baza punctuaţie.

Nu este clar dacă Tacotron 2 își va face drum spre servicii adresate utilizatorilor, cum ar fi Asistentul Google, dar ar fi egal pentru curs. La scurt timp după publicarea cercetării WaveNet de la DeepMind, Google a lansat mașina recunoaștere a vorbirii bazată pe învățare în mai multe limbi pe smartphone-uri, difuzoare, și tablete.

Există o singură problemă: în acest moment, sistemul Tacotron 2 este antrenat să imite o voce feminină. Pentru a genera noi voci și modele de vorbire, Google ar trebui să antreneze din nou sistemul.


Tacotron 2