Alphabet's Tacotron 2 Text-to-Speech Engine zní téměř k nerozeznání od lidí

Výzkumná laboratoř AI společnosti Alphabet vyvinula Tacotron 2, systém převodu textu na řeč, který produkuje zvuk k nerozeznání od člověka.

Vyvinula se dceřiná společnost Alphabetu, DeepMind WaveNet, neuronová síť, která pohání syntézu řeči Asistenta Google, v říjnu. Je schopen lepších a realističtějších zvukových vzorků než předchozí vyhledávací gigant systém převodu textu na řeč, a co víc, generuje nezpracovaný zvuk – nikoli spojené zvuky z hlasoví herci. Nyní výzkumníci z Alphabet vyvinuli novou verzi, Tacotron 2, která využívá více neuronových sítí k produkci řeči téměř k nerozeznání od lidské.

Zde je ukázka. První byl vytvořen pomocí Tacotron 2 a druhý je hlasový herec:

[audio wav=" https://static1.xdaimages.com/wordpress/wp-content/uploads/2017/12/washington_gen.wav"][/audio]

[audio wav=" https://static1.xdaimages.com/wordpress/wp-content/uploads/2017/12/washington_gt.wav"][/audio]

Tacotron 2 se skládá ze dvou hlubokých neuronových sítí. Jak to popisuje výzkumný dokument publikovaný tento měsíc, první překládá text do spektrogramu, vizuální reprezentace spektra zvukových frekvencí. Druhý - DeepMind's WaveNet - interpretuje graf a generuje odpovídající zvukové prvky. Výsledkem je end-to-end engine, který dokáže zdůrazňovat slova, správně vyslovovat jména, využívat syntaktické vodítka (tj. zdůrazňující slova, která jsou napsána kurzívou nebo velkým písmenem) a změnit způsob, jakým se vyslovuje na základě interpunkce.

Není jasné, zda se Tacotron 2 dostane do služeb pro uživatele, jako je Google Assistant, ale bylo by to běžné. Krátce po zveřejnění výzkumu WaveNet společnosti DeepMind spustil Google stroj rozpoznávání řeči pomocí učení ve více jazycích na chytrých telefonech s Asistentem, reproduktorech, a tablety.

Je tu jen jeden problém: Právě teď je systém Tacotron 2 trénován tak, aby napodoboval jeden ženský hlas. Pro generování nových hlasů a řečových vzorů by Google musel systém znovu natrénovat.

Tacotron 2