Механізм перетворення тексту в мову Alphabet Tacotron 2 майже не відрізняється від людського

click fraud protection

Дослідницька лабораторія штучного інтелекту Alphabet розробила Tacotron 2, систему перетворення тексту в мовлення, яка виробляє звук, який неможливо відрізнити від людського.

Розроблено дочірню компанію Alphabet, DeepMind WaveNet, нейронної мережі, яка забезпечує синтез мовлення Google Assistant, у жовтні. Він здатний створювати кращі та реалістичніші зразки аудіо, ніж попередні пошукові гіганти система перетворення тексту в мовлення, і більш того, він генерує необроблений аудіо, а не з’єднані звуки з актори озвучення. Тепер дослідники з Alphabet розробили нову версію Tacotron 2, яка використовує кілька нейронних мереж для створення мови, майже невідрізненої від людської.

Ось зразок. Перший був згенерований за допомогою Tacotron 2, а другий є актором голосу:

[аудіо wav=" https://static1.xdaimages.com/wordpress/wp-content/uploads/2017/12/washington_gen.wav"][/audio]

[аудіо wav=" https://static1.xdaimages.com/wordpress/wp-content/uploads/2017/12/washington_gt.wav"][/audio]

Tacotron 2 складається з двох глибоких нейронних мереж. Як описано в дослідницькій статті, опублікованій цього місяця, перший перекладає текст у спектрограму, візуальне представлення спектру звукових частот. Другий — WaveNet від DeepMind — інтерпретує діаграму та генерує відповідні аудіоелементи. Результатом є наскрізний механізм, який може підкреслювати слова, правильно вимовляти імена, підбирати синтаксичні підказки (тобто наголосити на словах, виділених курсивом або великими літерами), і змінити спосіб висловлювання на основі розділові знаки.

Незрозуміло, чи Tacotron 2 потрапить до користувальницьких сервісів, таких як Google Assistant, але це було б нормально. Незабаром після публікації дослідження DeepMind WaveNet Google випустив машину розпізнавання мовлення кількома мовами на основі технології навчання на смартфонах, динаміках, і таблетки.

Є лише одна проблема: наразі система Tacotron 2 навчена імітувати один жіночий голос. Щоб генерувати нові голоси та шаблони мовлення, Google потрібно буде знову навчити систему.


Такотрон 2