Звук системы преобразования текста в речь Alphabet Tacotron 2 почти неотличим от человеческого

Исследовательская лаборатория искусственного интеллекта Alphabet разработала Tacotron 2, систему преобразования текста в речь, которая воспроизводит звук, неотличимый от человеческого.

DeepMind, дочерняя компания Alphabet, разработала ВейвНет, нейронная сеть, которая обеспечивает синтез речи Google Assistant, в октябре. Он способен воспроизводить более качественные и реалистичные аудиосэмплы, чем предыдущие модели поискового гиганта. систему преобразования текста в речь, и, более того, она генерирует необработанный звук, а не склеенные вместе звуки из актеры озвучки. Теперь исследователи из Alphabet разработали новую версию Tacotron 2, которая использует несколько нейронных сетей для создания речи, практически неотличимой от человеческой.

Вот образец. Первый был создан с помощью Tacotron 2, а второй — озвучка:

[аудио wav=" https://static1.xdaimages.com/wordpress/wp-content/uploads/2017/12/washington_gen.wav"][/audio]

[аудио wav=" https://static1.xdaimages.com/wordpress/wp-content/uploads/2017/12/washington_gt.wav"][/audio]

Tacotron 2 состоит из двух глубоких нейронных сетей. Как описано в исследовательской статье, опубликованной в этом месяце, первый переводит текст в спектрограмму, визуальное представление спектра звуковых частот. Второй — WaveNet от DeepMind — интерпретирует диаграмму и генерирует соответствующие аудиоэлементы. Результатом является комплексный движок, который может выделять слова, правильно произносить имена, улавливать синтаксические особенности. подсказки (т. е. подчеркивать слова, выделенные курсивом или с заглавной буквы) и изменять способ их произнесения в зависимости от пунктуация.

Неясно, появится ли Tacotron 2 в сервисах, ориентированных на пользователя, таких как Google Assistant, но это было бы в порядке вещей. Вскоре после публикации исследования DeepMind WaveNet компания Google представила машину распознавание речи на основе обучения на нескольких языках на смартфонах, колонках с поддержкой Assistant, и таблетки.

Есть только одна проблема: сейчас система Tacotron 2 обучена имитировать один женский голос. Чтобы генерировать новые голоса и речевые модели, Google придется заново обучить систему.

Такотрон 2