El motor de conversión de texto a voz Tacotron 2 de Alphabet suena casi indistinguible de los humanos

El laboratorio de investigación de inteligencia artificial de Alphabet desarrolló Tacotron 2, un sistema de conversión de texto a voz que produce un audio indistinguible del de un humano.

La filial de Alphabet, DeepMind, desarrolló OndaNet, una red neuronal que impulsa la síntesis de voz del Asistente de Google, en octubre. Es capaz de generar muestras de audio mejores y más realistas que las anteriores del gigante de las búsquedas. sistema de texto a voz y, lo que es más, genera audio sin procesar, no sonidos empalmados de actores de doblaje. Ahora, investigadores de Alphabet han desarrollado una nueva versión, Tacotron 2, que utiliza múltiples redes neuronales para producir un habla casi indistinguible de la de un humano.

Aquí tienes una muestra. El primero se generó usando Tacotron 2 y el segundo es un actor de doblaje:

[audio wav=" https://static1.xdaimages.com/wordpress/wp-content/uploads/2017/12/washington_gen.wav"][/audio]

[audio wav=" https://static1.xdaimages.com/wordpress/wp-content/uploads/2017/12/washington_gt.wav"][/audio]

Tacotron 2 consta de dos redes neuronales profundas. Como lo describe el artículo de investigación publicado este mes, el primero traduce el texto en un espectrograma, una representación visual de un espectro de frecuencias de audio. El segundo, WaveNet de DeepMind, interpreta el gráfico y genera los elementos de audio correspondientes. El resultado es un motor integral que puede enfatizar palabras, pronunciar nombres correctamente, captar la sintaxis pistas (es decir, palabras acentuadas que están en cursiva o en mayúscula) y alterar la forma en que se enuncia en función de puntuación.

No está claro si Tacotron 2 llegará a servicios orientados al usuario como el Asistente de Google, pero sería normal. Poco después de la publicación de la investigación WaveNet de DeepMind, Google lanzó la máquina reconocimiento de voz basado en el aprendizaje en varios idiomas en teléfonos inteligentes, parlantes y dispositivos con asistente. y tabletas.

Sólo hay un problema: en este momento, el sistema Tacotron 2 está entrenado para imitar una voz femenina. Para generar nuevas voces y patrones de habla, Google necesitaría entrenar el sistema nuevamente.

Tacotrón 2