O mecanismo de conversão de texto em fala Tacotron 2 da Alphabet parece quase indistinguível dos humanos

O laboratório de pesquisa de IA da Alphabet desenvolveu o Tacotron 2, um sistema de conversão de texto em fala que produz áudio indistinguível de um humano.

A subsidiária da Alphabet, DeepMind, desenvolveu WaveNet, uma rede neural que alimenta a síntese de fala do Google Assistente, em outubro. É capaz de produzir amostras de áudio melhores e mais realistas do que as anteriores do gigante das buscas sistema de conversão de texto em fala e, além do mais, gera áudio bruto - e não sons emendados de dubladores. Agora, pesquisadores da Alphabet desenvolveram uma nova versão, Tacotron 2, que usa múltiplas redes neurais para produzir uma fala quase indistinguível de um ser humano.

Aqui está uma amostra. O primeiro foi gerado usando Tacotron 2, e o segundo é um dublador:

[wav de áudio = " https://static1.xdaimages.com/wordpress/wp-content/uploads/2017/12/washington_gen.wav"][/audio]

[wav de áudio = " https://static1.xdaimages.com/wordpress/wp-content/uploads/2017/12/washington_gt.wav"][/audio]

O Tacotron 2 consiste em duas redes neurais profundas. Conforme descreve o artigo de pesquisa publicado este mês, o primeiro traduz o texto em um espectrograma, uma representação visual de um espectro de frequências de áudio. O segundo – WaveNet da DeepMind – interpreta o gráfico e gera os elementos de áudio correspondentes. O resultado é um mecanismo de ponta a ponta que pode enfatizar palavras, pronunciar nomes corretamente, captar informações sintáticas pistas (ou seja, enfatizar palavras em itálico ou maiúsculas) e alterar a forma como enuncia com base em pontuação.

Não está claro se o Tacotron 2 chegará a serviços voltados para o usuário, como o Google Assistant, mas seria normal. Pouco depois da publicação da pesquisa WaveNet da DeepMind, o Google lançou o machine reconhecimento de fala com tecnologia de aprendizagem em vários idiomas em smartphones, alto-falantes e alto-falantes com tecnologia Assistant. e comprimidos.

Só há um problema: no momento, o sistema Tacotron 2 está treinado para imitar uma voz feminina. Para gerar novas vozes e padrões de fala, o Google precisaria treinar o sistema novamente.

Tacotron 2