Le moteur de synthèse vocale Tacotron 2 d'Alphabet semble presque impossible à distinguer des humains

click fraud protection

Le laboratoire de recherche en IA d'Alphabet a développé Tacotron 2, un système de synthèse vocale qui produit un son impossible à distinguer de celui d'un humain.

La filiale d'Alphabet, DeepMind, a développé WaveNet, un réseau neuronal qui alimente la synthèse vocale de l'Assistant Google, en octobre. Il est capable de produire des échantillons audio meilleurs et plus réalistes que le précédent du géant de la recherche. système de synthèse vocale, et de plus, il génère de l'audio brut - et non des sons assemblés à partir de acteurs de la voix. Aujourd'hui, les chercheurs d'Alphabet ont développé une nouvelle version, Tacotron 2, qui utilise plusieurs réseaux neuronaux pour produire une parole presque impossible à distinguer de celle d'un humain.

Voici un échantillon. Le premier a été généré à l'aide de Tacotron 2, et le second est un doubleur :

[audiowav=" https://static1.xdaimages.com/wordpress/wp-content/uploads/2017/12/washington_gen.wav"][/audio]

[audiowav=" https://static1.xdaimages.com/wordpress/wp-content/uploads/2017/12/washington_gt.wav"][/audio]

Tacotron 2 se compose de deux réseaux neuronaux profonds. Comme le décrit le document de recherche publié ce mois-ci, le premier traduit le texte en spectrogramme, une représentation visuelle d’un spectre de fréquences audio. Le second – WaveNet de DeepMind – interprète le graphique et génère les éléments audio correspondants. Le résultat est un moteur de bout en bout capable de mettre l'accent sur les mots, de prononcer correctement les noms, de comprendre la syntaxe des indices (c'est-à-dire souligner les mots en italique ou en majuscule) et modifier la façon dont il est énoncé en fonction de ponctuation.

On ne sait pas si Tacotron 2 fera son chemin vers des services destinés aux utilisateurs comme l'Assistant Google, mais ce serait normal. Peu de temps après la publication de l'étude WaveNet de DeepMind, Google a déployé une machine reconnaissance vocale basée sur l'apprentissage dans plusieurs langues sur les smartphones, haut-parleurs, et des comprimés.

Il n'y a qu'un seul problème: à l'heure actuelle, le système Tacotron 2 est conçu pour imiter une voix féminine. Pour générer de nouvelles voix et modèles de parole, Google devrait à nouveau entraîner le système.


Tacotron2