Die Text-to-Speech-Engine Tacotron 2 von Alphabet klingt fast nicht von Menschen zu unterscheiden

click fraud protection

Das KI-Forschungslabor von Alphabet hat Tacotron 2 entwickelt, ein Text-to-Speech-System, das Audiosignale erzeugt, die nicht von denen eines Menschen zu unterscheiden sind.

Die Tochtergesellschaft von Alphabet, DeepMind, wurde entwickelt WaveNet, ein neuronales Netzwerk, das die Sprachsynthese des Google Assistant unterstützt, im Oktober. Es ist in der Lage, bessere und realistischere Audio-Samples zu liefern als das Vorgängermodell des Suchriesen Text-to-Speech-System, und darüber hinaus erzeugt es Rohaudio – keine zusammengefügten Klänge Synchronsprecher. Jetzt haben Forscher bei Alphabet eine neue Version entwickelt, Tacotron 2, die mehrere neuronale Netze nutzt, um Sprache zu erzeugen, die kaum von der eines Menschen zu unterscheiden ist.

Hier ist ein Beispiel. Der erste wurde mit Tacotron 2 erstellt und der zweite ist ein Synchronsprecher:

[Audio wav=" https://static1.xdaimages.com/wordpress/wp-content/uploads/2017/12/washington_gen.wav"][/audio]

[Audio wav=" https://static1.xdaimages.com/wordpress/wp-content/uploads/2017/12/washington_gt.wav"][/audio]

Tacotron 2 besteht aus zwei tiefen neuronalen Netzen. Wie es in der in diesem Monat veröffentlichten Forschungsarbeit beschrieben wird, übersetzt der erste Text in ein Spektrogramm, eine visuelle Darstellung eines Spektrums von Audiofrequenzen. Der zweite – DeepMinds WaveNet – interpretiert das Diagramm und generiert entsprechende Audioelemente. Das Ergebnis ist eine End-to-End-Engine, die Wörter hervorheben, Namen korrekt aussprechen und Syntax aufgreifen kann Hinweise (d. h. Wörter betonen, die kursiv oder groß geschrieben sind) und die Art und Weise, wie sie ausgesprochen werden, entsprechend ändern Interpunktion.

Es ist unklar, ob Tacotron 2 den Weg zu benutzerorientierten Diensten wie dem Google Assistant finden wird, aber es wäre selbstverständlich. Kurz nach der Veröffentlichung der WaveNet-Forschung von DeepMind führte Google eine Maschine ein lerngestützte Spracherkennung in mehreren Sprachen auf assistentengesteuerten Smartphones, Lautsprechern usw. und Tabletten.

Es gibt nur ein Problem: Im Moment ist das Tacotron 2-System darauf trainiert, eine weibliche Stimme zu imitieren. Um neue Stimmen und Sprachmuster zu generieren, müsste Google das System erneut trainieren.


Tacotron 2