De Tacotron 2-tekst-naar-spraak-engine van Alphabet klinkt bijna niet van mensen te onderscheiden

click fraud protection

Het AI-onderzoekslaboratorium van Alphabet ontwikkelde Tacotron 2, een tekst-naar-spraaksysteem dat audio produceert die niet van een mens te onderscheiden is.

De dochteronderneming van Alphabet, DeepMind, ontwikkelde WaveNet, een neuraal netwerk dat de spraaksynthese van de Google Assistent aanstuurt, in oktober. Het is in staat betere en realistischere audiofragmenten te produceren dan de vorige van de zoekgigant tekst-naar-spraak-systeem, en bovendien genereert het rauwe audio - geen samengevoegde geluiden van stemacteurs. Nu hebben onderzoekers van Alphabet een nieuwe versie ontwikkeld, Tacotron 2, die meerdere neurale netwerken gebruikt om spraak te produceren die bijna niet van een mens te onderscheiden is.

Hier is een voorbeeld. De eerste is gegenereerd met Tacotron 2 en de tweede is een stemacteur:

[audio wav = " https://static1.xdaimages.com/wordpress/wp-content/uploads/2017/12/washington_gen.wav"][/audio]

[audio wav = " https://static1.xdaimages.com/wordpress/wp-content/uploads/2017/12/washington_gt.wav"][/audio]

Tacotron 2 bestaat uit twee diepe neurale netwerken. Zoals het deze maand gepubliceerde onderzoeksartikel beschrijft, vertaalt de eerste tekst in een spectrogram, een visuele weergave van een spectrum van audiofrequenties. De tweede – WaveNet van DeepMind – interpreteert de grafiek en genereert overeenkomstige audio-elementen. Het resultaat is een end-to-end engine die woorden kan benadrukken, namen correct kan uitspreken en syntactisch kan oppikken aanwijzingen (d.w.z. benadruk woorden die cursief of met hoofdletters zijn geschreven), en verander de manier waarop het wordt uitgesproken op basis van interpunctie.

Het is onduidelijk of Tacotron 2 zijn weg zal vinden naar gebruikersgerichte services zoals de Google Assistent, maar het zou de norm zijn. Kort na de publicatie van het WaveNet-onderzoek van DeepMind introduceerde Google een machine leergestuurde spraakherkenning in meerdere talen op smartphones, luidsprekers, en tabletten.

Er is alleen één probleem: op dit moment is het Tacotron 2-systeem getraind om één vrouwenstem na te bootsen. Om nieuwe stemmen en spraakpatronen te genereren, zou Google het systeem opnieuw moeten trainen.


Tacotron 2