Alphabets AI-forskningslabb utvecklade Tacotron 2, ett text-till-tal-system som producerar ljud som inte kan skiljas från en människa.
Alphabets dotterbolag, DeepMind, utvecklades WaveNet, ett neuralt nätverk som driver Google Assistants talsyntes, i oktober. Det är kapabelt till bättre och mer realistiska ljudprover än sökjättens tidigare text-till-tal-system, och vad mer är, det genererar råljud -- inte sammanfogade ljud från röstskådespelare. Nu har forskare vid Alphabet utvecklat en ny version, Tacotron 2, som använder flera neurala nätverk för att producera tal nästan omöjligt att skilja från en människa.
Här är ett exempel. Den första skapades med Tacotron 2, och den andra är en röstskådespelare:
[audio wav=" https://static1.xdaimages.com/wordpress/wp-content/uploads/2017/12/washington_gen.wav"][/audio]
[audio wav=" https://static1.xdaimages.com/wordpress/wp-content/uploads/2017/12/washington_gt.wav"][/audio]
Tacotron 2 består av två djupa neurala nätverk. Som forskningsartikeln som publicerades denna månad beskriver det, översätter den första texten till ett spektrogram, en visuell representation av ett spektrum av ljudfrekvenser. Den andra - DeepMind's WaveNet - tolkar diagrammet och genererar motsvarande ljudelement. Resultatet är en end-to-end-motor som kan betona ord, uttala namn korrekt, fånga syntaktiska ledtrådar (d.v.s. betona ord som är kursiverade eller versaler) och ändra sättet det uttalas på baserat på skiljetecken.
Det är oklart om Tacotron 2 kommer att ta sig till användarvänliga tjänster som Google Assistant, men det skulle vara par för kursen. Kort efter publiceringen av DeepMinds WaveNet-forskning rullade Google ut en maskin inlärningsdriven taligenkänning på flera språk på Assistent-drivna smartphones, högtalare, och tabletter.
Det finns bara ett problem: Just nu är Tacotron 2-systemet tränat för att efterlikna en kvinnlig röst. För att generera nya röster och talmönster skulle Google behöva träna upp systemet igen.
Tacotron 2