Alphabets Tacotron 2 tekst-til-tale-motor høres nesten ikke ut fra mennesker

click fraud protection

Alphabets AI-forskningslaboratorium utviklet Tacotron 2, et tekst-til-tale-system som produserer lyd som ikke kan skilles fra et menneske.

Alphabets datterselskap, DeepMind, utviklet WaveNet, et nevralt nettverk som driver Google Assistants talesyntese, i oktober. Den er i stand til bedre og mer realistiske lydprøver enn søkegigantens forrige tekst-til-tale-system, og i tillegg genererer det rålyd -- ikke spleiset sammen lyder fra stemmeskuespillere. Nå har forskere ved Alphabet utviklet en ny versjon, Tacotron 2, som bruker flere nevrale nettverk for å produsere tale som nesten ikke kan skilles fra et menneske.

Her er et eksempel. Den første ble generert ved hjelp av Tacotron 2, og den andre er en stemmeskuespiller:

[audio wav=" https://static1.xdaimages.com/wordpress/wp-content/uploads/2017/12/washington_gen.wav"][/audio]

[audio wav=" https://static1.xdaimages.com/wordpress/wp-content/uploads/2017/12/washington_gt.wav"][/audio]

Tacotron 2 består av to dype nevrale nettverk. Som forskningsartikkelen publisert denne måneden beskriver det, oversetter den første teksten til et spektrogram, en visuell representasjon av et spekter av lydfrekvenser. Den andre - DeepMinds WaveNet - tolker diagrammet og genererer tilsvarende lydelementer. Resultatet er en ende-til-ende-motor som kan understreke ord, uttale navn korrekt, fange opp syntaktisk ledetråder (dvs. understreke ord som er kursiv eller med stor bokstav), og endre måten det uttales på basert på tegnsetting.

Det er uklart om Tacotron 2 vil finne veien til brukervendte tjenester som Google Assistant, men det vil være på linje med kurset. Kort tid etter publiseringen av DeepMinds WaveNet-forskning, rullet Google ut maskin læringsdrevet talegjenkjenning på flere språk på assistentdrevne smarttelefoner, høyttalere, og nettbrett.

Det er bare ett problem: Akkurat nå er Tacotron 2-systemet opplært til å etterligne én kvinnelig stemme. For å generere nye stemmer og talemønstre, må Google trene systemet på nytt.


Tacotron 2