Alphabets Tacotron 2 tekst-til-tale-motor lyder næsten ikke til at skelne fra mennesker

click fraud protection

Alphabets AI-forskningslaboratorium udviklede Tacotron 2, et tekst-til-tale-system, der producerer lyd, der ikke kan skelnes fra et menneske.

Alphabets datterselskab, DeepMind, udviklede WaveNet, et neuralt netværk, der driver Google Assistants talesyntese, i oktober. Den er i stand til bedre og mere realistiske lydprøver end søgegigantens tidligere tekst-til-tale-system, og hvad mere er, det genererer rå lyd -- ikke splejsede lyde fra stemmeskuespillere. Nu har forskere ved Alphabet udviklet en ny version, Tacotron 2, der bruger flere neurale netværk til at producere tale, der næsten ikke kan skelnes fra et menneske.

Her er et eksempel. Den første blev genereret ved hjælp af Tacotron 2, og den anden er en stemmeskuespiller:

[audio wav=" https://static1.xdaimages.com/wordpress/wp-content/uploads/2017/12/washington_gen.wav"][/audio]

[audio wav=" https://static1.xdaimages.com/wordpress/wp-content/uploads/2017/12/washington_gt.wav"][/audio]

Tacotron 2 består af to dybe neurale netværk. Som forskningspapiret, der blev offentliggjort i denne måned, beskriver det, oversætter den første tekst til et spektrogram, en visuel repræsentation af et spektrum af lydfrekvenser. Den anden - DeepMind's WaveNet - fortolker diagrammet og genererer tilsvarende lydelementer. Resultatet er en ende-til-ende-motor, der kan understrege ord, korrekt udtale navne, opfange syntaktiske ledetråde (dvs. understrege ord, der er kursiv eller med store bogstaver), og ændre den måde, det udtales på baseret på tegnsætning.

Det er uklart, om Tacotron 2 vil finde vej til brugervendte tjenester som Google Assistant, men det ville være par for kurset. Kort efter offentliggørelsen af ​​DeepMinds WaveNet-forskning udrullede Google maskine læringsdrevet talegenkendelse på flere sprog på Assistent-drevne smartphones, højttalere, og tabletter.

Der er kun ét problem: Lige nu er Tacotron 2-systemet trænet til at efterligne én kvindestemme. For at generere nye stemmer og talemønstre skulle Google træne systemet igen.


Tacotron 2