„Alphabet“ „Tacotron 2“ teksto į kalbą variklis skamba beveik nesiskiria nuo žmonių

click fraud protection

„Alphabet“ AI tyrimų laboratorija sukūrė „Tacotron 2“ – teksto į kalbą sistemą, kuri sukuria garsą, kurio negalima atskirti nuo žmogaus.

Sukurta „Alphabet“ dukterinė įmonė „DeepMind“. „WaveNet“., neuroninis tinklas, užtikrinantis „Google Assistant“ kalbos sintezę, spalio mėn. Jis gali pateikti geresnius ir tikroviškesnius garso pavyzdžius nei ankstesnis paieškos milžinas teksto į kalbą sistema, be to, ji generuoja neapdorotą garsą, o ne sujungiamus garsus iš balso aktoriai. Dabar „Alphabet“ mokslininkai sukūrė naują „Tacotron 2“ versiją, kuri naudoja kelis neuroninius tinklus, kad sukurtų beveik nesiskiriančią nuo žmogaus kalbą.

Štai pavyzdys. Pirmasis buvo sukurtas naudojant Tacotron 2, o antrasis yra balso aktorius:

[garso wav=" https://static1.xdaimages.com/wordpress/wp-content/uploads/2017/12/washington_gen.wav"][/audio]

[garso wav=" https://static1.xdaimages.com/wordpress/wp-content/uploads/2017/12/washington_gt.wav"][/audio]

Tacotron 2 susideda iš dviejų gilių neuroninių tinklų. Kaip aprašyta šį mėnesį paskelbtame tyrimo dokumente, pirmasis tekstas paverčiamas spektrograma, vaizdiniu garso dažnių spektro vaizdu. Antrasis - DeepMind's WaveNet - interpretuoja diagramą ir generuoja atitinkamus garso elementus. Rezultatas – visapusiškas variklis, galintis pabrėžti žodžius, taisyklingai ištarti vardus, perimti sintaksę. įkalčiais (t. y. kirčiuojami žodžiai, kurie rašomi kursyvu arba didžiosiomis raidėmis) ir pakeičia jų tarimo būdą, atsižvelgiant į skyrybos ženklai.

Neaišku, ar „Tacotron 2“ pateks į naudotojams skirtas paslaugas, tokias kaip „Google Assistant“, tačiau tai būtų lygiavertė kursui. Netrukus po „DeepMind“ WaveNet tyrimo paskelbimo „Google“ išleido mašiną mokymosi pagrindu veikiantis kalbos atpažinimas keliomis kalbomis Padėjėjo valdomuose išmaniuosiuose telefonuose, garsiakalbiuose, ir tabletės.

Yra tik viena problema: šiuo metu Tacotron 2 sistema yra išmokyta imituoti vieną moterišką balsą. Kad sukurtų naujus balsus ir kalbos modelius, „Google“ turės dar kartą išmokyti sistemą.


Tacotron 2