Alphabeti Tacotron 2 teksti kõneks muutmise mootor kõlab inimestest peaaegu eristamatult

Alphabeti tehisintellekti uurimislabor töötas välja Tacotron 2, teksti kõneks muutmise süsteemi, mis toodab heli, mis on inimesest eristamatu.

Arenes välja Alphabeti tütarettevõte DeepMind WaveNet, närvivõrk, mis juhib Google'i assistendi kõnesünteesi, oktoobris. See on võimeline andma paremaid ja realistlikumaid helinäidiseid kui otsingugigandi eelmine teksti kõneks muutmise süsteem ja mis veelgi enam, see genereerib toorheli – mitte kokkuühendatud helisid häälnäitlejad. Nüüd on Alphabeti teadlased välja töötanud uue versiooni Tacotron 2, mis kasutab mitut närvivõrku, et tekitada kõnet, mis on inimesest peaaegu eristamatu.

Siin on näidis. Esimene loodi Tacotron 2 abil ja teine on häälnäitleja:

[heli wav=" https://static1.xdaimages.com/wordpress/wp-content/uploads/2017/12/washington_gen.wav"][/audio]

[heli wav=" https://static1.xdaimages.com/wordpress/wp-content/uploads/2017/12/washington_gt.wav"][/audio]

Tacotron 2 koosneb kahest sügavast närvivõrgust. Nagu sel kuul avaldatud uurimistöö seda kirjeldab, tõlgitakse esimene tekst spektrogrammiks, helisageduste spektri visuaalseks esituseks. Teine - DeepMind's WaveNet - tõlgendab diagrammi ja genereerib vastavad helielemendid. Tulemuseks on otsast lõpuni mootor, mis suudab sõnu rõhutada, nimesid õigesti hääldada, süntaktilist sõna võtta vihjeid (st rõhutavad sõnad, mis on kursiivis või suurtähtedega) ja muudavad selle hääldusviisi kirjavahemärgid.

Pole selge, kas Tacotron 2 jõuab kasutajale suunatud teenusteni, nagu Google Assistant, kuid see oleks kursuse jaoks samaväärne. Vahetult pärast DeepMindi WaveNeti uurimistöö avaldamist võttis Google kasutusele masina õppimisvõimeline kõnetuvastus mitmes keeles assistendi toega nutitelefonides, kõlarites, ja tabletid.

On ainult üks probleem: praegu on Tacotron 2 süsteem treenitud matkima üht naishäält. Uute häälte ja kõnemustrite loomiseks peaks Google süsteemi uuesti välja õpetama.

Tacotron 2