Alphabetov mehanizem za pretvorbo besedila v govor Tacotron 2 se skoraj ne razlikuje od ljudi

click fraud protection

Alphabetov raziskovalni laboratorij za umetno inteligenco je razvil Tacotron 2, sistem za pretvorbo besedila v govor, ki proizvaja zvok, ki ga ni mogoče razlikovati od človeškega.

Razvilo se je hčerinsko podjetje Alphabet, DeepMind WaveNet, nevronska mreža, ki poganja sintezo govora pomočnika Google, oktobra. Zmožen je boljših in bolj realističnih vzorcev zvoka kot prejšnji iskalni velikan sistem za pretvorbo besedila v govor in še več, ustvarja neobdelani zvok -- ne spojenih zvokov iz glasovni igralci. Zdaj so raziskovalci pri Alphabetu razvili novo različico, Tacotron 2, ki uporablja več nevronskih mrež za ustvarjanje govora, ki se skoraj ne razlikuje od človeškega.

Tukaj je vzorec. Prvi je bil ustvarjen s Tacotronom 2, drugi pa je glasovni igralec:

[avdio wav=" https://static1.xdaimages.com/wordpress/wp-content/uploads/2017/12/washington_gen.wav"][/audio]

[avdio wav=" https://static1.xdaimages.com/wordpress/wp-content/uploads/2017/12/washington_gt.wav"][/audio]

Tacotron 2 je sestavljen iz dveh globokih nevronskih mrež. Kot opisuje raziskovalni članek, objavljen ta mesec, prvi prevaja besedilo v spektrogram, vizualno predstavitev spektra zvočnih frekvenc. Drugi -- DeepMind's WaveNet -- interpretira grafikon in ustvari ustrezne zvočne elemente. Rezultat je mehanizem od konca do konca, ki lahko poudari besede, pravilno izgovarja imena, zazna skladenjske namige (tj. poudarjene besede, ki so napisane ležeče ali z veliko začetnico) in spremeniti način izražanja na podlagi ločila.

Ni jasno, ali se bo Tacotron 2 prebil do uporabniško usmerjenih storitev, kot je Google Assistant, vendar bi bilo povsem normalno. Kmalu po objavi DeepMindove raziskave WaveNet je Google uvedel stroj prepoznavanje govora na podlagi učenja v več jezikih na pametnih telefonih, ki jih poganja pomočnik, zvočniki, in tablete.

Obstaja samo en problem: trenutno je sistem Tacotron 2 usposobljen za posnemanje enega ženskega glasu. Za ustvarjanje novih glasov in govornih vzorcev bi moral Google znova usposobiti sistem.


Takotron 2