Az Alphabet Tacotron 2 szövegfelolvasó motorja szinte megkülönböztethetetlen az emberektől

click fraud protection

Az Alphabet AI kutatólaboratóriuma kifejlesztette a Tacotron 2-t, egy szövegfelolvasó rendszert, amely az embertől megkülönböztethetetlen hangot állít elő.

Az Alphabet leányvállalata, a DeepMind fejlődött WaveNet, egy neurális hálózat, amely a Google Asszisztens beszédszintézisét működteti, októberben. Jobb és valósághűbb hangmintákra képes, mint a keresőóriás előzője szövegfelolvasó rendszer, és mi több, nyers hangot állít elő, nem pedig összeillesztett hangokat szinkronszínészek. Az Alphabet kutatói most kifejlesztettek egy új verziót, a Tacotron 2-t, amely több neurális hálózatot használ az embertől szinte megkülönböztethetetlen beszéd előállításához.

Itt egy minta. Az első a Tacotron 2-vel készült, a második pedig egy szinkronszínész:

[hang wav=" https://static1.xdaimages.com/wordpress/wp-content/uploads/2017/12/washington_gen.wav"][/audio]

[hang wav=" https://static1.xdaimages.com/wordpress/wp-content/uploads/2017/12/washington_gt.wav"][/audio]

A Tacotron 2 két mély neurális hálózatból áll. Ahogy az ebben a hónapban megjelent kutatási cikk is leírja, az első a szöveget spektrogrammá fordítja le, amely egy hangfrekvenciás spektrum vizuális megjelenítése. A második – a DeepMind's WaveNet – értelmezi a diagramot, és létrehozza a megfelelő hangelemeket. Az eredmény egy végponttól végpontig terjedő motor, amely képes hangsúlyozni a szavakat, helyesen kiejteni a neveket, felveszi a szintaktikai nyomokat (azaz dőlt vagy nagybetűs szavak nyomatékosítását), és megváltoztatja a kiejtés módját központozás.

Nem világos, hogy a Tacotron 2 eljut-e az olyan felhasználói szolgáltatásokhoz, mint a Google Asszisztens, de a kurzusnak megfelelő lenne. Nem sokkal a DeepMind WaveNet kutatásának publikálása után a Google kivezette a gépet tanulásalapú beszédfelismerés több nyelven az Assistant-alapú okostelefonokon, hangszórókon, és tabletták.

Csak egy probléma van: jelenleg a Tacotron 2 rendszert úgy képezték ki, hogy egy női hangot utánozzon. Új hangok és beszédminták generálásához a Google-nak újra betanítania kell a rendszert.


Tacotron 2