Alphabetin tekoälytutkimuslaboratorio kehitti Tacotron 2:n, tekstistä puheeksi -järjestelmän, joka tuottaa ääntä, jota ei voi erottaa ihmisestä.
Alphabetin tytäryhtiö DeepMind kehitettiin WaveNet, hermoverkko, joka käyttää Google Assistantin puhesynteesiä, lokakuussa. Se pystyy tuottamaan parempia ja realistisempia ääninäytteitä kuin hakujätin edellinen tekstistä puheeksi -järjestelmä, ja mikä parasta, se tuottaa raakaääntä – ei liitettyjä ääniä ääninäyttelijät. Nyt Alphabetin tutkijat ovat kehittäneet uuden version, Tacotron 2:n, joka käyttää useita hermoverkkoja tuottamaan puhetta, joka on lähes erottamaton ihmisestä.
Tässä on esimerkki. Ensimmäinen luotiin Tacotron 2:lla, ja toinen on ääninäyttelijä:
[ääni wav=" https://static1.xdaimages.com/wordpress/wp-content/uploads/2017/12/washington_gen.wav"][/audio]
[ääni wav=" https://static1.xdaimages.com/wordpress/wp-content/uploads/2017/12/washington_gt.wav"][/audio]
Tacotron 2 koostuu kahdesta syvästä hermoverkosta. Kuten tässä kuussa julkaistu tutkimuspaperi kuvaa sitä, ensimmäinen kääntää tekstin spektrogrammiksi, visuaaliseksi esitykseksi audiotaajuuksien spektristä. Toinen - DeepMindin WaveNet - tulkitsee kaaviota ja luo vastaavat äänielementit. Tuloksena on päästä päähän -moottori, joka voi korostaa sanoja, ääntää nimet oikein ja pohtia syntaksia vihjeitä (eli painosanoja, jotka on kursivoitu tai isolla kirjaimilla) ja muuttaa tapaa, jolla se lausuu välimerkit.
On epäselvää, tuleeko Tacotron 2 tiensä käyttäjille suunnattuihin palveluihin, kuten Google Assistantiin, mutta se olisi kurssille sopiva. Pian DeepMindin WaveNet-tutkimuksen julkaisun jälkeen Google otti koneen käyttöön oppimiseen perustuva puheentunnistus useilla kielillä Assistant-älypuhelimissa, kaiuttimissa, ja tabletit.
On vain yksi ongelma: juuri nyt Tacotron 2 -järjestelmä on koulutettu matkimaan yhtä naisääntä. Uusien äänien ja puhemallien luomiseksi Googlen on koulutettava järjestelmä uudelleen.
Tacotron 2