Výskumné laboratórium AI spoločnosti Alphabet vyvinulo Tacotron 2, systém prevodu textu na reč, ktorý produkuje zvuk na nerozoznanie od človeka.
Vyvinula sa dcérska spoločnosť Alphabet, DeepMind WaveNet, neurónová sieť, ktorá poháňa syntézu reči Asistenta Google, v októbri. Je schopný lepších a realistickejších zvukových vzoriek ako predchádzajúci vyhľadávací gigant systém prevodu textu na reč, a čo viac, generuje nespracovaný zvuk – nie spojené zvuky z hlasových hercov. Teraz výskumníci z Alphabet vyvinuli novú verziu Tacotron 2, ktorá využíva viaceré neurónové siete na produkciu reči takmer na nerozoznanie od človeka.
Tu je ukážka. Prvý bol vytvorený pomocou Tacotron 2 a druhý je hlasový herec:
[audio wav=" https://static1.xdaimages.com/wordpress/wp-content/uploads/2017/12/washington_gen.wav"][/audio]
[audio wav=" https://static1.xdaimages.com/wordpress/wp-content/uploads/2017/12/washington_gt.wav"][/audio]
Tacotron 2 pozostáva z dvoch hlbokých neurónových sietí. Ako to opisuje výskumný dokument publikovaný tento mesiac, prvý prekladá text do spektrogramu, vizuálneho znázornenia spektra zvukových frekvencií. Druhý - DeepMind's WaveNet - interpretuje graf a generuje zodpovedajúce zvukové prvky. Výsledkom je komplexný nástroj, ktorý dokáže zdôrazniť slová, správne vysloviť mená, nadviazať na syntaktické vodítka (t. j. zdôrazňujúce slová, ktoré sú napísané kurzívou alebo veľkým písmenom) a zmeniť spôsob, akým sa vyslovuje na základe interpunkcia.
Nie je jasné, či sa Tacotron 2 dostane do služieb pre používateľov, ako je napríklad Google Assistant, ale bolo by to bežné. Krátko po zverejnení výskumu DeepMind WaveNet spoločnosť Google spustila stroj rozpoznávanie reči pomocou technológie učenia vo viacerých jazykoch na smartfónoch s asistentom, reproduktoroch, a tablety.
Je tu len jeden problém: Práve teraz je systém Tacotron 2 trénovaný na napodobňovanie jedného ženského hlasu. Na generovanie nových hlasov a rečových vzorov by Google musel systém znova natrénovať.
Tacotron 2