Алпхабетов Тацотрон 2 механизам за претварање текста у говор звучи готово неразлучиво од људи

Алпхабетова АИ истраживачка лабораторија развила је Тацотрон 2, систем за претварање текста у говор који производи звук који се не разликује од људског.

Алпхабетова подружница, ДеепМинд, се развила ВавеНет, неуронску мрежу која покреће синтезу говора Гоогле помоћника, у октобру. Способан је за боље и реалистичније аудио узорке од претходног претраживача систем за претварање текста у говор, и штавише, генерише сирови звук - не спојене звукове из гласовни глумци. Сада су истраживачи у Алпхабет-у развили нову верзију, Тацотрон 2, која користи више неуронских мрежа за производњу говора који се готово не разликује од људског.

Ево примера. Први је генерисан помоћу Тацотрон 2, а други је гласовни глумац:

[аудио вав=" https://static1.xdaimages.com/wordpress/wp-content/uploads/2017/12/washington_gen.wav"][/audio]

[аудио вав=" https://static1.xdaimages.com/wordpress/wp-content/uploads/2017/12/washington_gt.wav"][/audio]

Тацотрон 2 се састоји од две дубоке неуронске мреже. Како то описује истраживачки рад објављен овог месеца, први преводи текст у спектрограм, визуелни приказ спектра аудио фреквенција. Други -- ДеепМинд-ов ВавеНет -- тумачи графикон и генерише одговарајуће аудио елементе. Резултат је енд-то-енд механизам који може нагласити речи, правилно изговарати имена, ухватити синтаксичке назнаке (тј. речи за нагласак које су исписане курзивом или великим словима) и мењају начин на који се изговара на основу интерпункција.

Нејасно је да ли ће Тацотрон 2 проћи пут до корисничких сервиса као што је Гоогле Ассистант, али то би било нормално. Убрзо након објављивања ДеепМиндовог ВавеНет истраживања, Гоогле је представио машину препознавање говора на више језика на паметним телефонима са помоћником, звучницима, и таблете.

Постоји само један проблем: Тренутно је систем Тацотрон 2 обучен да опонаша један женски глас. Да би генерисао нове гласове и говорне обрасце, Гоогле би морао поново да обучи систем.

Тацотрон 2