Машината Tacotron 2 на Alphabet звучи почти неразличимо от хората

Изследователската лаборатория за изкуствен интелект на Alphabet разработи Tacotron 2, система за преобразуване на текст в реч, която произвежда звук, неразличим от човешкия.

Дъщерното дружество на Alphabet, DeepMind, е разработено WaveNet, невронна мрежа, която захранва синтеза на речта на Google Assistant, през октомври. Той е способен на по-добри и по-реалистични аудио проби от предишния гигант на търсенето система за преобразуване на текст в говор и нещо повече, генерира необработено аудио - не съединени звуци от гласови актьори. Сега изследователи от Alphabet разработиха нова версия, Tacotron 2, която използва множество невронни мрежи, за да произвежда реч, почти неразличима от човешката.

Ето една проба. Първият е генериран с помощта на Tacotron 2, а вторият е гласов актьор:

[аудио wav=" https://static1.xdaimages.com/wordpress/wp-content/uploads/2017/12/washington_gen.wav"][/audio]

[аудио wav=" https://static1.xdaimages.com/wordpress/wp-content/uploads/2017/12/washington_gt.wav"][/audio]

Tacotron 2 се състои от две дълбоки невронни мрежи. Както го описва изследователската статия, публикувана този месец, първият превежда текст в спектрограма, визуално представяне на спектър от аудио честоти. Вторият - WaveNet на DeepMind - интерпретира диаграмата и генерира съответните аудио елементи. Резултатът е система от край до край, която може да подчертава думите, да произнася правилно имена, да улавя синтактични улики (т.е. подчертаване на думи, които са в курсив или с главни букви) и променя начина, по който се произнася въз основа на препинателни знаци.

Не е ясно дали Tacotron 2 ще си проправи път към потребителски услуги като Google Assistant, но би било нормално за курса. Малко след публикуването на изследването WaveNet на DeepMind, Google пусна машина задвижвано от обучението разпознаване на реч на множество езици на захранвани от Асистент смартфони, високоговорители, и таблетки.

Има само един проблем: в момента системата Tacotron 2 е обучена да имитира един женски глас. За да генерира нови гласове и говорни модели, Google ще трябва да обучи отново системата.


Такотрон 2