Silnik zamiany tekstu na mowę Tacotron 2 firmy Alphabet brzmi prawie nie do odróżnienia od dźwięku ludzkiego

Laboratorium badawcze AI Alphabet opracowało Tacotron 2, system zamiany tekstu na mowę, który generuje dźwięk nie do odróżnienia od ludzkiego.

Opracowano spółkę zależną Alphabet, DeepMind Sieć WaveNet, sieć neuronowa obsługująca syntezę mowy Asystenta Google, w październiku. Jest w stanie uzyskać lepsze i bardziej realistyczne próbki dźwięku niż poprzednie rozwiązania tego giganta wyszukiwania zamiany tekstu na mowę, a co więcej, generuje surowy dźwięk — a nie sklejone ze sobą dźwięki z aktorzy głosowi. Teraz badacze z Alphabet opracowali nową wersję, Tacotron 2, która wykorzystuje wiele sieci neuronowych do generowania mowy prawie nie do odróżnienia od mowy ludzkiej.

Oto próbka. Pierwszy został wygenerowany przy użyciu Tacotron 2, a drugi to aktor głosowy:

[wav audio=" https://static1.xdaimages.com/wordpress/wp-content/uploads/2017/12/washington_gen.wav"][/audio]

[wav audio=" https://static1.xdaimages.com/wordpress/wp-content/uploads/2017/12/washington_gt.wav"][/audio]

Tacotron 2 składa się z dwóch głębokich sieci neuronowych. Jak opisano w artykule badawczym opublikowanym w tym miesiącu, pierwszy z nich tłumaczy tekst na spektrogram, wizualną reprezentację widma częstotliwości audio. Drugi – WaveNet firmy DeepMind – interpretuje wykres i generuje odpowiednie elementy audio. Rezultatem jest kompleksowy silnik, który potrafi podkreślać słowa, poprawnie wymawiać nazwy i podnosić składnię wskazówki (tj. słowa akcentowane pisane kursywą lub wielką literą) i zmieniać sposób ich wymawiania w oparciu o interpunkcja.

Nie jest jasne, czy Tacotron 2 trafi do usług dostępnych dla użytkownika, takich jak Asystent Google, ale byłby normalny. Wkrótce po opublikowaniu wyników badań WaveNet firmy DeepMind firma Google wprowadziła na rynek maszynę rozpoznawanie mowy w wielu językach oparte na nauce na smartfonach i głośnikach z Asystentem i tablety.

Jest tylko jeden problem: obecnie system Tacotron 2 jest przeszkolony do naśladowania jednego kobiecego głosu. Aby wygenerować nowe głosy i wzorce mowy, Google musiałoby ponownie przeszkolić system.

Takotron 2