Alphabet'in Tacotron 2 Metin-Konuşma Motorunun Sesleri İnsanlardan Neredeyse Ayırt Edilemez

Alphabet'in yapay zeka araştırma laboratuvarı, insan sesinden ayırt edilemeyen ses üreten bir metinden konuşmaya sistemi olan Tacotron 2'yi geliştirdi.

Alphabet'in yan kuruluşu DeepMind geliştirildi WaveNetEkim ayında Google Asistan'ın konuşma sentezini destekleyen bir sinir ağı. Arama devinin önceki modellerinden daha iyi ve daha gerçekçi ses örnekleri sunabiliyor metinden konuşmaya sistemi ve dahası, birleştirilmiş seslerden değil, ham ses üretir. ses aktörleri. Şimdi, Alphabet'teki araştırmacılar, bir insandan neredeyse ayırt edilemeyen konuşmayı üretmek için birden fazla sinir ağını kullanan yeni bir versiyon olan Tacotron 2'yi geliştirdiler.

İşte bir örnek. Birincisi Tacotron 2 kullanılarak oluşturuldu, ikincisi ise bir seslendirme sanatçısı:

[ses dalgası = " https://static1.xdaimages.com/wordpress/wp-content/uploads/2017/12/washington_gen.wav"][/audio]

[ses dalgası = " https://static1.xdaimages.com/wordpress/wp-content/uploads/2017/12/washington_gt.wav"][/audio]

Tacotron 2 iki derin sinir ağından oluşur. Bu ay yayınlanan araştırma makalesinde açıklandığı gibi, ilki metni bir ses frekansları spektrumunun görsel bir temsili olan bir spektrograma çeviriyor. İkincisi - DeepMind'ın WaveNet'i - grafiği yorumlar ve karşılık gelen ses öğelerini üretir. Sonuç, kelimeleri vurgulayabilen, adları doğru telaffuz edebilen, sözdizimsel bilgileri kavrayabilen uçtan uca bir motordur. ipuçlarını kullanın (örneğin, italik veya büyük harfle yazılmış sözcükleri vurgulayın) ve ifade etme biçimini temel alarak değiştirin. noktalama.

Tacotron 2'nin Google Asistan gibi kullanıcılara yönelik hizmetlere ulaşıp ulaşmayacağı belli değil, ancak bu da elbette eşit olacaktır. DeepMind'ın WaveNet araştırmasının yayınlanmasından kısa bir süre sonra Google, makineyi piyasaya sürdü Asistan destekli akıllı telefonlarda, hoparlörlerde, birden fazla dilde öğrenme destekli konuşma tanıma, ve tabletler.

Tek bir sorun var: Şu anda Tacotron 2 sistemi tek bir kadın sesini taklit edecek şekilde eğitildi. Yeni sesler ve konuşma kalıpları oluşturmak için Google'ın sistemi yeniden eğitmesi gerekecek.


Takotron 2