Alphabet's Tacotron 2-ის ტექსტი მეტყველების ძრავა თითქმის არ განსხვავდება ადამიანებისგან

click fraud protection

Alphabet-ის ხელოვნური ინტელექტის კვლევითმა ლაბორატორიამ შეიმუშავა Tacotron 2, ტექსტიდან მეტყველების სისტემა, რომელიც აწარმოებს აუდიოს ადამიანისგან განსხვავებულს.

განვითარდა Alphabet-ის შვილობილი კომპანია DeepMind WaveNet, ნერვული ქსელი, რომელიც უზრუნველყოფს Google Assistant-ის მეტყველების სინთეზს, ოქტომბერში. მას შეუძლია უკეთესი და უფრო რეალური აუდიო ნიმუშები, ვიდრე საძიებო გიგანტის წინა ტექსტის მეტყველების სისტემა, და უფრო მეტიც, ის წარმოქმნის დაუმუშავებელ აუდიოს -- არა ერთმანეთზე დაკავშირებულ ხმებს ხმის მსახიობები. ახლა, Alphabet-ის მკვლევარებმა შეიმუშავეს ახალი ვერსია, Tacotron 2, რომელიც იყენებს მრავალ ნერვულ ქსელს ადამიანისგან თითქმის განურჩეველი მეტყველების წარმოებისთვის.

აი ნიმუში. პირველი შეიქმნა Tacotron 2-ის გამოყენებით, ხოლო მეორე არის ხმის მსახიობი:

[აუდიო wav=" https://static1.xdaimages.com/wordpress/wp-content/uploads/2017/12/washington_gen.wav"][/audio]

[აუდიო wav=" https://static1.xdaimages.com/wordpress/wp-content/uploads/2017/12/washington_gt.wav"][/audio]

Tacotron 2 შედგება ორი ღრმა ნერვული ქსელისგან. როგორც ამ თვეში გამოქვეყნებული კვლევითი ნაშრომი აღწერს, პირველი ტექსტი თარგმნის სპექტროგრამაში, აუდიო სიხშირეების სპექტრის ვიზუალურ წარმოდგენას. მეორე - DeepMind's WaveNet - ჩარტის ინტერპრეტაცია და შესაბამისი აუდიო ელემენტების გენერირება. შედეგი არის ბოლოდან ბოლომდე ძრავა, რომელსაც შეუძლია ხაზი გაუსვას სიტყვებს, სწორად წარმოთქვას სახელები, აიღოს სინტაქსური მინიშნებები (ანუ ხაზს უსვამს სიტყვებს, რომლებიც დახრილი ან დიდი ასოებით არის დაწერილი) და ცვლის მისი წარმოთქმის მეთოდს პუნქტუაციის.

გაურკვეველია, გაივლის თუ არა Tacotron 2 მომხმარებლის სერვისებს, როგორიცაა Google Assistant, მაგრამ ეს იქნება კურსის თანაბარი. DeepMind-ის WaveNet კვლევის გამოქვეყნებიდან მალევე, Google-მა გამოუშვა მანქანა სწავლის საფუძველზე მეტყველების ამოცნობა მრავალ ენაზე ასისტენტით მომუშავე სმარტფონებზე, დინამიკებზე, და ტაბლეტები.

მხოლოდ ერთი პრობლემაა: ახლა Tacotron 2 სისტემა გაწვრთნილი აქვს ერთი ქალის ხმის მიბაძვას. ახალი ხმებისა და მეტყველების შაბლონების გენერირებისთვის Google-ს დასჭირდება სისტემის ხელახლა მომზადება.


ტაკოტრონი 2