Google Duo-ს ახალი მანქანური სწავლის მოდელი აუმჯობესებს აუდიოს ხარისხს ზარებში

Google Duo იყენებს Google-ის ახალ WaveNetEQ მანქანური სწავლის მოდელს ზარების აუდიოს ხარისხის გასაუმჯობესებლად ხარვეზების შევსებითა და ჟიტერის განკურნების გზით.

Google-ს ჰქონდა ისტორია, რომ უსიამოვნოდ კლავდა შეტყობინებების აპლიკაციებს ახალი საკომუნიკაციო აპლიკაციების სასარგებლოდ, რომლებიც ასევე საბოლოოდ იშლება. Google Duo, ჯერჯერობით, გამონაკლისი იყო მას შემდეგ, რაც ის ამოქმედდა Allo-სთან ერთად, ახლა უკვე გაუქმებული შეტყობინებების სერვისი. Duo მუდმივად იპყრობს Google-ის ყურადღებას და ხშირად ემატება ახალი ფუნქციები, როგორიცაა 1080p მხარდაჭერა 5G Samsung S20 ტელეფონებზე, (მოახლოებული) ცოცხალი წარწერები, დუდლები, და მდე ჯგუფურ ზარში 12 მონაწილე. ახლა Google იყენებს მანქანურ სწავლებას, რათა შეამსუბუქოს ძუების ძირითადი პრობლემა უფრო რბილი და უწყვეტი აუდიო გამოცდილებისთვის.

ვიდეოზარი გახდა ოფიციალური კომუნიკაციის მნიშვნელოვანი საშუალება COVID-19 საკარანტინო პერიოდის განმავლობაში და მღელვარე აუდიო შეიძლება თქვენ ან თქვენს კომპანიას ფინანსურად დაგიჯდეთ. Google აღიარებს, რომ Duo-ზე ზარების 99% შეფერხებულია ქსელის შეფერხების გამო. ამ ზარების დაახლოებით მეხუთედი განიცდის აუდიოში 3%-იან დაკარგვას, ხოლო მეათე კარგავს აუდიოს თითქმის 8%-ს, რომელთა დიდი ნაწილი შეიძლება იყოს ძალიან მნიშვნელოვანი ინფორმაცია, რომელიც საბოლოოდ გამოგრჩეთ. ეს ხდება იმის გამო, რომ მონაცემთა პაკეტები ან დაგვიანებულია ან იკარგება გადაცემაში და ამ პაკეტების არარსებობა იწვევს აუდიოში ხარვეზებს, რაც მის დიდ ნაწილს გაუგებარს ხდის.

Google-ის ახალი WaveNetEQ მანქანური სწავლის ალგორითმი მუშაობს ტექნიკაზე, რომელსაც ეწოდება "პაკეტების დაკარგვის დამალვა" (PLC). WaveNet EQ არის გენერაციული მოდელი, რომელიც ეფუძნება DeepMind'sWaveRNN და ქმნის აუდიოს ნაწილებს რეალისტური შემავსებლებით შესაერთებლად. ხელოვნური ინტელექტის მოდელი გაწვრთნილი იქნა მეტყველებასთან დაკავშირებული მონაცემების დიდი აუზით. Google Duo-ში ბოლოდან ბოლომდე დაშიფვრის გამო, მოდელი მუშაობს მიმღების მოწყობილობაზე. მაგრამ Google ამტკიცებს, რომ ეს არის "საკმარისად სწრაფი იმისთვის, რომ ტელეფონზე იმუშაოს, ამავდროულად უზრუნველყოფს აუდიოს უახლესი ხარისხის ხარისხს."

WaveRRN ეყრდნობა ტექსტის მეტყველების მოდელს და გარდა იმისა, რომ ის არის გაწვრთნილი "რა უნდა ვთქვა", ის ასევე გაწვრთნილი იყო "როგორ ვთქვა". ის აანალიზებს შეყვანას ძლიერი ფონეტიკური გაგებით, რათა წინასწარ განსაზღვროს ბგერები უახლოეს მომავალში. გარდა ხარვეზების შევსებისა, მოდელი ასევე აწარმოებს ზედმეტ აუდიოს ნედლეულის ტალღის ფორმაში, რათა გადაფაროს ნაწილი, რომელიც მოჰყვება ჟიტერს. ეს სიგნალი ემთხვევა რეალურ აუდიოს, ოდნავ ჯვარედინი ქრება და იწვევს უფრო გლუვ გადასვლას.

Google Duo-ს WaveNetEQ მოდელს გავლილი აქვს ტრენინგი 48 ენაზე, რომელსაც 100 ადამიანი კვებავს, რათა მან შეძლოს ადამიანის ხმის ზოგადი მახასიათებლების სწავლა მხოლოდ ერთი ენის ნაცვლად. მოდელი გაწვრთნილია ძირითადად მარცვლების წარმოებისთვის და შეუძლია შეავსოს 120 ms სიგრძის ხარვეზები.

ფუნქცია უკვე ხელმისაწვდომია Google Pixel 4-ზე და ახლა ვრცელდება სხვა Android მოწყობილობებზე.


წყარო: Google AI ბლოგი