Google Duo იყენებს ახალ კოდეკს ცუდი კავშირების გამო ზარის უკეთესი ხარისხისთვის

Google-მა შეიმუშავა Lyra, დაბალი ბიტის კოდეკი მეტყველების შეკუმშვისთვის, რომელიც მიზნად ისახავს მნიშვნელოვნად გააუმჯობესოს ხმის ხარისხი აპებში, როგორიცაა Google Duo.

განახლება 1 (04/09/2021 @ 03:45 PM ET): Google-მა გამოუშვა Lyra-ს საწყისი კოდი, ახალი დაბალი ბიტიანი მეტყველების კოდეკი, რომელსაც იყენებს Google Duo. დააწკაპუნეთ აქ დამატებითი ინფორმაციისთვის. სტატია, როგორც გამოქვეყნებულია 2021 წლის 1 მარტს, დაცულია ქვემოთ.

მიუხედავად იმისა, რომ აშშ-ს ოპერატორები თავიანთი ახალი 5G ქსელების მარკეტინგით არიან დაკავებულნი, რეალობა ისაა, რომ ადამიანების დიდი უმრავლესობა არ განიცდის რეკლამირებულ სიჩქარეს. ჯერ კიდევ არის შეერთებული შტატების მრავალი ნაწილი - და მთელ მსოფლიოში - სადაც მონაცემთა სიჩქარე ნელია, კომპენსაციისთვის, სერვისები, როგორიცაა Google Duo, იყენებენ შეკუმშვის ტექნიკას, რათა ეფექტურად მიაწოდონ ვიდეო და აუდიო გამოცდილება. Google ახლა ტესტავს ახალ აუდიო კოდეკს, რომელიც მიზნად ისახავს არსებითად გააუმჯობესოს აუდიო ხარისხი ცუდი ქსელის კავშირებზე.

ბლოგის პოსტში, Google AI გუნდი დეტალურად აღწერს მის ახალ მაღალი ხარისხის, ძალიან დაბალი ბიტის სიჩქარით მეტყველების კოდეკს, რომელსაც "Lyra" უწოდეს. ტრადიციულივით პარამეტრული კოდეკები, Lyra-ს ძირითადი არქიტექტურა მოიცავს გამორჩეული მეტყველების ატრიბუტების ამოღებას (ასევე ცნობილია როგორც "ფუნქციები") ფორმა

log mel სპექტროგრამები რომლებიც შემდეგ შეკუმშულია, გადაიცემა ქსელში და ხელახლა იქმნება მეორე ბოლოზე გენერაციული მოდელის გამოყენებით. უფრო ტრადიციული პარამეტრული კოდეკებისგან განსხვავებით, Lyra იყენებს ახალ მაღალი ხარისხის აუდიო გენერაციულ მოდელს, რომელიც არ არის შეუძლია მხოლოდ კრიტიკული პარამეტრების ამოღება მეტყველებიდან, მაგრამ ასევე შეუძლია მეტყველების რეკონსტრუქცია მინიმალური რაოდენობით მონაცემები. Lyra-ში გამოყენებული ახალი გენერაციული მოდელი ეფუძნება Google-ს წინა ნამუშევარი WaveNetEQ-ზე, გენერაციულ მოდელზე დაფუძნებული პაკეტების დაკარგვა-დამალვის სისტემა, რომელიც ამჟამად გამოიყენება Google Duo-ში.

ლირას ძირითადი არქიტექტურა. წყარო: Google

Google-ის თქმით, მისმა მიდგომამ Lyra გაათანაბრა უახლესი ტალღის ფორმის კოდეკებთან, რომლებიც დღეს გამოიყენება ბევრ სტრიმინგ და საკომუნიკაციო პლატფორმაში. Lyra-ს უპირატესობა ამ უახლესი ტალღის ფორმის კოდეკებთან შედარებით, Google-ის თანახმად, არის ის, რომ Lyra არ აგზავნის სიგნალს ნიმუშის მიხედვით, რაც მოითხოვს უფრო მაღალ ბიტირეტს (და, შესაბამისად, მეტ მონაცემს). გენერაციული მოდელის მოწყობილობაზე გაშვების გამოთვლითი სირთულეების დასაძლევად, Google ამბობს, რომ Lyra იყენებს „უფრო იაფ მორეციდივე გენერაციულ მოდელს“, რომელიც მუშაობს „ უფრო დაბალი სიხშირე", მაგრამ წარმოქმნის მრავალ სიგნალს სხვადასხვა სიხშირის დიაპაზონში პარალელურად, რომლებიც მოგვიანებით გაერთიანებულია "ერთ გამომავალ სიგნალად სასურველი ნიმუშის სიჩქარით". ამ გენერაციული მოდელის გაშვება საშუალო დიაპაზონის მოწყობილობაზე რეალურ დროში იძლევა დამუშავების შეყოვნებას 90 ms, რაც Google-ის თქმით, შეესაბამება სხვა ტრადიციულ მეტყველებას. კოდეკები."

დაწყვილებული AV1 კოდეკი ვიდეოსთვისGoogle ამბობს, რომ ვიდეო ჩეთები შეიძლება ჩატარდეს მომხმარებლებისთვისაც კი, ძველ 56 kbps აკრიფეთ მოდემზე. ეს იმიტომ ხდება, რომ Lyra შექმნილია იმისთვის, რომ იმუშაოს ძლიერად შეზღუდულ სიჩქარით გარემოში, როგორიცაა 3kbps. Google-ის თანახმად, Lyra ადვილად აჯობებს ჰონორარის გარეშე ღია კოდის Opus კოდეკს, ისევე როგორც სხვა კოდეკებს, როგორიცაა Speex, MELP და AMR ძალიან დაბალი ბიტური სიჩქარით. აქ არის Google-ის მიერ მოწოდებული მეტყველების რამდენიმე ნიმუში. Lyra-ში დაშიფრული აუდიოს გარდა, მეტყველების თითოეული ნიმუში განიცდის დეგრადირებულ აუდიო ხარისხს ძალიან დაბალი ბიტური სიჩქარით.

სუფთა მეტყველება

Ორიგინალური

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_reference.wav

Opus@6kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_opus.wav

Lyra@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_lyra.wav

Speex@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_speex.wav

ხმაურიანი გარემო

Ორიგინალური

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_reference.wav

Opus@6kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_opus.wav

Lyra@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_lyra.wav

Speex@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_speex.wav

Google ამბობს, რომ Lyra-ს ავარჯიშებდა ათასობით საათის აუდიო დინამიკებით 70-ზე მეტ ენაზე, ღია წყაროს აუდიო ბიბლიოთეკების გამოყენებით და შემდეგ აუდიოს გადამოწმებით. ხარისხი ექსპერტებთან და ხალხმრავალ მსმენელებთან." როგორც ასეთი, ახალი კოდეკი უკვე გამოდის Google Duo-ში, რათა გააუმჯობესოს ზარის ხარისხი ძალიან დაბალ სიჩქარეზე კავშირები. მიუხედავად იმისა, რომ Lyra ამჟამად მიზნად ისახავს მეტყველების გამოყენების შემთხვევებს, Google იკვლევს, როგორ აქციოს იგი ზოგადი დანიშნულების აუდიო კოდეკად.

განახლება 1: Google-ის ღია წყაროების Lyra კოდეკი, რომელიც გამოიყენება Google Duo-ში

ამ კვირის დასაწყისში Google გამოაცხადა რომ მას ჰქონდა ღია წყარო Lyra, ახალი აუდიო კოდეკი, რომელსაც იყენებს Google Duo, ამიტომ სხვა დეველოპერებს შეუძლიათ გამოიყენონ იგი საკუთარ საკომუნიკაციო აპებში. გამოშვებას მოყვება ინსტრუმენტები, რომლებიც საჭიროა აუდიოს დაშიფვრისთვის და გაშიფვრისთვის Lyra-ით და ოპტიმიზებულია 64-ბიტიანი ARM Android-ისთვის Linux-ზე განვითარებით. ღია წყაროს ბიბლიოთეკა ფოკუსირებულია Lyra-ს გამოყენებაზე რეალურ დროში ხმოვანი კომუნიკაციისთვის, მაგრამ Google არის ველით, რომ დეველოპერები გამოიყენებენ კოდეკს სხვა აპლიკაციებზე, რომლებიც კოდირებენ და დეკოდირებენ მეტყველებას აუდიო. კოდი დაწერილია C++-ში და ძირითადი API, სიგნალის დამუშავების ხელსაწყოების ჯაჭვი და Android-ის დემო აპლიკაცია ახლა უკვე ხელმისაწვდომია. GitHub როგორც ბეტა გამოშვება Apache ლიცენზიით.