„Google Duo“ naudoja naują kodeką, kad pagerintų skambučių kokybę esant prastam ryšiui

click fraud protection

„Google“ sukūrė „Lyra“ – mažo bitų dažnio kalbos glaudinimo kodeką, kuriuo siekiama žymiai pagerinti balso kokybę tokiose programose kaip „Google Duo“.

1 atnaujinimas (2021-09-04 15:45 ET): „Google“ išleido „Lyra“ šaltinio kodą – naują mažos spartos kalbos kodeką, naudojamą „Google Duo“. Norėdami gauti daugiau informacijos, spustelėkite čia. Straipsnis, paskelbtas 2021 m. kovo 1 d., išsaugomas toliau.

Nors JAV vežėjai yra užsiėmę savo naujų 5G tinklų prekyba, realybė tokia, kad didžioji dauguma žmonių nepajus reklamuojamo greičio. Vis dar yra daugybė JAV – ir visame pasaulyje – vietų, kur duomenų perdavimo sparta yra lėta, todėl norint kompensuoti paslaugos, pvz., „Google Duo“, naudoja glaudinimo metodus, kad efektyviai pateiktų geriausią įmanomą vaizdą ir garsą patirtį. „Google“ dabar išbando naują garso kodeką, kuriuo siekiama iš esmės pagerinti garso kokybę esant prastam tinklo ryšiui.

Tinklaraščio įraše, „Google AI“ komanda išsamiai aprašo savo naują aukštos kokybės, labai mažo spartos kalbos kodeką, pavadintą „Lyra“. Kaip tradicinis Parametriniai kodekai, pagrindinė „Lyra“ architektūra apima išskirtinių kalbos atributų (taip pat žinomų kaip „funkcijos“) išskyrimą forma

log mel spektrogramos kurie vėliau suglaudinami, perduodami tinkle ir atkuriami kitame gale naudojant generatyvinį modelį. Tačiau skirtingai nuo tradicinių parametrinių kodekų, „Lyra“ naudoja naują aukštos kokybės garso generavimo modelį, kurio nėra gali išskirti tik svarbiausius kalbos parametrus, bet taip pat gali atkurti kalbą naudojant minimalų kiekį duomenis. Naujasis generacinis modelis, naudojamas Lyroje, yra pagrįstas „Google“. ankstesnis darbas WaveNetEQ, generatyviniu modeliu pagrįsta paketų praradimo ir slėpimo sistema, šiuo metu naudojama „Google Duo“.

Pagrindinė Lyros architektūra. Šaltinis: Google

„Google“ teigia, kad dėl savo požiūrio „Lyra“ tapo lygiaverčiais moderniausiais bangos formos kodekais, šiandien naudojamais daugelyje srautinio perdavimo ir ryšio platformų. „Lyra“ pranašumas, palyginti su šiais moderniausiais bangos formos kodekais, anot „Google“, yra tas, kad „Lyra“ nesiunčia signalo pavieniui, o tam reikia didesnio bitų perdavimo spartos (taigi ir daugiau duomenų). Siekdama įveikti skaičiavimo sudėtingumo problemas, susijusias su generuojamojo modelio paleidimu įrenginyje, „Google“ teigia, kad „Lyra“ naudoja „pigesnį pasikartojantį generacinį modelį“, kuris veikia mažesne sparta“, bet lygiagrečiai generuoja kelis signalus skirtinguose dažnių diapazonuose, kurie vėliau sujungiami „į vieną išvesties signalą norimu mėginių ėmimo dažniu“. Paleidus šį generatyvųjį modelį vidutinės klasės įrenginyje realiuoju laiku, apdorojimo delsa yra 90 ms, o tai, „Google“ teigimu, „atitinka kitą tradicinę kalbą kodekai“.

Suporuotas su AV1 kodekas vaizdo įrašams, „Google“ teigia, kad vaizdo pokalbiai gali vykti net naudojant senovinį 56 kbps telefono modemą. Taip yra todėl, kad „Lyra“ sukurta veikti labai riboto pralaidumo aplinkoje, pvz., 3 kbps. „Google“ teigimu, „Lyra“ lengvai pranoksta nemokamą atvirojo kodo „Opus“ kodeką ir kitus kodekus, tokius kaip „Speex“, MELP ir AMR, esant labai mažam bitų dažniui. Štai keletas „Google“ pateiktų kalbos pavyzdžių. Išskyrus garsą, užkoduotą Lyra, kiekvienas kalbos pavyzdys kenčia nuo pablogėjusios garso kokybės esant labai mažam bitų dažniui.

Švari kalba

Originalus

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_reference.wav

Opus@6kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_opus.wav

Lyra@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_lyra.wav

Greitis@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_speex.wav

Triukšminga aplinka

Originalus

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_reference.wav

Opus@6kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_opus.wav

Lyra@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_lyra.wav

Greitis@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_speex.wav

„Google“ teigia, kad išmokė Lyra „su tūkstančiais valandų garso garsiakalbiais daugiau nei 70 kalbų, naudodama atvirojo kodo garso bibliotekas ir tada tikrindama garsą kokybė su profesionaliais ir sutelktiniais klausytojais. jungtys. Nors šiuo metu „Lyra“ skirta kalbos naudojimo atvejams, „Google“ tiria, kaip jį paversti bendrosios paskirties garso kodeku.


1 naujinimas: „Google“ atvirojo kodo „Lyra“ kodekas, naudojamas „Google Duo“.

Anksčiau šią savaitę „Google“. paskelbė kad jame buvo atviro kodo „Lyra“ – naujas „Google Duo“ naudojamas garso kodekas, todėl kiti kūrėjai gali jį naudoti savo komunikacijos programose. Leidimas pateikiamas su įrankiais, reikalingais garsui koduoti ir iššifruoti naudojant „Lyra“, ir yra optimizuotas 64 bitų ARM „Android“ su „Linux“ kūrimu. Atvirojo kodo bibliotekoje pagrindinis dėmesys skiriamas „Lyra“ naudojimui balso ryšiui realiuoju laiku, tačiau „Google“ yra Tikimasi, kad kūrėjai pritaikys kodeką kitoms programoms, kurios koduoja ir iššifruoja kalbą garso. Kodas parašytas C++, o pagrindinė API, signalų apdorojimo įrankių grandinė ir demonstracinė Android programa dabar pasiekiami GitHub kaip beta versija pagal Apache licenciją.