Google ir izstrādājis Lyra — zema bitu pārraides ātruma kodeku runas saspiešanai, kura mērķis ir ievērojami uzlabot balss kvalitāti tādās lietotnēs kā Google Duo.
1. atjauninājums (09.04.2021. plkst. 15:45 ET): Google ir izlaidusi avota kodu Lyra, jaunajam zema bitu pārraides runas kodekam, ko izmanto Google Duo. Noklikšķiniet šeit, lai iegūtu vairāk informācijas. Raksts, kas publicēts 2021. gada 1. martā, ir saglabāts tālāk.
Lai gan ASV mobilo sakaru operatori ir aizņemti ar savu jauno 5G tīklu mārketingu, realitāte ir tāda, ka lielākā daļa cilvēku nepiedzīvos reklamēto ātrumu. Joprojām daudzās ASV daļās un visā pasaulē datu pārraides ātrums ir lēns, tāpēc, lai to kompensētu, tādos pakalpojumos kā Google Duo tiek izmantotas saspiešanas metodes, lai efektīvi nodrošinātu vislabāko iespējamo video un audio pieredze. Google tagad testē jaunu audio kodeku, kura mērķis ir būtiski uzlabot audio kvalitāti vājos tīkla savienojumos.
Emuāra ierakstā, Google AI komanda sīki izklāsta savu jauno augstas kvalitātes, ļoti zema bitu pārraides runas kodeku, ko viņi nosauca par "Lyra". Tāpat kā tradicionālā parametriskie kodeki, Lyra pamata arhitektūra ietver atšķirīgu runas atribūtu (pazīstamu arī kā "funkcijas") izgūšanu forma
log mel spektrogrammas kas pēc tam tiek saspiesti, pārsūtīti tīklā un atkārtoti izveidoti otrā galā, izmantojot ģeneratīvo modeli. Tomēr atšķirībā no tradicionālākajiem parametriskajiem kodekiem Lyra izmanto jaunu augstas kvalitātes audio ģeneratīvo modeli, kas tāds nav spēj no runas iegūt tikai kritiskos parametrus, bet spēj arī rekonstruēt runu, izmantojot minimālu daudzumu datus. Jaunais ģeneratīvais modelis, ko izmanto Lyra, balstās uz Google iepriekšējais darbs pie WaveNetEQ, uz ģeneratīviem modeļiem balstīta pakešu zudumu slēpšanas sistēma, ko pašlaik izmanto pakalpojumā Google Duo.Google saka, ka tās pieeja ir padarījusi Lyra par līdzvērtīgu mūsdienīgajiem viļņu formas kodekiem, ko mūsdienās izmanto daudzās straumēšanas un komunikācijas platformās. Saskaņā ar Google datiem Lyra priekšrocība salīdzinājumā ar šiem modernajiem viļņu formas kodekiem ir tāda, ka Lyra nesūta signālu pa paraugam, kas prasa lielāku bitu pārraides ātrumu (un tādējādi vairāk datu). Lai novērstu skaitļošanas sarežģītību saistībā ar ģeneratīvā modeļa palaišanu ierīcē, Google saka, ka Lyra izmanto "lētāku atkārtotu ģeneratīvo modeli", kas darbojas " mazāku ātrumu", bet paralēli ģenerē vairākus signālus dažādos frekvenču diapazonos, kas vēlāk tiek apvienoti "vienā izejas signālā ar vēlamo izlases ātrumu". Palaižot šo ģeneratīvo modeli vidēja diapazona ierīcē reāllaikā, apstrādes latentums ir 90 ms, kas, pēc Google domām, ir “saskaņā ar citu tradicionālo runu. kodeki."
Pārī ar AV1 kodeku video, Google saka, ka video tērzēšana var notikt pat lietotājiem, kuri izmanto seno 56 kbps iezvanes modemu. Tas ir tāpēc, ka Lyra ir paredzēts darbam vidēs ar ļoti ierobežotu joslas platumu, piemēram, 3 kbps. Saskaņā ar Google datiem, Lyra ar ļoti zemu bitu pārraides ātrumu viegli pārspēj bezatlīdzības atvērtā pirmkoda Opus kodeku, kā arī citus kodekus, piemēram, Speex, MELP un AMR. Šeit ir daži Google nodrošinātie runas paraugi. Izņemot Lyra kodēto audio, katrs runas paraugs cieš no pasliktinātas audio kvalitātes ar ļoti zemu bitu pārraides ātrumu.
Tīra runa
Oriģināls
https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_reference.wav
Opus@6kbps
https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_opus.wav
Lyra@3kbps
https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_lyra.wav
Ātrums@3kbps
https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_speex.wav
Trokšņaina vide
Oriģināls
https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_reference.wav
Opus@6kbps
https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_opus.wav
Lyra@3kbps
https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_lyra.wav
Ātrums@3kbps
https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_speex.wav
Google saka, ka ir apmācījis Lyra "ar tūkstošiem stundu audio ar skaļruņiem vairāk nekā 70 valodās, izmantojot atvērtā koda audio bibliotēkas un pēc tam pārbaudot audio. kvalitāte ar ekspertiem un pūļa klausītājiem." Tādējādi jaunais kodeks jau tiek ieviests pakalpojumā Google Duo, lai uzlabotu zvanu kvalitāti ļoti zemā joslas platumā. savienojumiem. Lai gan Lyra pašlaik ir paredzēts runas lietojuma gadījumiem, Google pēta, kā to padarīt par vispārējas nozīmes audio kodeku.
1. atjauninājums: pakalpojumā Google Duo tiek izmantots Google atvērtā pirmkoda Lyra kodeks
Šīs nedēļas sākumā Google paziņoja ka tai bija atvērtā pirmkoda Lyra — jaunais Google Duo izmantotais audio kodeks, tāpēc citi izstrādātāji to var izmantot savās saziņas lietotnēs. Laidienā ir iekļauti rīki, kas nepieciešami audio kodēšanai un atkodēšanai ar Lyra, un tas ir optimizēts 64 bitu ARM Android operētājsistēmai ar attīstību operētājsistēmā Linux. Atvērtā koda bibliotēka koncentrējas uz Lyra izmantošanu reāllaika balss saziņai, bet Google ir sagaida, ka izstrādātāji izmantos kodeku citām lietojumprogrammām, kas kodē un atšifrē runu audio. Kods ir rakstīts C++, un pamata API, signālu apstrādes rīku ķēde un demonstrācijas Android lietotne tagad ir pieejama vietnē GitHub kā beta laidiens saskaņā ar Apache licenci.