Google Duo käyttää uutta koodekkia parantaakseen puhelujen laatua huonoilla yhteyksillä

Google on kehittänyt Lyran, alhaisen bittinopeuden koodekin puheen pakkaamiseen, jonka tarkoituksena on parantaa huomattavasti äänenlaatua sovelluksissa, kuten Google Duo.

Päivitys 1 (9.4.2021 klo 15.45 ET): Google on julkaissut lähdekoodin Lyralle, uudelle alhaisen bittinopeuden puhekoodekille, jota Google Duo käyttää. Napsauta tätä saadaksesi lisätietoja. Artikkeli, sellaisena kuin se on julkaistu 1.3.2021, säilytetään alla.

Vaikka yhdysvaltalaiset operaattorit markkinoivat uusia 5G-verkkojaan, todellisuus on, että suurin osa ihmisistä ei koe mainostettuja nopeuksia. Yhdysvaltoja ja kaikkialla maailmassa on edelleen monia osia, joissa tiedonsiirtonopeudet ovat hitaita, joten sen kompensoimiseksi Palvelut, kuten Google Duo, käyttävät pakkaustekniikoita parhaan mahdollisen kuvan ja äänen tuottamiseksi tehokkaasti kokea. Google testaa nyt uutta audiokoodekkia, jonka tarkoituksena on parantaa huomattavasti äänenlaatua huonoissa verkkoyhteyksissä.

Blogikirjoituksessa, Google AI -tiimi esittelee uutta korkealaatuista, erittäin alhaisen bittinopeuden puhekoodekkia, jonka he ovat nimenneet "Lyra". Kuten perinteinen parametriset koodekit, Lyran perusarkkitehtuuri sisältää erottuvien puheattribuuttien (tunnetaan myös nimellä "ominaisuudet") erottamisen muodossa

log mel -spektrogrammit jotka sitten pakataan, lähetetään verkon kautta ja luodaan uudelleen toisessa päässä generatiivisen mallin avulla. Toisin kuin perinteiset parametriset koodekit, Lyra käyttää kuitenkin uutta korkealaatuista äänenmuodostusmallia, jota ei ole pystyy erottamaan puheesta vain kriittiset parametrit, mutta pystyy myös rekonstruoimaan puhetta käyttämällä minimaalisia määriä tiedot. Lyrassa käytetty uusi generatiivinen malli perustuu Googlen malliin aiempi työ WaveNetEQ: lla, generatiiviseen malliin perustuva pakettihäviön salausjärjestelmä, jota tällä hetkellä käytetään Google Duossa.

Lyran perusarkkitehtuuri. Lähde: Google

Google sanoo, että sen lähestymistapa on tehnyt Lyrasta samantasoiseksi kuin nykyaikaiset aaltomuotokoodekit, joita käytetään monissa suoratoisto- ja viestintäalustoissa nykyään. Googlen mukaan Lyran etu näihin huippumoderneihin aaltomuotokoodekkeihin verrattuna on, että Lyra ei lähetä signaalia näyte näytteeltä, mikä vaatii suurempaa bittinopeutta (ja siten enemmän dataa). Google sanoo, että Lyra käyttää "halvempaa toistuvaa generatiivista mallia", joka toimii "alkuperäisellä mallilla". pienemmällä nopeudella", mutta generoi useita signaaleja eri taajuusalueilla rinnakkain, jotka myöhemmin yhdistetään "yhdeksi lähtösignaaliksi halutulla näytetaajuudella". Tämän generatiivisen mallin käyttäminen keskitason laitteella reaaliajassa tuottaa 90 ms: n käsittelyviiveen, mikä Googlen mukaan on "yhtenäinen muun perinteisen puheen kanssa koodekit."

Pariksi yhdistetty AV1-koodekki videolle, Google sanoo, että videokeskusteluja voidaan järjestää jopa muinaisen 56 kbps: n puhelinmodeemin käyttäjille. Tämä johtuu siitä, että Lyra on suunniteltu toimimaan voimakkaasti kaistanleveysrajoitteisissa ympäristöissä, kuten 3 kbps. Googlen mukaan Lyra ylittää helposti rojaltivapaan avoimen lähdekoodin Opus-koodekin sekä muut koodekit, kuten Speex, MELP ja AMR, erittäin alhaisilla bittinopeuksilla. Tässä on joitain Googlen toimittamia puhenäytteitä. Lyralla koodattua ääntä lukuun ottamatta jokainen puhenäyte kärsii heikentyneestä äänenlaadusta erittäin alhaisilla bittinopeuksilla.

Puhdas puhe

Alkuperäinen

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_reference.wav

Opus@6kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_opus.wav

Lyra@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_lyra.wav

Nopeus@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_speex.wav

Meluisa ympäristö

Alkuperäinen

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_reference.wav

Opus@6kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_opus.wav

Lyra@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_lyra.wav

Nopeus@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_speex.wav

Google kertoo kouluttaneensa Lyraa "tuhansien tuntien äänellä kaiuttimilla yli 70 kielellä käyttämällä avoimen lähdekoodin äänikirjastoja ja tarkistamalla sitten äänen laatua asiantuntevien ja joukkolähdeisten kuuntelijoiden kanssa." Sellaisenaan uusi koodekki on jo otettu käyttöön Google Duossa parantaakseen puhelun laatua erittäin alhaisella kaistanleveydellä yhteyksiä. Vaikka Lyra on tällä hetkellä suunnattu puheenkäyttötapauksiin, Google tutkii, miten siitä voidaan tehdä yleiskäyttöinen äänikoodekki.

Päivitys 1: Googlen avoimen lähdekoodin Lyra-koodekki, jota käytetään Google Duossa

Aiemmin tällä viikolla, Google ilmoitti että siinä oli avoimen lähdekoodin Lyra, Google Duon käyttämä uusi äänikoodekki, joten muut kehittäjät voivat käyttää sitä omissa viestintäsovelluksissaan. Julkaisu sisältää työkalut, joita tarvitaan äänen koodaamiseen ja purkamiseen Lyran avulla, ja se on optimoitu 64-bittiselle ARM Androidille Linux-kehityksellä. Avoimen lähdekoodin kirjasto keskittyy Lyran käyttöön reaaliaikaiseen puheviestintään, mutta Google on odottaa kehittäjien soveltavan koodekkia muihin sovelluksiin, jotka koodaavat ja purkaa puhetta audio. Koodi on kirjoitettu C++:lla ja ydinsovellusliittymä, signaalinkäsittelytyökaluketju ja demo Android-sovellus ovat nyt saatavilla GitHub beetaversiona Apache-lisenssillä.