Google je razvil Lyra, kodek z nizko bitno hitrostjo za stiskanje govora, katerega namen je močno izboljšati kakovost glasu v aplikacijah, kot je Google Duo.
Posodobitev 1 (04/09/2021 ob 15:45 ET): Google je izdal izvorno kodo za Lyra, novi govorni kodek z nizko bitno hitrostjo, ki ga uporablja Google Duo. Kliknite tukaj za več informacij. Članek, kot je bil objavljen 1. marca 2021, je ohranjen spodaj.
Medtem ko so ameriški operaterji zaposleni s trženjem svojih novih omrežij 5G, je resničnost taka, da velika večina ljudi ne bo izkusila oglaševanih hitrosti. Še vedno je veliko delov ZDA – in po svetu –, kjer so hitrosti prenosa podatkov počasne, tako da nadomestimo storitve, kot je Google Duo, uporabljajo tehnike stiskanja za učinkovito zagotavljanje najboljšega možnega videa in zvoka izkušnje. Google zdaj preizkuša nov zvočni kodek, katerega namen je bistveno izboljšati kakovost zvoka pri slabih omrežnih povezavah.
V objavi na blogu, Googlova ekipa AI podrobno opisuje svoj novi visokokakovosten govorni kodek z zelo nizko bitno hitrostjo, ki so ga poimenovali "Lyra". Kot tradicionalno parametričnih kodekov, osnovna arhitektura Lyre vključuje ekstrakcijo značilnih govornih atributov (znanih tudi kot "funkcije") v oblika
log mel spektrogrami ki se nato stisnejo, prenesejo po omrežju in ponovno ustvarijo na drugem koncu z uporabo generativnega modela. Za razliko od bolj tradicionalnih parametričnih kodekov pa Lyra uporablja nov visokokakovosten zvočni generativni model, ki ni sposoben samo izluščiti kritične parametre iz govora, lahko pa tudi rekonstruira govor z uporabo minimalnih količin podatke. Novi generativni model, uporabljen v Lyri, temelji na Googlovem prejšnje delo na WaveNetEQ, sistem za prikrivanje izgube paketov na podlagi generativnega modela, ki se trenutno uporablja v Googlu Duo.Google pravi, da je zaradi njegovega pristopa Lyra enaka najsodobnejšim kodekom valovne oblike, ki se danes uporabljajo v številnih pretočnih in komunikacijskih platformah. Prednost Lyre v primerjavi s temi najsodobnejšimi kodeki valovne oblike je po mnenju Googla ta, da Lyra ne pošilja signala od vzorca do vzorca, kar zahteva višjo bitno hitrost (in s tem več podatkov). Za premagovanje pomislekov glede računalniške kompleksnosti izvajanja generativnega modela v napravi Google pravi, da Lyra uporablja "cenejši ponavljajoči se generativni model", ki deluje "pri nižjo stopnjo", vendar vzporedno ustvari več signalov v različnih frekvenčnih območjih, ki se kasneje združijo "v en sam izhodni signal z želeno hitrostjo vzorčenja." Izvajanje tega generativnega modela na napravi srednjega razreda v realnem času prinese zakasnitev obdelave 90 ms, kar je po Googlovih besedah "v skladu z drugimi tradicionalnimi govornimi kodeki."
V kombinaciji z kodek AV1 za video, Google pravi, da lahko video klepeti potekajo tudi za uporabnike na starodavnem 56kbps klicnem modemu. To je zato, ker je Lyra zasnovana za delovanje v okoljih z močno omejeno pasovno širino, kot je 3kbps. Po mnenju Googla Lyra zlahka prekaša brezplačni odprtokodni kodek Opus kot tudi druge kodeke, kot so Speex, MELP in AMR, pri zelo nizkih bitnih hitrostih. Tukaj je nekaj vzorcev govora, ki jih ponuja Google. Razen zvoka, kodiranega v Lyri, ima vsak vzorec govora poslabšano kakovost zvoka pri zelo nizkih bitnih hitrostih.
Čist govor
Original
https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_reference.wav
Opus@6kbps
https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_opus.wav
Lyra@3kbps
https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_lyra.wav
Speex@3kbps
https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_speex.wav
Hrupno okolje
Original
https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_reference.wav
Opus@6kbps
https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_opus.wav
Lyra@3kbps
https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_lyra.wav
Speex@3kbps
https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_speex.wav
Google pravi, da je usposobil Lyro "s tisoč urami zvoka z govorci v več kot 70 jezikih z uporabo odprtokodnih zvočnih knjižnic in nato preverjanjem zvoka kakovosti s strokovnjaki in množičnimi poslušalci." Kot tak se novi kodek že uvaja v Google Duo za izboljšanje kakovosti klicev pri zelo nizki pasovni širini povezave. Medtem ko je Lyra trenutno namenjena primerom uporabe govora, Google raziskuje, kako jo spremeniti v zvočni kodek za splošne namene.
Posodobitev 1: Googlov odprtokodni kodek Lyra, uporabljen v Googlu Duo
V začetku tega tedna je Google napovedal da je imel odprtokodni Lyra, novi zvočni kodek, ki ga uporablja Google Duo, tako da ga lahko drugi razvijalci uporabljajo v svojih komunikacijskih aplikacijah. Izdaja vsebuje orodja, potrebna za kodiranje in dekodiranje zvoka z Lyro, in je optimizirana za 64-bitni ARM Android z razvojem na Linuxu. Odprtokodna knjižnica se osredotoča na uporabo Lyre za glasovno komunikacijo v realnem času, Google pa je pričakuje, da bodo razvijalci uporabili kodek za druge aplikacije, ki kodirajo in dekodirajo govor zvok. Koda je napisana v C++, osnovni API, veriga orodij za obdelavo signalov in predstavitvena aplikacija za Android pa so zdaj na voljo na GitHub kot izdaja beta pod licenco Apache.