Google heeft Lyra ontwikkeld, een codec met lage bitsnelheid voor spraakcompressie die tot doel heeft de stemkwaliteit in apps als Google Duo enorm te verbeteren.
Update 1 (09-04-2021 om 15:45 uur ET): Google heeft de broncode vrijgegeven voor Lyra, de nieuwe spraakcodec met lage bitsnelheid die door Google Duo wordt gebruikt. Klik hier voor meer informatie. Het artikel, zoals gepubliceerd op 1 maart 2021, is hieronder bewaard gebleven.
Terwijl Amerikaanse providers druk bezig zijn met het op de markt brengen van hun nieuwe 5G-netwerken, is de realiteit dat de overgrote meerderheid van de mensen de geadverteerde snelheden niet zal ervaren. Er zijn nog steeds veel delen van de VS – en over de hele wereld – waar de datasnelheden laag zijn, dus ter compensatie: Services zoals Google Duo gebruiken compressietechnieken om efficiënt de best mogelijke video en audio te leveren ervaring. Google test nu een nieuwe audiocodec die tot doel heeft de audiokwaliteit bij slechte netwerkverbindingen aanzienlijk te verbeteren.
In een blogpost, beschrijft het Google AI-team de nieuwe spraakcodec van hoge kwaliteit met een zeer lage bitsnelheid die ze 'Lyra' hebben genoemd. Zoals traditioneel parametrische codecs omvat Lyra's basisarchitectuur het extraheren van onderscheidende spraakattributen (ook bekend als "features") in de een soort van log mel-spectrogrammen die vervolgens worden gecomprimeerd, via het netwerk worden verzonden en aan de andere kant opnieuw worden gemaakt met behulp van een generatief model. In tegenstelling tot meer traditionele parametrische codecs gebruikt Lyra echter een nieuw hoogwaardig audiogeneratief model dat dat niet is kan alleen kritische parameters uit spraak halen, maar kan ook spraak reconstrueren met minimale hoeveelheden spraak gegevens. Het nieuwe generatieve model dat in Lyra wordt gebruikt, bouwt voort op dat van Google eerder werk aan WaveNetEQ, het generatieve modelgebaseerde systeem voor het verbergen van pakketverlies dat momenteel wordt gebruikt in Google Duo.
Google zegt dat Lyra door zijn aanpak op één lijn is gebracht met de ultramoderne golfvormcodecs die tegenwoordig in veel streaming- en communicatieplatforms worden gebruikt. Het voordeel van Lyra ten opzichte van deze ultramoderne golfvormcodecs is volgens Google dat Lyra het signaal niet monster voor monster verzendt, wat een hogere bitsnelheid (en dus meer gegevens) vereist. Om de problemen met de rekencomplexiteit van het uitvoeren van een generatief model op het apparaat te ondervangen, zegt Google dat Lyra een ‘goedkoper terugkerend generatief model’ gebruikt dat ‘werkt’ op een lagere snelheid" maar genereert parallel meerdere signalen op verschillende frequentiebereiken die later worden gecombineerd "tot een enkel uitgangssignaal met de gewenste bemonsteringssnelheid." Het in realtime uitvoeren van dit generatieve model op een apparaat uit het middensegment levert een verwerkingslatentie van 90 ms op, wat volgens Google "in lijn is met andere traditionele spraaktechnologie." codecs."
Gepaard met de AV1-codec voor videoGoogle zegt dat videochats zelfs kunnen plaatsvinden voor gebruikers met een oud 56kbps-inbelmodem. Dat komt omdat Lyra is ontworpen om te werken in omgevingen met een zeer beperkte bandbreedte, zoals 3 kbps. Volgens Google presteert Lyra gemakkelijk beter dan de royaltyvrije open-source Opus-codec en andere codecs zoals Speex, MELP en AMR bij zeer lage bitrates. Hier zijn enkele spraakvoorbeelden van Google. Met uitzondering van de audio die in Lyra is gecodeerd, heeft elk van de spraakmonsters last van een verslechterde audiokwaliteit bij zeer lage bitrates.
Schone toespraak
Origineel
https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_reference.wav
Opus@6kbps
https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_opus.wav
Lyra@3kbps
https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_lyra.wav
Speex@3kbps
https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_speex.wav
Lawaaierige omgeving
Origineel
https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_reference.wav
Opus@6kbps
https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_opus.wav
Lyra@3kbps
https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_lyra.wav
Speex@3kbps
https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_speex.wav
Google zegt dat het Lyra heeft getraind "met duizenden uren audio met luidsprekers in meer dan 70 talen met behulp van open-source audiobibliotheken en vervolgens de audio heeft geverifieerd kwaliteit met deskundige en crowdsourced luisteraars." Daarom wordt de nieuwe codec al uitgerold in Google Duo om de gesprekskwaliteit op zeer lage bandbreedte te verbeteren verbindingen. Hoewel Lyra momenteel gericht is op spraakgebruik, onderzoekt Google hoe er een audiocodec voor algemene doeleinden van kan worden gemaakt.
Update 1: Google open-source Lyra-codec gebruikt in Google Duo
Eerder deze week Google aangekondigd dat het open source Lyra had, de nieuwe audiocodec die door Google Duo wordt gebruikt, zodat andere ontwikkelaars deze in hun eigen communicatie-apps kunnen gebruiken. De release wordt geleverd met tools die nodig zijn om audio te coderen en decoderen met Lyra en is geoptimaliseerd voor 64-bit ARM Android met ontwikkeling op Linux. De open-sourcebibliotheek richt zich op het gebruik van Lyra voor realtime spraakcommunicatie, maar Google is dat wel verwachten dat ontwikkelaars de codec zullen toepassen op andere toepassingen die spraak coderen en decoderen geluid. De code is geschreven in C++ en de kern-API, signaalverwerkingstoolchain en een demo-Android-app zijn nu beschikbaar GitHub als bètaversie onder de Apache-licentie.