Das neue maschinelle Lernmodell von Google Duo verbessert die Audioqualität bei Anrufen

Google Duo nutzt Googles neuartiges maschinelles Lernmodell WaveNetEQ, um die Audioqualität bei Anrufen zu verbessern, indem Lücken geschlossen und Jitter behoben werden.

Google hat in der Vergangenheit Messaging-Apps auf unangenehme Weise zugunsten neuerer Kommunikations-Apps abgeschafft, die irgendwann ebenfalls abgeschafft wurden. Eine Ausnahme bildete bisher Google Duo, da es zusammen mit Allo, dem inzwischen nicht mehr existierenden Messaging-Dienst, eingeführt wurde. Duo hat kontinuierlich die Aufmerksamkeit von Google auf sich gezogen und häufig neue Funktionen wie hinzugefügt 1080p-Unterstützung auf 5G-Samsung-S20-Telefonen, (bevorstehende) Live-Untertitel, Kritzeleien, und bis zu 12 Teilnehmer in einem Gruppenanruf. Jetzt setzt Google maschinelles Lernen ein, um das Hauptproblem der Jitter zu verringern und ein flüssigeres und unterbrechungsfreies Audioerlebnis zu ermöglichen.

Videoanrufe sind während der COVID-19-Quarantänezeit zu einem wichtigen Mittel der offiziellen Kommunikation geworden, und unruhiger Ton kann Sie oder Ihr Unternehmen finanziell belasten. Google räumt ein, dass es bei 99 % der Anrufe über Duo zu Unterbrechungen aufgrund von Netzwerkverzögerungen kommt. Etwa ein Fünftel dieser Anrufe erleidet einen Audioverlust von 3 %, während bei einem Zehntel fast 8 % des Audios verloren gehen. Dabei kann es sich bei vielen dieser Anrufe um sehr wichtige Informationen handeln, die Ihnen am Ende entgehen. Dies liegt daran, dass Datenpakete bei der Übertragung entweder verzögert werden oder verloren gehen und das Fehlen dieser Pakete zu Störungen im Ton führt, wodurch ein Großteil davon unverständlich wird.

Googles neuer maschineller Lernalgorithmus WaveNetEQ arbeitet mit einer Technik namens „Packet Loss Concealment“ (PLC). WaveNet EQ ist ein generatives Modell, das auf basiert DeepMindsWaveRNN und erstellt Audioblöcke, um Lücken mit realistischen Füllern zu schließen. Das KI-Modell wurde durch Einspeisung eines großen Pools sprachbezogener Daten trainiert. Aufgrund der Ende-zu-Ende-Verschlüsselung in Google Duo läuft das Modell auf dem Gerät des Empfängers. Aber Google behauptet, dass es „schnell genug, um auf einem Telefon zu laufen, und bietet dennoch modernste Audioqualität."

WaveRRN basiert auf einem Text-to-Speech-Modell und wurde nicht nur darauf trainiert, „was man sagt“, sondern auch darauf, „wie man Dinge sagt“. Es analysiert die Eingabe mit einem ausgeprägten phonetischen Verständnis, um Geräusche in der unmittelbaren Zukunft vorherzusagen. Das Modell füllt nicht nur Lücken, sondern erzeugt auch überschüssiges Audio in der Rohwellenform, um den Teil zu überlappen, der dem Jitter folgt. Dieses Signal überlappt mit etwas Überblendung mit dem eigentlichen Audio und führt zu einem sanfteren Übergang.

Das WaveNetEQ-Modell von Google Duo wurde in 48 Sprachen von 100 Personen trainiert, sodass es die allgemeinen Merkmale der menschlichen Stimme anstelle nur einer Sprache erlernen kann. Das Modell ist darauf trainiert, hauptsächlich Silben zu produzieren und kann bis zu 120 ms lange Lücken füllen.

Die Funktion ist bereits auf dem Google Pixel 4 verfügbar und wird jetzt auf andere Android-Geräte ausgeweitet.


Quelle: Google AI-Blog