Η Google έχει αναπτύξει το Lyra, έναν κωδικοποιητή χαμηλού bitrate για συμπίεση ομιλίας που στοχεύει να βελτιώσει σημαντικά την ποιότητα φωνής σε εφαρμογές όπως το Google Duo.
Ενημέρωση 1 (04/09/2021 @ 03:45 ET): Η Google κυκλοφόρησε τον πηγαίο κώδικα για το Lyra, τον νέο κωδικοποιητή ομιλίας χαμηλού bitrate που χρησιμοποιείται από το Google Duo. Κάντε κλικ εδώ για περισσότερες πληροφορίες. Το άρθρο, όπως δημοσιεύτηκε την 1η Μαρτίου 2021, διατηρείται παρακάτω.
Ενώ οι αερομεταφορείς των ΗΠΑ είναι απασχολημένοι με το μάρκετινγκ των νέων τους δικτύων 5G, η πραγματικότητα είναι ότι η συντριπτική πλειοψηφία των ανθρώπων δεν θα βιώσουν τις διαφημιζόμενες ταχύτητες. Υπάρχουν ακόμα πολλά μέρη των ΗΠΑ — και σε όλο τον κόσμο — όπου οι ταχύτητες δεδομένων είναι αργές, για να αντισταθμίσουμε, υπηρεσίες όπως το Google Duo χρησιμοποιούν τεχνικές συμπίεσης για να προσφέρουν αποτελεσματικά το καλύτερο δυνατό βίντεο και ήχο εμπειρία. Η Google δοκιμάζει τώρα έναν νέο κωδικοποιητή ήχου που στοχεύει να βελτιώσει ουσιαστικά την ποιότητα ήχου σε κακές συνδέσεις δικτύου.
Σε μια ανάρτηση στο blog, η ομάδα τεχνητής νοημοσύνης της Google αναφέρει λεπτομερώς τον νέο κωδικοποιητή ομιλίας υψηλής ποιότητας, πολύ χαμηλού ρυθμού bit που ονόμασαν "Lyra". Σαν παραδοσιακό παραμετρικοί κωδικοποιητές, η βασική αρχιτεκτονική της Lyra περιλαμβάνει την εξαγωγή διακριτικών χαρακτηριστικών ομιλίας (επίσης γνωστά ως "χαρακτηριστικά") στο μορφή του φασματογράμματα log mel που στη συνέχεια συμπιέζονται, μεταδίδονται μέσω του δικτύου και αναδημιουργούνται στο άλλο άκρο χρησιμοποιώντας ένα μοντέλο παραγωγής. Σε αντίθεση με τους πιο παραδοσιακούς παραμετρικούς κωδικοποιητές, ωστόσο, η Lyra χρησιμοποιεί ένα νέο μοντέλο παραγωγής ήχου υψηλής ποιότητας που δεν είναι μπορεί μόνο να εξάγει κρίσιμες παραμέτρους από την ομιλία, αλλά είναι επίσης σε θέση να ανακατασκευάσει την ομιλία χρησιμοποιώντας ελάχιστες ποσότητες δεδομένα. Το νέο μοντέλο παραγωγής που χρησιμοποιείται στη Lyra βασίζεται σε αυτό της Google προηγούμενη εργασία στο WaveNetEQ, το σύστημα απόκρυψης πακέτων-απώλειας-απώλειας που βασίζεται σε μοντέλο παραγωγής που χρησιμοποιείται επί του παρόντος στο Google Duo.
Η Google λέει ότι η προσέγγισή της έχει κάνει τη Lyra στο ίδιο επίπεδο με τους υπερσύγχρονους κωδικοποιητές κυματομορφής που χρησιμοποιούνται σε πολλές πλατφόρμες ροής και επικοινωνίας σήμερα. Το πλεονέκτημα του Lyra έναντι αυτών των υπερσύγχρονων κωδικοποιητών κυματομορφών, σύμφωνα με την Google, είναι ότι η Lyra δεν στέλνει το σήμα δείγμα προς δείγμα, κάτι που απαιτεί υψηλότερο ρυθμό μετάδοσης bit (και επομένως περισσότερα δεδομένα). Για να ξεπεράσει τις ανησυχίες σχετικά με την υπολογιστική πολυπλοκότητα της εκτέλεσης ενός παραγωγικού μοντέλου στη συσκευή, η Google λέει ότι η Lyra χρησιμοποιεί ένα "φθηνότερο επαναλαμβανόμενο παραγωγικό μοντέλο" που λειτουργεί "σε χαμηλότερο ρυθμό», αλλά παράγει πολλαπλά σήματα σε διαφορετικές περιοχές συχνοτήτων παράλληλα, τα οποία αργότερα συνδυάζονται «σε ένα μόνο σήμα εξόδου στον επιθυμητό ρυθμό δειγματοληψίας». Η εκτέλεση αυτού του παραγωγικού μοντέλου σε μια συσκευή μεσαίας εμβέλειας σε πραγματικό χρόνο αποφέρει καθυστέρηση επεξεργασίας 90 ms, η οποία σύμφωνα με την Google είναι "σύμφωνη με άλλες παραδοσιακές ομιλίες κωδικοποιητές."
Σε συνδυασμό με τον κωδικοποιητή AV1 για βίντεο, η Google λέει ότι οι συνομιλίες μέσω βίντεο μπορούν να πραγματοποιηθούν ακόμη και για χρήστες σε ένα αρχαίο μόντεμ κλήσης 56 kbps. Αυτό συμβαίνει επειδή το Lyra έχει σχεδιαστεί για να λειτουργεί σε περιβάλλοντα με πολύ περιορισμένο εύρος ζώνης, όπως τα 3kbps. Σύμφωνα με την Google, η Lyra ξεπερνά εύκολα τον κωδικοποιητή ανοιχτού κώδικα Opus χωρίς δικαιώματα δικαιωμάτων, καθώς και άλλους κωδικοποιητές όπως Speex, MELP και AMR σε πολύ χαμηλούς ρυθμούς bit. Ακολουθούν ορισμένα δείγματα ομιλίας που παρέχονται από την Google. Εκτός από τον ήχο που κωδικοποιείται σε Lyra, καθένα από τα δείγματα ομιλίας υποφέρει από υποβαθμισμένη ποιότητα ήχου σε πολύ χαμηλούς ρυθμούς bit.
Καθαρός Λόγος
Πρωτότυπο
https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_reference.wav
Opus@6kbps
https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_opus.wav
Lyra@3kbps
https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_lyra.wav
Speex@3kbps
https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_speex.wav
Θορυβώδες περιβάλλον
Πρωτότυπο
https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_reference.wav
Opus@6kbps
https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_opus.wav
Lyra@3kbps
https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_lyra.wav
Speex@3kbps
https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_speex.wav
Η Google λέει ότι εκπαίδευσε τη Lyra "με χιλιάδες ώρες ήχου με ηχεία σε περισσότερες από 70 γλώσσες χρησιμοποιώντας βιβλιοθήκες ήχου ανοιχτού κώδικα και στη συνέχεια επαληθεύοντας τον ήχο ποιότητα με ειδικούς και ακροατές crowdsourced." Ως εκ τούτου, ο νέος κωδικοποιητής κυκλοφορεί ήδη στο Google Duo για τη βελτίωση της ποιότητας κλήσεων σε πολύ χαμηλό εύρος ζώνης συνδέσεις. Ενώ το Lyra στοχεύει επί του παρόντος σε περιπτώσεις χρήσης ομιλίας, η Google διερευνά πώς να το μετατρέψει σε κωδικοποιητή ήχου γενικής χρήσης.
Ενημέρωση 1: Κωδικοποιητής Lyra ανοιχτών πηγών Google που χρησιμοποιείται στο Google Duo
Νωρίτερα αυτή την εβδομάδα, η Google ανακοινώθηκε ότι είχε ανοιχτού κώδικα Lyra, τον νέο κωδικοποιητή ήχου που χρησιμοποιείται από το Google Duo, έτσι ώστε άλλοι προγραμματιστές να μπορούν να το χρησιμοποιούν στις δικές τους εφαρμογές επικοινωνίας. Η έκδοση συνοδεύεται από εργαλεία που απαιτούνται για την κωδικοποίηση και την αποκωδικοποίηση ήχου με το Lyra και είναι βελτιστοποιημένη για 64-bit ARM Android με ανάπτυξη σε Linux. Η βιβλιοθήκη ανοιχτού κώδικα εστιάζει στη χρήση του Lyra για φωνητική επικοινωνία σε πραγματικό χρόνο, αλλά η Google είναι αναμένοντας από τους προγραμματιστές να εφαρμόσουν τον κωδικοποιητή σε άλλες εφαρμογές που κωδικοποιούν και αποκωδικοποιούν την ομιλία ήχου. Ο κώδικας είναι γραμμένος σε C++ και το βασικό API, η αλυσίδα εργαλείων επεξεργασίας σήματος και μια δοκιμαστική εφαρμογή Android είναι πλέον διαθέσιμα στο GitHub ως έκδοση beta υπό την άδεια Apache.