Το νέο μοντέλο μηχανικής εκμάθησης του Google Duo βελτιώνει την ποιότητα ήχου στις κλήσεις

Το Google Duo χρησιμοποιεί το νέο μοντέλο μηχανικής εκμάθησης WaveNetEQ της Google για να βελτιώσει την ποιότητα ήχου στις κλήσεις καλύπτοντας κενά και θεραπεύοντας το jitter.

Η Google είχε μια ιστορία να σκοτώνει τις εφαρμογές ανταλλαγής μηνυμάτων δυσάρεστα προς όφελος των νεότερων εφαρμογών επικοινωνίας που επίσης σκοτώνονται τελικά. Το Google Duo αποτελεί, μέχρι στιγμής, εξαίρεση από τότε που κυκλοφόρησε μαζί με το Allo, την πλέον ανενεργή υπηρεσία ανταλλαγής μηνυμάτων. Το Duo τυγχάνει συνεχώς την προσοχή της Google και η συχνή προσθήκη νέων λειτουργιών όπως Υποστήριξη 1080p σε τηλέφωνα Samsung S20 5G, (προσεχές) ζωντανές λεζάντες, σκετσάκια, και μέχρι 12 συμμετέχοντες σε μια ομαδική κλήση. Τώρα, η Google εφαρμόζει τη μηχανική εκμάθηση για να μειώσει το κύριο πρόβλημα των τρέμουλων για μια πιο ομαλή και αδιάλειπτη εμπειρία ήχου.

Οι βιντεοκλήσεις έχουν γίνει ένας ζωτικής σημασίας τρόπος επίσημης επικοινωνίας κατά τη διάρκεια της περιόδου καραντίνας COVID-19 και ο νευρικός ήχος μπορεί να κοστίσει οικονομικά σε εσάς ή την εταιρεία σας. Η Google αναγνωρίζει ότι το 99% των κλήσεων στο Duo υποφέρουν από διακοπές λόγω καθυστερήσεων δικτύου. Περίπου το ένα πέμπτο αυτών των κλήσεων υφίσταται απώλεια 3% στον ήχο, ενώ ένα δέκατο χάνει σχεδόν το 8% του ήχου, μεγάλο μέρος των οποίων μπορεί να είναι πολύ σημαντικές πληροφορίες που τελικά χάνετε. Αυτό συμβαίνει καθώς τα πακέτα δεδομένων είτε καθυστερούν είτε χάνονται στη μετάδοση και η απουσία αυτών των πακέτων οδηγεί σε δυσλειτουργίες στον ήχο, καθιστώντας μεγάλο μέρος του ακατανόητο.

Ο νέος αλγόριθμος μηχανικής εκμάθησης WaveNetEQ της Google λειτουργεί σε μια τεχνική που ονομάζεται "απόκρυψη απώλειας πακέτων" (PLC). Το WaveNet EQ είναι ένα παραγωγικό μοντέλο που βασίζεται σε DeepMind'sWaveRNN και δημιουργεί κομμάτια ήχου για να καλύψει τα κενά με ρεαλιστικά υλικά πλήρωσης. Το μοντέλο AI έχει εκπαιδευτεί τροφοδοτώντας μια μεγάλη δεξαμενή δεδομένων που σχετίζονται με την ομιλία. Λόγω της κρυπτογράφησης από άκρο σε άκρο στο Google Duo, το μοντέλο εκτελείται στη συσκευή του δέκτη. Αλλά η Google ισχυρίζεται ότι είναι "αρκετά γρήγορο για να τρέχει σε ένα τηλέφωνο, ενώ εξακολουθεί να παρέχει κορυφαία ποιότητα ήχου."

Το WaveRRN βασίζεται σε ένα μοντέλο μετατροπής κειμένου σε ομιλία και εκτός του ότι έχει εκπαιδευτεί για το "τι να πεις", έχει εκπαιδευτεί και για το "πώς να λες" πράγματα. Αναλύει την είσοδο με ισχυρή φωνητική κατανόηση για να προβλέψει ήχους στο άμεσο μέλλον. Εκτός από την κάλυψη κενών, το μοντέλο παράγει επίσης πλεονάζοντα ήχο στην ακατέργαστη κυματομορφή για να επικαλύπτεται το τμήμα που ακολουθεί το jitter. Αυτό το σήμα επικαλύπτεται με τον πραγματικό ήχο με λίγο σταυροειδές ξεθώριασμα και έχει ως αποτέλεσμα μια πιο ομαλή μετάβαση.

Το μοντέλο WaveNetEQ του Google Duo έχει εκπαιδευτεί σε 48 γλώσσες που τροφοδοτούνται από 100 άτομα, ώστε να μπορεί να μάθει τα γενικά χαρακτηριστικά της ανθρώπινης φωνής αντί για μία μόνο γλώσσα. Το μοντέλο είναι εκπαιδευμένο να παράγει κυρίως συλλαβές και μπορεί να καλύψει κενά μήκους έως και 120ms.

Η λειτουργία είναι ήδη διαθέσιμη στο Google Pixel 4 και τώρα κυκλοφορεί και σε άλλες συσκευές Android.


Πηγή: Ιστολόγιο Google AI