Naujasis „Google Duo“ mašininio mokymosi modelis pagerina skambučių garso kokybę

„Google Duo“ naudoja „Google“ naują „WaveNetEQ“ mašininio mokymosi modelį, kad pagerintų skambučių garso kokybę, užpildydama spragas ir pašalindama drebėjimą.

„Google“ praeityje nemaloniai naikino susirašinėjimo programas, o naujesnės komunikacijos programos, kurios galiausiai taip pat žūva. „Google Duo“ iki šiol buvo išimtis, nes ji buvo paleista kartu su „Allo“, jau nebeveikiančia pranešimų siuntimo paslauga. „Duo“ nuolat sulaukia „Google“ dėmesio ir dažnai pridedama naujų funkcijų, pvz 1080p palaikymas 5G Samsung S20 telefonuose, (būsimas) tiesioginiai subtitrai, piešiniai, ir iki 12 dalyvių grupiniame pokalbyje. Dabar „Google“ taiko mašininį mokymąsi, kad sumažintų pagrindinę virpėjimo problemą, kad garsas būtų sklandesnis ir nepertraukiamas.

Vaizdo skambučiai tapo gyvybiškai svarbiu oficialaus bendravimo būdu COVID-19 karantino laikotarpiu, o nervingas garsas gali jums ar jūsų įmonei kainuoti finansiškai. „Google“ pripažįsta, kad 99 % „Duo“ skambučių nutrūksta dėl tinklo vėlavimų. Maždaug penktadalyje šių skambučių garsas prarandamas 3 %, o dešimtadalis praranda beveik 8 % garso, o tai gali būti labai svarbi informacija, kurios jums trūksta. Taip atsitinka, kai duomenų paketai vėluoja arba prarandami perduodant, o dėl šių paketų nebuvimo atsiranda garso trikdžių, todėl didžioji jo dalis tampa nesuprantama.

Naujasis „Google“ WaveNetEQ mašininio mokymosi algoritmas veikia pagal techniką, vadinamą „paketų praradimo slėpimu“ (PLC). WaveNet EQ yra generatyvinis modelis, pagrįstas DeepMind'sWaveRNN ir sukuria garso dalis, kad užpildytų tarpus tikroviškais užpildais. AI modelis buvo apmokytas pateikiant didelį su kalba susijusių duomenų telkinį. Dėl „Google Duo“ šifravimo nuo galo iki galo, modelis veikia imtuvo įrenginyje. Tačiau „Google“ teigia, kad tai „pakankamai greitas, kad veiktų telefone, tuo pačiu užtikrinant naujausią garso kokybę."

„WaveRRN“ remiasi teksto į kalbą modeliu ir ne tik mokoma „ką pasakyti“, bet ir „kaip pasakyti“. Jis analizuoja įvestį turėdamas tvirtą fonetinį supratimą, kad nuspėtų garsus artimiausioje ateityje. Modelis ne tik užpildo spragas, bet ir sukuria perteklinį garsą neapdorotoje bangos formoje, kad perdengtų dalį, kuri seka virpesį. Šis signalas sutampa su tikruoju garsu, šiek tiek išblukęs ir užtikrina sklandesnį perėjimą.

„Google Duo“ WaveNetEQ modelis buvo apmokytas 48 kalbomis, kurias maitina 100 asmenų, kad jis galėtų išmokti bendrąsias žmogaus balso ypatybes, o ne tik vieną kalbą. Modelis yra išmokytas daugiausia sudaryti skiemenis ir gali užpildyti iki 120 ms ilgio tarpus.

Ši funkcija jau pasiekiama „Google Pixel 4“ ir dabar yra prieinama kituose „Android“ įrenginiuose.

Šaltinis: Google AI tinklaraštis