Google Duo uus masinõppemudel parandab kõnede helikvaliteeti

Google Duo kasutab Google'i uudset WaveNetEQ masinõppe mudelit, et parandada kõnede helikvaliteeti, täites lünki ja leevendades värinat.

Google on varem sõnumsiderakendusi ebameeldivalt tapnud, eelistades uuemaid suhtlusrakendusi, mis samuti lõpuks tapetakse. Google Duo on seni olnud erand, kuna see käivitati koos nüüdseks kadunud sõnumsideteenuse Alloga. Duo on pidevalt pälvinud Google'i tähelepanu ja sageli lisanud uusi funktsioone, nagu 1080p tugi 5G Samsung S20 telefonidele, (tulemas) reaalajas subtiitrid, Doodles, ja kuni 12 osalejat rühmakõnes. Nüüd rakendab Google masinõpet, et leevendada peamist värinaprobleemi, et helikogemus oleks sujuvam ja katkematu.

Videokõnedest on saanud COVID-19 karantiiniperioodil ametliku suhtluse oluline viis ja närviline heli võib teile või teie ettevõttele rahaliselt maksma minna. Google tunnistab, et 99% Duo kõnedest kannatavad võrguviivituste tõttu katkestuste tõttu. Ligikaudu viiendik neist kõnedest kaotab heli 3%, samas kui kümnendik kaotab helist peaaegu 8%, millest suur osa võib olla väga oluline teave, millest lõpuks ilma jääte. See juhtub siis, kui andmepakettide edastamine viibib või kaob ja nende pakettide puudumine põhjustab helis tõrkeid, muutes suure osa sellest arusaamatuks.

Google'i uus WaveNetEQ masinõppe algoritm töötab tehnikal, mida nimetatakse "paketikadude varjamiseks" (PLC). WaveNet EQ on generatiivne mudel, mis põhineb DeepMind’sWaveRNN ja loob helitükke, et täita lünki realistlike täiteainetega. Tehisintellekti mudelit on treenitud suure hulga kõnega seotud andmete söötmisega. Google Duo täieliku krüptimise tõttu töötab mudel vastuvõtja seadmes. Kuid Google väidab, et see on "piisavalt kiire, et töötada telefoniga, pakkudes samal ajal tipptasemel helikvaliteeti."

WaveRRN tugineb teksti kõneks muutmise mudelile ja lisaks sellele, et seda on õpetatud "mida öelda", on seda koolitatud ka asjade "kuidas öelda". See analüüsib sisendit tugeva foneetilise arusaamaga, et ennustada lähituleviku helisid. Lisaks tühimike täitmisele toodab mudel töötlemata lainekujul ka üleliigset heli, et kattuda värinale järgneva osaga. See signaal kattub tegeliku heliga, pisut risttumaks ja annab sujuvama ülemineku.

Google Duo WaveNetEQ mudelit on koolitatud 48 keeles, mida toidab 100 inimest, et see saaks õppida ühe keele asemel inimhääle üldisi omadusi. Mudel on koolitatud peamiselt silpe tootma ja suudab täita kuni 120 ms pikkuseid lünki.

See funktsioon on juba Google Pixel 4-s saadaval ja see on nüüd saadaval ka teistes Android-seadmetes.


Allikas: Google AI ajaveeb