Google Duo jaunais mašīnmācīšanās modelis uzlabo zvanu audio kvalitāti

Google Duo izmanto Google jauno WaveNetEQ mašīnmācīšanās modeli, lai uzlabotu zvanu audio kvalitāti, aizpildot nepilnības un novēršot nervozitāti.

Google vēsturē ir nepatīkami iznīcinājis ziņojumapmaiņas lietotnes par labu jaunākām saziņas lietotnēm, kuras arī galu galā tiek nogalinātas. Google Duo līdz šim ir bijis izņēmums, jo tas tika palaists kopā ar Allo, tagad neesošu ziņojumapmaiņas pakalpojumu. Duo nepārtraukti ir saņēmis Google uzmanību un bieži pievieno jaunas funkcijas, piemēram 1080p atbalsts 5G Samsung S20 tālruņos, (gaidāmā) reāllaika subtitri, svētku logotipi, un līdz 12 dalībnieki grupas sarunā. Tagad Google izmanto mašīnmācīšanos, lai mazinātu galveno problēmu, kas saistīta ar nervozitāti, nodrošinot vienmērīgāku un nepārtrauktu audio pieredzi.

Videozvani ir kļuvuši par būtisku oficiālas saziņas veidu COVID-19 karantīnas periodā, un nervozs audio var maksāt jums vai jūsu uzņēmumam finansiāli. Google atzīst, ka 99% Duo zvanu tiek pārtraukti tīkla aizkaves dēļ. Apmēram piektajā daļā šo zvanu tiek zaudēts 3 % audio, savukārt desmitajai daļai — gandrīz 8 % audio, un liela daļa no tiem varētu būt ļoti nozīmīga informācija, kas jums galu galā pietrūkst. Tas notiek, jo datu paketes tiek vai nu aizkavētas, vai tiek pazaudētas pārraidē, un šo pakešu neesamība izraisa audio traucējumus, padarot lielu daļu no tā nesaprotamu.

Google jaunais WaveNetEQ mašīnmācīšanās algoritms darbojas ar paņēmienu, ko sauc par "pakešu zudumu slēpšanu" (PLC). WaveNet EQ ir ģeneratīvs modelis, kura pamatā ir DeepMind’sWaveRNN un izveido audio fragmentus, lai aizpildītu spraugas ar reālistiskām pildvielām. AI modelis ir apmācīts, ievadot lielu ar runu saistītu datu kopumu. Pateicoties Google Duo pilnīgai šifrēšanai, modelis darbojas uztvērēja ierīcē. Bet Google apgalvo, ka tas ir "pietiekami ātri, lai darbotos tālrunī, vienlaikus nodrošinot vismodernāko audio kvalitāti."

WaveRRN paļaujas uz teksta pārvēršanas runā modeli un ne tikai tiek apmācīts "ko teikt", bet arī ir apmācīts, kā pateikt lietas. Tas analizē ievadi ar spēcīgu fonētisko izpratni, lai paredzētu skaņas tuvākajā nākotnē. Modelis ne tikai aizpilda spraugas, bet arī rada papildu audio neapstrādātā viļņu formā, lai pārklātu daļu, kas seko nervozitātei. Šis signāls pārklājas ar faktisko audio, nedaudz izbalējot un nodrošina vienmērīgāku pāreju.

Google Duo WaveNetEQ modelis ir apmācīts 48 valodās, kuras baro 100 cilvēki, lai tas varētu apgūt cilvēka balss vispārīgās īpašības, nevis tikai vienu valodu. Modelis ir apmācīts galvenokārt veidot zilbes un var aizpildīt līdz pat 120 ms garas spraugas.

Šī funkcija jau ir pieejama tālrunī Google Pixel 4, un tagad tā tiek ieviesta arī citās Android ierīcēs.

Avots: Google AI emuārs