Нови модел машинског учења Гоогле Дуо-а побољшава квалитет звука у позивима

Гоогле Дуо користи Гоогле-ов нови ВавеНетЕК модел машинског учења да побољша квалитет звука у позивима попуњавањем празнина и отклањањем подрхтавања.

Гоогле је имао историју непријатног убијања апликација за размену порука у корист новијих комуникационих апликација које су такође на крају уништене. Гоогле Дуо је до сада био изузетак откако је лансиран уз Алло, сада угашену услугу за размену порука. Дуо непрестано добија Гоогле-ову пажњу и често додаје нове функције као што су Подршка за 1080п на 5Г Самсунг С20 телефонима, (предстојећи) ливе титлови, доодлес, и до 12 учесника у групном позиву. Сада, Гоогле примењује машинско учење како би ублажио главни проблем треме за глаткији и непрекидан аудио доживљај.

Видео позиви су постали витални начин званичне комуникације током периода карантина ЦОВИД-19, а нервозан звук може финансијски коштати вас или вашу компанију. Гоогле признаје да 99% позива у Дуо-у пати од прекида због кашњења мреже. Отприлике петина ових позива пати од губитка звука од 3%, док десетина губи скоро 8% звука, од којих би већина могла бити веома значајна информација која вам на крају недостаје. Ово се дешава јер пакети података касне или се губе у преносу, а одсуство ових пакета доводи до грешака у звуку, чинећи велики део неразумљивим.

Гоогле-ов нови ВавеНетЕК алгоритам машинског учења ради на техници која се зове „прикривање губитка пакета“ (ПЛЦ). ВавеНет ЕК је генеративни модел заснован на ДеепМинд’сВавеРНН и ствара комаде звука за попуњавање празнина реалистичним пунилима. Модел вештачке интелигенције је обучен тако што је уносио велики скуп података у вези са говором. Због енд-то-енд енкрипције у Гоогле Дуо-у, модел ради на уређају пријемника. Али Гоогле тврди да је „довољно брзо да ради на телефону, а истовремено пружа врхунски квалитет звука."

ВавеРРН се ослања на модел претварања текста у говор и осим што је обучен за „шта рећи“, такође је обучен за ствари „како рећи“. Анализира унос са јаким фонетским разумевањем да би предвидео звукове у непосредној будућности. Поред попуњавања празнина, модел такође производи вишак звука у сировом таласном облику како би се преклапао део који прати подрхтавање. Овај сигнал се преклапа са стварним звуком са мало унакрсног затамњења и резултира глаткијим прелазом.

Гоогле Дуо-ов ВавеНетЕК модел је обучен на 48 језика које храни 100 појединаца тако да може да научи опште карактеристике људског гласа уместо само једног језика. Модел је обучен да углавном производи слогове и може да попуни празнине дуге до 120 мс.

Ова функција је већ доступна на Гоогле Пикел 4 и сада је доступна на другим Андроид уређајима.

Извор: Гоогле АИ блог