Нова модель машинного навчання Google Duo покращує якість звуку під час дзвінків

Google Duo використовує нову модель машинного навчання Google WaveNetEQ для покращення якості звуку під час дзвінків, заповнюючи проміжки та усуваючи тремтіння.

У Google була історія неприємного знищення додатків для обміну повідомленнями на користь нових комунікаційних додатків, які теж зрештою були вбиті. Google Duo поки що був винятком, оскільки він був запущений разом із Allo, нині неіснуючою службою обміну повідомленнями. Duo постійно привертає увагу Google і часто додає нові функції, такі як Підтримка 1080p на 5G телефонах Samsung S20, (майбутній) живі субтитри, каракулі, і до 12 учасників у груповому дзвінку. Тепер Google застосовує машинне навчання, щоб усунути головну проблему тремтіння для більш плавного та безперебійного звуку.

Відеодзвінки стали життєво важливим способом офіційного спілкування під час карантину COVID-19, і перерваний звук може завдати фінансових збитків вам або вашій компанії. Google визнає, що 99% дзвінків у Duo перериваються через затримки мережі. Приблизно п’ята частина цих дзвінків зазнає втрати звуку на 3%, тоді як десята частина втрачає майже 8% звуку, значна частина якого може бути дуже важливою інформацією, яку ви в кінцевому підсумку втратили. Це трапляється, коли пакети даних або затримуються, або втрачаються під час передачі, а відсутність цих пакетів призводить до збоїв у аудіо, що робить більшу частину його незрозумілим.

Новий алгоритм машинного навчання WaveNetEQ від Google працює на основі техніки під назвою «приховування втрати пакетів» (PLC). WaveNet EQ є генеративною моделлю, заснованою на DeepMindWaveRNN і створює фрагменти аудіо, щоб заповнити прогалини реалістичними заповнювачами. Модель штучного інтелекту було навчено шляхом передачі великого пулу даних, пов’язаних із мовленням. Завдяки наскрізному шифруванню в Google Duo модель працює на пристрої одержувача. Але Google стверджує, що це "досить швидко, щоб працювати на телефоні, забезпечуючи при цьому найсучаснішу якість звуку."

WaveRRN покладається на модель синтезу мовлення з тексту, і окрім навчання «що говорити», він також навчений тому, «як говорити». Він аналізує введені дані з глибоким фонетичним розумінням, щоб передбачити звуки в найближчому майбутньому. Окрім заповнення проміжків, модель також виробляє надлишок звуку в необробленому сигналі, щоб перекривати частину, яка слідує за джиттером. Цей сигнал накладається на фактичне аудіо з невеликим перехресним затуханням і забезпечує більш плавний перехід.

Модель WaveNetEQ від Google Duo навчена 48 мовам, якими користуються 100 осіб, щоб вона могла вивчати загальні характеристики людського голосу замість однієї мови. Модель навчена створювати здебільшого склади та може заповнювати проміжки довжиною до 120 мс.

Ця функція вже доступна в Google Pixel 4, а зараз вона доступна для інших пристроїв Android.


Джерело: Блог Google AI