Новая модель машинного обучения Google Duo улучшает качество звука во время звонков

Google Duo использует новую модель машинного обучения WaveNetEQ от Google для улучшения качества звука во время вызовов путем заполнения пробелов и устранения джиттера.

У Google есть история неприятного закрытия приложений для обмена сообщениями в пользу новых коммуникационных приложений, которые в конечном итоге тоже закрываются. Google Duo до сих пор был исключением, поскольку он был запущен вместе с Allo, ныне несуществующей службой обмена сообщениями. Duo постоянно привлекает внимание Google и часто добавляет новые функции, такие как Поддержка 1080p на телефонах Samsung S20 5G, (предстоящие) живые субтитры, каракули, и до 12 участников группового звонка. Теперь Google применяет машинное обучение, чтобы решить основную проблему дрожания и обеспечить более плавное и бесперебойное воспроизведение звука.

Видеосвязь стала жизненно важным способом официального общения в период карантина COVID-19, и нестабильный звук может стоить вам или вашей компании финансовых затрат. Google признает, что 99% звонков в Duo прерываются из-за задержек в сети. Примерно в пятой части этих вызовов происходит потеря звука на 3 %, а в десятой — почти на 8 % звука, большая часть которого может содержать очень важную информацию, которую вы в конечном итоге упускаете. Это происходит потому, что пакеты данных либо задерживаются, либо теряются при передаче, а отсутствие этих пакетов приводит к сбоям в звуке, что делает большую часть его непонятным.

Новый алгоритм машинного обучения WaveNetEQ от Google работает на основе метода, называемого «сокрытием потери пакетов» (PLC). WaveNet EQ — это генеративная модель, основанная на DeepMind’sВолнаRNN и создает фрагменты аудио, чтобы заполнить пробелы реалистичными заполнителями. Модель ИИ была обучена путем подачи большого количества данных, связанных с речью. Благодаря сквозному шифрованию в Google Duo модель работает на устройстве получателя. Но Google утверждает, что это «достаточно быстро, чтобы работать на телефоне, обеспечивая при этом самое современное качество звука."

WaveRRN опирается на модель преобразования текста в речь, и помимо того, что он обучен тому, «что говорить», он также обучен тому, «как говорить». Он анализирует входные данные с четким фонетическим пониманием, чтобы предсказать звуки в ближайшем будущем. Помимо заполнения пробелов, модель также создает избыточный звук в необработанном сигнале, чтобы перекрыть часть, следующую за джиттером. Этот сигнал перекрывается с реальным звуком с небольшим плавным затуханием и приводит к более плавному переходу.

Модель WaveNetEQ Google Duo была обучена на 48 языках с участием 100 человек, поэтому она может изучать общие характеристики человеческого голоса, а не только один язык. Модель обучена произносить в основном слоги и может заполнять пробелы длительностью до 120 мс.

Эта функция уже доступна на Google Pixel 4 и теперь распространяется на другие устройства Android.

Источник: Блог Google по искусственному интеллекту