Google Duo는 Google의 새로운 WaveNetEQ 기계 학습 모델을 사용하여 공백을 메우고 지터를 치료하여 통화 품질을 향상시킵니다.
Google은 최신 통신 앱을 선호하여 메시징 앱을 불쾌하게 죽인 이력이 있으며 결국에는 이 앱도 죽게 됩니다. Google Duo는 현재는 존재하지 않는 메시징 서비스인 Allo와 함께 출시된 이후 지금까지 예외였습니다. Duo는 지속적으로 Google의 관심을 받아 왔으며 다음과 같은 새로운 기능이 자주 추가되었습니다. 5G Samsung S20 휴대폰에서 1080p 지원, (예정) 라이브 캡션, 낙서, 그리고 최대 그룹 통화 참가자 12명. 이제 Google은 더 부드럽고 중단 없는 오디오 경험을 위해 기계 학습을 적용하여 잡음이라는 주요 문제를 완화하고 있습니다.
영상 통화는 코로나19 격리 기간 동안 공식적인 의사소통의 중요한 방법이 되었으며, 불안한 오디오로 인해 귀하 또는 귀하 회사에 재정적 손실이 발생할 수 있습니다. Google은 Duo 통화의 99%가 네트워크 지연으로 인해 중단된다는 사실을 인정합니다. 이러한 통화 중 약 5분의 1은 오디오 손실이 3% 정도이고, 10분의 1은 오디오의 거의 8%가 손실됩니다. 그 중 대부분은 결국 놓칠 수 있는 매우 중요한 정보일 수 있습니다. 이는 데이터 패킷이 전송 중에 지연되거나 손실되고 이러한 패킷이 없으면 오디오에 결함이 발생하여 대부분을 이해할 수 없게 되기 때문에 발생합니다.
Google의 새로운 WaveNetEQ 기계 학습 알고리즘은 "패킷 손실 은폐"(PLC)라는 기술을 기반으로 작동합니다. WaveNet EQ는 다음을 기반으로 하는 생성 모델입니다. 딥마인드의WaveRNN 현실적인 필러로 간격을 연결하기 위해 오디오 덩어리를 생성합니다. AI 모델은 대규모 음성 관련 데이터 풀을 제공하여 훈련되었습니다. Google Duo의 엔드 투 엔드 암호화로 인해 모델은 수신자의 기기에서 실행됩니다. 하지만 구글은 "휴대폰에서 실행할 수 있을 만큼 빠르면서도 최첨단 오디오 품질을 제공합니다."
WaveRRN은 텍스트 음성 변환 모델을 사용하며 "말할 내용"에 대한 훈련 외에도 "말하는 방법"에 대한 훈련도 받았습니다. 강력한 음성학적 이해로 입력을 분석하여 가까운 미래의 소리를 예측합니다. 간격을 채우는 것 외에도 모델은 지터를 따르는 부분을 겹치기 위해 원시 파형에서 잉여 오디오를 생성합니다. 이 신호는 약간의 크로스 페이딩을 통해 실제 오디오와 겹치고 더 부드러운 전환을 가져옵니다.
Google Duo의 WaveNetEQ 모델은 100명의 개인이 제공하는 48개 언어로 훈련되어 하나의 언어가 아닌 인간 음성의 일반적인 특성을 학습할 수 있습니다. 이 모델은 대부분 음절을 생성하도록 훈련되었으며 최대 120ms 길이의 간격을 채울 수 있습니다.
이 기능은 이미 Google Pixel 4에서 사용할 수 있으며 이제 다른 Android 기기에도 출시되고 있습니다.
원천: 구글 AI 블로그