Google Duo는 연결 상태가 좋지 않을 때 통화 품질을 높이기 위해 새로운 코덱을 사용합니다.

Google은 Google Duo와 같은 앱의 음성 품질을 크게 향상시키는 것을 목표로 하는 음성 압축용 저비트 전송률 코덱인 Lyra를 개발했습니다.

업데이트 1(2021년 4월 9일 @ 오후 3시 45분(ET)): Google은 Google Duo에서 사용하는 새로운 저비트 전송률 음성 코덱인 Lyra의 소스 코드를 공개했습니다. 자세한 내용을 보려면 여기를 클릭하세요. 2021년 3월 1일에 게시된 기사는 아래에 보존되어 있습니다.

미국 통신사들이 새로운 5G 네트워크를 홍보하느라 바쁘지만 현실은 대다수의 사람들이 광고된 속도를 경험하지 못할 것입니다. 미국과 전 세계에는 여전히 데이터 속도가 느린 지역이 많이 있으므로 이를 보완하기 위해 Google Duo와 같은 서비스는 압축 기술을 사용하여 최상의 비디오 및 오디오를 효율적으로 제공합니다. 경험. Google은 현재 열악한 네트워크 연결에서 오디오 품질을 크게 향상시키는 것을 목표로 하는 새로운 오디오 코덱을 테스트하고 있습니다.

블로그 게시물에서, Google AI 팀은 'Lyra'라는 이름의 새로운 고품질 초저비트 전송률 음성 코덱에 대해 자세히 설명합니다. 전통처럼 파라메트릭 코덱인 Lyra의 기본 아키텍처에는 고유한 음성 속성("기능"이라고도 함)을 추출하는 작업이 포함됩니다. 의 형태 로그멜 스펙트로그램 그런 다음 압축되어 네트워크를 통해 전송되고 생성 모델을 사용하여 다른 쪽 끝에서 다시 생성됩니다. 그러나 기존의 파라메트릭 코덱과 달리 Lyra는 새로운 고품질 오디오 생성 모델을 사용합니다. 음성에서 중요한 매개변수만 추출할 수 있을 뿐 아니라 최소한의 정보를 사용하여 음성을 재구성할 수도 있습니다. 데이터. Lyra에 사용된 새로운 생성 모델은 Google의 WaveNetEQ에 대한 이전 작업, 현재 Google Duo에서 사용되는 생성 모델 기반 패킷 손실 은폐 시스템입니다.

Lyra의 기본 아키텍처. 출처: 구글

Google은 자사의 접근 방식을 통해 Lyra가 오늘날 많은 스트리밍 및 통신 플랫폼에서 사용되는 최첨단 파형 코덱과 동등한 수준이 되었다고 말합니다. Google에 따르면 이러한 최첨단 파형 코덱에 비해 Lyra의 이점은 Lyra가 더 높은 비트 전송률(따라서 더 많은 데이터)이 필요한 샘플 단위로 신호를 전송하지 않는다는 것입니다. 기기에서 생성 모델을 실행하는 데 따른 계산 복잡성 문제를 극복하기 위해 Google은 Lyra가 "저렴한 반복 생성 모델"을 사용한다고 말합니다. 낮은 속도"를 사용하지만 나중에 "원하는 샘플링 속도에서 단일 출력 신호"로 결합되는 서로 다른 주파수 범위의 여러 신호를 병렬로 생성합니다. 중급 장치에서 이 생성 모델을 실시간으로 실행하면 90ms의 처리 지연 시간이 발생합니다. Google은 이 값이 "다른 기존 음성과 일치합니다"라고 말합니다. 코덱."

다음과 페어링됨 비디오용 AV1 코덱, Google은 오래된 56kbps 전화 접속 모뎀 사용자도 영상 채팅을 할 수 있다고 말합니다. 이는 Lyra가 3kbps와 같이 대역폭이 크게 제한된 환경에서 작동하도록 설계되었기 때문입니다. Google에 따르면 Lyra는 매우 낮은 비트 전송률에서 로열티가 없는 오픈 소스 Opus 코덱은 물론 Speex, MELP, AMR과 같은 다른 코덱보다 성능이 뛰어납니다. 다음은 Google에서 제공하는 음성 샘플 중 일부입니다. Lyra로 인코딩된 오디오를 제외하고 각 음성 샘플은 매우 낮은 비트 전송률에서 오디오 품질이 저하됩니다.

깨끗한 연설

원래의

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_reference.wav

Opus@6kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_opus.wav

거문고@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_lyra.wav

Speex@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_speex.wav

시끄러운 환경

원래의

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_reference.wav

Opus@6kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_opus.wav

거문고@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_lyra.wav

Speex@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_speex.wav

Google은 오픈 소스 오디오 라이브러리를 사용하여 70개 이상의 언어로 된 스피커를 통해 수천 시간의 오디오로 Lyra를 교육한 후 오디오를 검증했다고 밝혔습니다. 전문가 및 크라우드소싱 청취자에게 품질을 제공합니다." 따라서 새로운 코덱은 이미 Google Duo에서 출시되어 매우 낮은 대역폭에서 통화 품질을 향상시키고 있습니다. 사이. Lyra는 현재 음성 사용 사례를 목표로 하고 있지만 Google은 이를 범용 오디오 코덱으로 만드는 방법을 모색하고 있습니다.


업데이트 1: Google Duo에서 사용되는 Google 오픈소스 Lyra 코덱

이번 주 초 구글은 발표 Google Duo에서 사용하는 새로운 오디오 코덱인 Lyra를 오픈 소스로 보유하고 있어 다른 개발자가 자신의 커뮤니케이션 앱에서 이를 사용할 수 있습니다. 이 릴리스에는 Lyra를 사용하여 오디오를 인코딩 및 디코딩하는 데 필요한 도구가 포함되어 있으며 Linux 개발을 통해 64비트 ARM Android에 최적화되어 있습니다. 오픈 소스 라이브러리는 실시간 음성 통신을 위해 Lyra를 사용하는 데 중점을 두고 있지만 Google은 개발자는 음성을 인코딩하고 디코딩하는 다른 응용 프로그램에 코덱을 적용할 것으로 예상됩니다. 오디오. 코드는 C++로 작성되었으며 핵심 API, 신호 처리 도구 체인 및 데모 Android 앱을 이제 다음에서 사용할 수 있습니다. GitHub Apache 라이센스에 따라 베타 릴리스로 제공됩니다.