Alphabet의 Tacotron 2 텍스트 음성 변환 엔진은 인간과 거의 구별할 수 없을 정도로 들립니다.

Alphabet의 AI 연구소는 인간과 구별할 수 없는 오디오를 생성하는 텍스트 음성 변환 시스템인 Tacotron 2를 개발했습니다.

알파벳 자회사 DeepMind 개발 웨이브넷, Google 어시스턴트의 음성 합성을 지원하는 신경망, 10월. 검색 대기업의 이전 제품보다 더 좋고 더 사실적인 오디오 샘플이 가능합니다. 텍스트 음성 변환 시스템은 물론이고, 텍스트를 이어붙인 소리가 아닌 원시 오디오를 생성합니다. 성우들. 이제 Alphabet의 연구원들은 다중 신경망을 사용하여 인간과 거의 구별할 수 없는 음성을 생성하는 새로운 버전인 Tacotron 2를 개발했습니다.

여기 샘플이 있습니다. 첫 번째는 Tacotron 2를 사용하여 생성되었으며 두 번째는 성우입니다.

[오디오 wav=" https://static1.xdaimages.com/wordpress/wp-content/uploads/2017/12/washington_gen.wav"][/audio]

[오디오 wav=" https://static1.xdaimages.com/wordpress/wp-content/uploads/2017/12/washington_gt.wav"][/audio]

Tacotron 2는 두 개의 심층 신경망으로 구성됩니다. 이번 달에 발표된 연구 논문에 따르면 첫 번째 논문은 텍스트를 오디오 주파수 스펙트럼을 시각적으로 표현한 스펙트로그램으로 변환합니다. 두 번째인 DeepMind의 WaveNet은 차트를 해석하고 해당 오디오 요소를 생성합니다. 그 결과 단어를 강조하고, 이름을 정확하게 발음하고, 구문을 파악하는 엔드투엔드 엔진이 탄생했습니다. 단서(예: 이탤릭체 또는 대문자로 표시된 단어)에 따라 발음 방식을 변경합니다. 구두.

Tacotron 2가 Google Assistant와 같은 사용자 대면 서비스로 진출할지는 확실하지 않지만 당연한 결과입니다. DeepMind의 WaveNet 연구 발표 직후 Google은 기계를 출시했습니다. 어시스턴트 지원 스마트폰, 스피커, 그리고 정제.

단 한 가지 문제가 있습니다. 현재 Tacotron 2 시스템은 한 명의 여성 목소리를 모방하도록 훈련되었습니다. 새로운 음성과 음성 패턴을 생성하려면 Google은 시스템을 다시 훈련시켜야 합니다.

타코트론 2