OpenAI의 Whisper는 지금까지 시도한 AI 음성 인식 도구 중 가장 정확한 도구입니다.

OpenAI의 Whisper는 무엇이든 쉽게 복사해 주며, 제가 지금까지 접한 최고의 복사 도구입니다.

인터뷰나 비디오를 복사하는 방법에는 몇 가지가 있습니다. 듣기만 하면 손으로 할 수도 있는데, 이렇게 하면 정확도가 가장 높지만 시간이 가장 오래 걸리거나 서비스나 도구를 사용할 수도 있습니다. 예를 들어 저는 YouTube를 사용하여 자동으로 자막을 생성하고 해당 자막을 저장한 다음 편집하여 모든 문제를 해결했습니다. 이제 탁월한 작업을 수행할 수 있는 다양한 AI 도구가 있는데, 그러한 도구 중 하나가 OpenAI의 Whisper입니다.

도구가 얼마나 잘 작동하는지 보여주기 위해 다음 내용을 기록했습니다. 최신 XDA TV 비디오. 아래에서 볼 수 있듯이 YouTube와 같은 플랫폼에서 자막으로 쉽게 사용할 수 있는 스크립트와 타임스탬프 섹션이 제공됩니다. 또한 빠르게 작동합니다. 저는 M1 MacBook Pro에서 이 제품을 사용하여 10분짜리 비디오를 5분 30초 만에 복사했습니다.

이 도구는 자막을 생성해야 하는 콘텐츠 제작자, 인터뷰를 전사해야 하는 사람, 모든 종류의 오디오를 텍스트로 변환하려는 사람을 위한 획기적인 도구입니다. 나는 그 정확성이 놀랍다는 것을 알았고 최근에는 단 하나도 잘못 기록되지 않은 25분짜리 인터뷰를 기록했습니다. Whisper는 녹음된 오디오의 언어를 번역할 수도 있습니다.

속삭임이란 무엇입니까?

Whisper는 말을 이해하는 데 있어서 놀라운 정확성을 보여주는 자동 음성 인식 시스템입니다. 이는 아마도 다음과 같은 시스템에서 사용하기 위해 OpenAI에 의해 구축되었습니다. 채팅GPT, 지금 할 수 있는 곳 AI와 대화하다, 그러나 회사는 커뮤니티에서도 사용할 수 있도록 Whisper를 오픈 소스로 공개했습니다.

작동 방식은 상당히 고급이며 인터넷에서 수집된 680,000시간의 감독 데이터에 대한 교육이 포함되며 그 중 3분의 1은 영어가 아닙니다. 오디오는 30초 단위로 분할되어 변환된 후 인코더로 전달되며, 훈련된 디코더는 해당 텍스트 캡션을 예측하려고 시도합니다. 여기에서도 다른 단계가 수행되지만 이는 매우 기술적이며 사용되는 언어 식별, 다국어 음성 전사 및 영어 번역이 포함됩니다.

다른 도구와 비교하면 OpenAI에서는 Whisper가 다른 언어 모델보다 오류가 최대 50% 적다고 말하고 있으며 저는 그렇게 믿습니다. 나는 오디오를 녹음하고 복사하기 위해 수년 동안 많은 도구를 사용해 왔지만 Whisper만큼 정확한 도구는 없었습니다. 앞서 언급했듯이 저는 거의 모든 도구에서 어려움을 겪는 25분 분량의 인터뷰를 완벽하게 녹음했습니다.

Whisper에서 특히 흥미로운 점 중 하나는 최종 사용자가 아닌 개발자와 연구원을 대상으로 하는 도구라는 것입니다. OpenAI는 모델과 코드를 오픈소스화하는 이유는 "유용한 애플리케이션을 구축하고 강력한 음성 처리에 대한 추가 연구를 위해." 여전히 설정하고 사용할 수 있지만 실제로는 소비자 제품이 아닙니다. 아직.

오디오를 텍스트로 변환할 때 사용할 수 있는 여러 모델이 있으며 각 모델마다 vRAM 요구 사항이 다릅니다. 가장 큰 모델에는 10GB의 vRAM이 필요하지만 가장 정확합니다. 가장 큰 모델을 제외하고 각 모델에는 영어 전용 모델도 있습니다. 이를 통해 복사하는 콘텐츠가 영어로만 제공되는 경우 vRAM 요구 사항이 줄어듭니다. 어느 쪽이든, 당신은 좋은 GPU 작동하고 실행하기에 충분한 vRAM이 있어야 합니다.

OpenAI의 Whisper를 사용하는 방법

OpenAI의 Whisper는 몇 가지 튜토리얼을 따라하면 매우 쉽게 로컬에서 실행할 수 있는 오픈 소스 도구입니다. MacBook이 있는 경우 이를 작동시키려면 몇 가지 복잡한 단계가 있지만 기본적으로 C++ 버전의 Whisper 소스에서 직접. 공식 포트는 아니지만 Apple Silicon에서 기본적으로 실행되도록 하는 유일한 방법입니다. 당신은 할 수 있습니다 이 튜토리얼을 따르세요 방법을 알아보려면 Medium을 참조하세요.

속도는 느리지만 Google Collab에서 실행할 수도 있고, 로컬에서 실행할 수도 있습니다. x86 머신. ffmpeg가 설치되어 있는지 확인하고 Whisper가 있는 Git 저장소를 복제하여 실행할 수 있습니다. 간단히 다음의 지침을 따르세요. 속삭임 Git 저장소, 그러면 곧바로 Whisper를 설정할 수 있습니다. 물론 하드웨어가 강력할수록 더 좋지만 기본적으로 vRAM이 충분한 모든 것에서 실행되며 PC 속도가 느린 경우 시간이 더 오래 걸립니다.