O Whisper da OpenAI é a ferramenta de reconhecimento de fala de IA mais precisa que testamos até agora

O Whisper da OpenAI transcreverá qualquer coisa para você com facilidade e é de longe a melhor ferramenta de transcrição que encontrei.

Existem algumas maneiras de transcrever uma entrevista ou um vídeo. Você pode fazer isso manualmente apenas ouvindo, o que lhe dará a melhor precisão, mas leva muito mais tempo, ou você pode usar um serviço ou ferramenta. Por exemplo, eu costumava usar o YouTube, deixava que ele gerasse legendas automaticamente, salvasse essas legendas e as editasse para resolver todos os problemas. Agora, existem várias ferramentas de IA que podem fazer um excelente trabalho, e uma dessas ferramentas é o Whisper da OpenAI.

Para demonstrar o quão bem a ferramenta funciona, transcrevi o vídeo mais recente da XDA TV. Como você pode ver abaixo, ele transcreverá e registrará a data e hora das seções, que podem ser facilmente usadas como legendas em plataformas como o YouTube. Também funciona rapidamente; Usei-o no meu MacBook Pro M1 para transcrever um vídeo de 10 minutos em pouco mais de cinco minutos e meio.

Essa ferramenta é uma virada de jogo para criadores de conteúdo que precisam gerar legendas, pessoas que precisam transcrever entrevistas ou que apenas desejam transformar qualquer tipo de áudio em texto. Achei sua precisão incrível e, recentemente, transcrevi uma entrevista de 25 minutos em que nada foi transcrito incorretamente. O Whisper também pode traduzir idiomas em áudio transcrito.

O que é Sussurro?

Whisper é um sistema automático de reconhecimento de fala que demonstra uma precisão incrível na compreensão das palavras faladas. Foi construído pela OpenAI, presumivelmente para uso em sistemas como Bate-papoGPT, onde você pode agora conversar com uma IA, mas a empresa também abriu o código do Whisper para que a comunidade também pudesse usá-lo.

O funcionamento é bastante avançado e envolve treinamento em 680 mil horas de dados supervisionados coletados na Internet, um terço dos quais não em inglês. O áudio é dividido em pedaços de 30 segundos, convertido e depois passado para um codificador, e um decodificador treinado tentará prever a legenda de texto correspondente. Outras etapas também ocorrem aqui, mas são bastante técnicas e envolvem a identificação do idioma falado, a transcrição da fala multilíngue e a tradução para o inglês.

Quanto à comparação com outras ferramentas, a OpenAI diz que o Whisper comete até 50% menos erros do que outros modelos de linguagem, e eu acredito nisso. Usei muitas ferramentas ao longo dos anos para tentar transcrever áudio, e nada foi tão preciso quanto o Whisper para mim. Como mencionei, transcrevi uma entrevista de 25 minutos que saiu perfeitamente, com a qual praticamente todas as ferramentas têm dificuldade.

A única coisa particularmente interessante sobre o Whisper é que ele não é uma ferramenta voltada para usuários finais, mas sim para desenvolvedores e pesquisadores. A OpenAI disse que a razão para o código aberto dos modelos e códigos era "servir como base para a construção de aplicativos úteis e para pesquisas futuras sobre processamento de fala robusto." Você ainda pode configurá-lo e usá-lo, mas não é realmente um produto de consumo ainda.

Existem vários modelos que você pode usar ao transcrever áudio e existem diferentes requisitos de vRAM para cada um. O modelo maior requer 10 GB de vRAM, embora também seja o mais preciso. Existem também modelos de cada um somente em inglês, exceto o modelo maior, o que deve reduzir os requisitos de vRAM se você souber que o conteúdo que está transcrevendo está apenas em inglês. De qualquer forma, você precisará de um boa GPU com vRAM suficiente para colocá-lo em funcionamento.

Como usar o Whisper da OpenAI

Whisper da OpenAI é uma ferramenta de código aberto que você pode executar localmente facilmente seguindo alguns tutoriais. Se você possui um MacBook, existem algumas etapas mais complicadas para fazê-lo funcionar, mas não é tão ruim, pois basicamente você só precisa compilar um Versão C++ do Whisper da fonte você mesmo. Não é uma versão oficial, mas é a única maneira de fazê-lo funcionar nativamente no silício da Apple. Você pode siga este tutorial no Medium para saber como fazer isso.

Você também pode executá-lo no Google Collab, embora seja mais lento, ou pode executá-lo localmente se tiver um máquina x86. Você só precisa ter o ffmpeg instalado e pode clonar o repositório Git em que o Whisper está e executá-lo. Basta seguir as instruções do Repositório Whisper Git, e você poderá configurar o Whisper rapidamente. Quanto mais poderoso for o seu hardware, melhor, é claro, mas ele funcionará basicamente em qualquer coisa com vRAM suficiente, demorando mais se o seu PC for mais lento.