Whisper de OpenAI es la herramienta de reconocimiento de voz con IA más precisa que hemos probado hasta ahora

Whisper de OpenAI transcribirá cualquier cosa con facilidad y es, con diferencia, la mejor herramienta de transcripción que he encontrado.

Hay algunas formas de transcribir una entrevista o un vídeo. Puedes hacerlo a mano simplemente escuchando, lo que te dará la mayor precisión pero es, con diferencia, el que lleva más tiempo, o puedes utilizar un servicio o herramienta. Por ejemplo, solía usar YouTube, dejaba que generara subtítulos automáticamente, los guardara y los editara para solucionar todos los problemas. Ahora, existen varias herramientas de inteligencia artificial que pueden hacer un trabajo excelente, y una de ellas es Whisper de OpenAI.

Para demostrar qué tan bien funciona la herramienta, transcribí el vídeo más reciente de XDA TV. Como puede ver a continuación, transcribirá y marcará la hora de las secciones, que pueden usarse fácilmente como subtítulos en plataformas como YouTube. También funciona rápidamente; Lo usé en mi MacBook Pro M1 para transcribir un vídeo de 10 minutos en poco más de cinco minutos y medio.

Esta herramienta cambia las reglas del juego para los creadores de contenido que necesitan generar subtítulos, las personas que necesitan transcribir entrevistas o que simplemente quieren convertir cualquier tipo de audio en texto. Su precisión me ha parecido increíble y recientemente transcribí una entrevista de 25 minutos en la que no se transcribió nada de forma incorrecta. Whisper también puede traducir idiomas en audio transcrito.

¿Qué es el susurro?

Whisper es un sistema de reconocimiento automático de voz que demuestra una precisión increíble en la comprensión de las palabras habladas. Fue construido por OpenAI, presumiblemente para su uso en sistemas como ChatGPT, donde puedes ahora conversar con una IA, pero la empresa también abrió Whisper para que la comunidad también pudiera usarlo.

Su funcionamiento es bastante avanzado e implica capacitación sobre 680.000 horas de datos supervisados recopilados de Internet, un tercio de los cuales no estaban en inglés. El audio se divide en fragmentos de 30 segundos, se convierte y luego se pasa a un codificador, y un decodificador entrenado intentará predecir el título de texto correspondiente. Aquí también se llevan a cabo otros pasos, pero son bastante técnicos e implican la identificación del idioma que se habla, la transcripción de voz multilingüe y la traducción al inglés.

En cuanto a cómo se compara con otras herramientas, OpenAI dice que Whisper comete hasta un 50% menos de errores que otros modelos de lenguaje, y yo lo creo. He usado muchas herramientas a lo largo de los años para intentar transcribir audio, y nada ha sido tan preciso como Whisper para mí. Como mencioné, transcribí una entrevista de 25 minutos que salió perfectamente y con la que casi todas las herramientas tienen problemas.

Lo particularmente interesante de Whisper es que no es una herramienta dirigida a usuarios finales sino a desarrolladores e investigadores. OpenAI dijo que la razón para abrir los modelos y el código era "servir como base para crear aplicaciones útiles y para más investigaciones sobre el procesamiento robusto del habla." Aún puedes configurarlo y usarlo, pero en realidad no es un producto de consumo. todavía.

Existen varios modelos que puede utilizar al transcribir audio y existen diferentes requisitos de vRAM para cada uno. El modelo más grande requiere 10 GB de vRAM, aunque también es el más preciso. También hay modelos de cada uno solo en inglés, excepto el modelo más grande, lo que debería reducir los requisitos de vRAM si sabes que el contenido que estás transcribiendo está solo en inglés. De cualquier manera, necesitarás un buena GPU con suficiente vRAM para ponerlo en funcionamiento.

Cómo utilizar Whisper de OpenAI

Whisper de OpenAI es una herramienta de código abierto que puedes ejecutar localmente con bastante facilidad siguiendo algunos tutoriales. Si tienes una MacBook, hay algunos pasos más complicados para que funcione, pero no está tan mal, ya que básicamente solo necesitarás compilar un Versión C++ de Whisper de la fuente usted mismo. No es un puerto oficial, pero es la única forma de ejecutarlo de forma nativa en el silicio de Apple. Puede sigue este tutorial en Medium para saber cómo hacerlo.

También puedes ejecutarlo en Google Collab, aunque es más lento, o puedes ejecutarlo localmente si tienes una máquina x86. Solo necesita asegurarse de tener ffmpeg instalado y puede clonar el repositorio de Git en el que se encuentra Whisper y ejecutarlo. Simplemente siga las instrucciones en el Repositorio Whisper Gity podrás configurar Whisper en poco tiempo. Cuanto más potente sea su hardware, mejor, por supuesto, pero se ejecutará básicamente en cualquier cosa con suficiente vRAM, solo que tardará más si su PC es más lenta.