Whisper d'OpenAI est l'outil de reconnaissance vocale IA le plus précis que nous ayons essayé jusqu'à présent

Whisper d'OpenAI transcrira facilement n'importe quoi pour vous, et c'est de loin le meilleur outil de transcription que j'ai rencontré.

Il existe plusieurs façons de transcrire une interview ou une vidéo. Vous pouvez le faire à la main simplement en écoutant, ce qui vous donnera la meilleure précision mais prend de loin le plus de temps, ou vous pouvez utiliser un service ou un outil. Par exemple, j'utilisais YouTube, je le laissais générer automatiquement des sous-titres, enregistrer ces sous-titres et les modifier pour résoudre tous les problèmes. Il existe désormais divers outils d'IA qui peuvent faire un excellent travail, et l'un de ces outils est Whisper d'OpenAI.

Pour démontrer à quel point l'outil fonctionne bien, j'ai transcrit le vidéo XDA TV la plus récente. Comme vous pouvez le voir ci-dessous, il transcrira et horodatera les sections, qui pourront facilement être utilisées comme sous-titres sur des plateformes comme YouTube. Cela fonctionne également rapidement; Je l'ai utilisé sur mon MacBook Pro M1 pour retranscrire une vidéo de 10 minutes en un peu plus de cinq minutes et demie.

Cet outil change la donne pour les créateurs de contenu qui ont besoin de générer des sous-titres, les personnes qui ont besoin de transcrire des interviews ou qui souhaitent simplement transformer n'importe quel type d'audio en texte. J'ai trouvé sa précision incroyable et récemment, j'ai transcrit une interview de 25 minutes dans laquelle rien n'était transcrit de manière incorrecte. Whisper peut également traduire des langues en audio transcrit.

Qu’est-ce que Whisper?

Whisper est un système de reconnaissance vocale automatique qui démontre une incroyable précision dans la compréhension des mots prononcés. Il a été construit par OpenAI, probablement pour être utilisé dans des systèmes comme ChatGPT, où vous pouvez maintenant converser avec une IA, mais la société a également ouvert Whisper afin que la communauté puisse également l'utiliser.

Son fonctionnement est assez poussé, et il s'agit d'une formation sur 680 000 heures de données supervisées collectées sur internet, dont un tiers n'était pas en anglais. L'audio est divisé en morceaux de 30 secondes, convertis, puis transmis à un encodeur, et un décodeur entraîné tentera de prédire la légende du texte correspondante. D'autres étapes ont également lieu ici, mais elles sont assez techniques et impliquent l'identification de la langue parlée, la transcription vocale multilingue et la traduction en anglais.

En ce qui concerne la comparaison avec d'autres outils, OpenAI affirme que Whisper fait jusqu'à 50 % d'erreurs en moins que les autres modèles de langage, et je le crois. J'ai utilisé de nombreux outils au fil des ans pour essayer de transcrire l'audio, et rien n'a été aussi précis que Whisper pour moi. Comme je l'ai mentionné, j'ai transcrit une interview de 25 minutes qui s'est parfaitement déroulée, avec laquelle presque tous les outils ont du mal.

Ce qui est particulièrement intéressant avec Whisper, c'est qu'il ne s'agit pas d'un outil destiné aux utilisateurs finaux mais plutôt aux développeurs et aux chercheurs. OpenAI a déclaré que la raison de l'open source des modèles et du code était de « servir de base pour créer des applications et des applications utiles ». pour des recherches plus approfondies sur un traitement vocal robuste. " Vous pouvez toujours le configurer et l'utiliser, mais ce n'est pas vraiment un produit de consommation encore.

Il existe plusieurs modèles que vous pouvez utiliser lors de la transcription audio, et les exigences en matière de vRAM sont différentes pour chacun. Le plus grand modèle nécessite 10 Go de vRAM, mais c'est aussi le plus précis. Il existe également des modèles de chacun uniquement en anglais, à l'exception du plus grand modèle, ce qui devrait réduire les besoins en vRAM si vous savez que le contenu que vous transcrivez est uniquement en anglais. Quoi qu'il en soit, vous aurez besoin d'un bon GPU avec suffisamment de vRAM pour le rendre opérationnel.

Comment utiliser Whisper d'OpenAI

Whisper d'OpenAI est un outil open source que vous pouvez exécuter localement assez facilement en suivant quelques tutoriels. Si vous avez un MacBook, il y a quelques étapes plus compliquées pour le faire fonctionner, mais ce n'est pas trop mal, car il vous suffira simplement de compiler un fichier. Version C++ de Whisper de la source vous-même. Ce n'est pas un port officiel, mais c'est le seul moyen de le faire fonctionner nativement sur le silicium Apple. Tu peux suivez ce tutoriel sur Medium pour savoir comment procéder.

Vous pouvez également simplement l'exécuter dans Google Collab, même si c'est plus lent, ou vous pouvez l'exécuter localement si vous disposez d'un ordinateur x86. Vous devez simplement vous assurer que ffmpeg est installé et vous pouvez cloner le référentiel Git dans lequel se trouve Whisper et l'exécuter. Suivez simplement les instructions dans le Dépôt Git Whisper, et vous pourrez configurer Whisper en un rien de temps. Plus votre matériel est puissant, mieux c'est, bien sûr, mais il fonctionnera sur pratiquement tout ce qui dispose de suffisamment de vRAM, ce qui prendra juste plus de temps si votre PC est plus lent.