Whisper van OpenAI is de meest nauwkeurige AI-spraakherkenningstool die we tot nu toe hebben geprobeerd

Whisper van OpenAI zal alles gemakkelijk voor je transcriberen, en het is veruit de beste transcriptietool die ik ben tegengekomen.

Er zijn een aantal manieren om een ​​interview of video te transcriberen. U kunt dit met de hand doen door gewoon te luisteren, wat u de beste nauwkeurigheid geeft, maar veruit het langst duurt, of u kunt een dienst of hulpmiddel gebruiken. Ik gebruikte bijvoorbeeld YouTube, liet het automatisch ondertitels genereren, die ondertitels opslaan en bewerken om alle problemen op te lossen. Nu zijn er verschillende AI-tools die uitstekend werk kunnen leveren, en een van die tools is Whisper van OpenAI.

Om te demonstreren hoe goed de tool werkt, heb ik het meest recente XDA TV-video. Zoals je hieronder kunt zien, worden secties getranscribeerd en voorzien van een tijdstempel, die gemakkelijk kunnen worden gebruikt als ondertiteling op platforms zoals YouTube. Het werkt ook snel; Ik gebruikte het op mijn M1 MacBook Pro om een ​​video van 10 minuten in iets meer dan vijf en een halve minuut te transcriberen.

Deze tool is een game-changer voor makers van inhoud die ondertitels moeten genereren, mensen die interviews moeten transcriberen of die gewoon elk soort audio in tekst willen omzetten. Ik vond de nauwkeurigheid ervan ongelooflijk, en onlangs heb ik een interview van 25 minuten getranscribeerd waarin geen enkel ding verkeerd werd getranscribeerd. Whisper kan ook talen vertalen in getranscribeerde audio.

Wat is fluisteren?

Whisper is een automatisch spraakherkenningssysteem dat een ongelooflijke nauwkeurigheid vertoont bij het begrijpen van gesproken woorden. Het is gebouwd door OpenAI, vermoedelijk voor gebruik in systemen zoals ChatGPT, waar je nu kunt praten met een AI, maar het bedrijf heeft Whisper ook open source gemaakt, zodat de gemeenschap er ook gebruik van kan maken.

De werking ervan is redelijk geavanceerd en omvat training op basis van 680.000 uur aan gecontroleerde gegevens verzameld via internet, waarvan een derde niet in het Engels. Audio wordt opgesplitst in brokken van 30 seconden, geconverteerd en vervolgens doorgegeven aan een encoder, en een getrainde decoder zal proberen het bijbehorende tekstbijschrift te voorspellen. Hier vinden ook andere stappen plaats, maar deze zijn behoorlijk technisch en omvatten het identificeren van de taal die wordt gesproken, meertalige spraaktranscriptie en vertaling naar het Engels.

Wat betreft de vergelijking met andere tools zegt OpenAI dat Whisper tot 50% minder fouten maakt dan andere taalmodellen, en dat geloof ik. Ik heb door de jaren heen veel tools gebruikt om audio te transcriberen, en niets was voor mij zo nauwkeurig als Whisper. Zoals ik al zei, heb ik een interview van 25 minuten getranscribeerd dat vlekkeloos uitkwam, waar vrijwel elke tool moeite mee heeft.

Het enige dat bijzonder interessant is aan Whisper is dat het geen tool is die gericht is op eindgebruikers, maar eerder op ontwikkelaars en onderzoekers. OpenAI zei dat de reden voor het open sourcen van de modellen en code was om "te dienen als basis voor het bouwen van nuttige applicaties en... voor verder onderzoek naar robuuste spraakverwerking." Je kunt het nog steeds instellen en gebruiken, maar het is niet echt een consumentenproduct nog.

Er zijn meerdere modellen die u kunt gebruiken bij het transcriberen van audio, en voor elk model gelden verschillende vRAM-vereisten. Het grootste model vereist 10 GB vRAM, maar is ook het meest nauwkeurig. Er zijn ook modellen die alleen in het Engels zijn, behalve het grootste model, wat de vRAM-vereisten zou moeten verminderen als je weet dat de inhoud die je transcribeert alleen in het Engels is. Hoe dan ook, je hebt een goede GPU met voldoende vRAM om het werkend te krijgen.

Hoe u Whisper van OpenAI gebruikt

Whisper van OpenAI is een open-sourcetool die u vrij eenvoudig lokaal kunt uitvoeren door een paar tutorials te volgen. Als je een MacBook hebt, zijn er wat ingewikkeldere stappen om hem werkend te krijgen, maar dat is niet zo erg, omdat je eigenlijk alleen maar een C++-versie van Whisper zelf bij de bron. Het is geen officiële port, maar het is de enige manier om het native op Apple Silicon te laten werken. Jij kan volg deze tutorial op Medium voor hoe u dat kunt doen.

Je kunt het ook gewoon in Google Collab uitvoeren, hoewel het langzamer is, of je kunt het lokaal uitvoeren als je een x86-machine. Je hoeft er alleen maar voor te zorgen dat ffmpeg is geïnstalleerd, en je kunt de Git-repository waarin Whisper zich bevindt, klonen en uitvoeren. Volg gewoon de instructies in de Whisper Git-repositoryen je kunt Whisper in een mum van tijd instellen. Hoe krachtiger je hardware is, hoe beter natuurlijk, maar het werkt op vrijwel alles met voldoende vRAM, maar het duurt alleen langer als je pc langzamer is.