OpenAIs Whisper er det mest nøyaktige AI-talegjenkjenningsverktøyet vi har prøvd så langt

OpenAIs Whisper vil transkribere alt for deg med letthet, og det er det beste transkripsjonsverktøyet jeg har vært borti.

Det er noen måter å transkribere et intervju eller en video på. Du kan gjøre det for hånd bare ved å lytte, noe som gir deg den beste nøyaktigheten, men tar langt lengst, eller du kan bruke en tjeneste eller et verktøy. For eksempel pleide jeg å bruke YouTube, la det automatisk generere undertekster, lagre disse undertekstene og redigere dem for å fikse alle problemene. Nå er det forskjellige AI-verktøy som kan gjøre en utmerket jobb, og et slikt verktøy er OpenAIs Whisper.

For å demonstrere hvor godt verktøyet fungerer, transkriberte jeg siste XDA TV-video. Som du kan se nedenfor, vil den transkribere og tidsstemple seksjoner, som enkelt kan brukes som undertekster på plattformer som YouTube. Det fungerer raskt også; Jeg brukte den på min M1 MacBook Pro til å transkribere en 10-minutters video på litt over fem og et halvt minutt.

Dette verktøyet er en game-changer for innholdsskapere som trenger å generere undertekster, folk som trenger å transkribere intervjuer, eller som bare ønsker å gjøre alle slags lyd til tekst. Jeg har funnet dens nøyaktighet utrolig, og nylig transkriberte jeg et 25-minutters intervju der ikke en eneste ting ble transkribert feil. Whisper kan også oversette språk i transkribert lyd.

Hva er Whisper?

Whisper er et automatisk talegjenkjenningssystem som viser utrolig nøyaktighet når det gjelder å forstå talte ord. Den ble bygget av OpenAI, antagelig for bruk i systemer som ChatGPT, hvor du kan nå snakke med en AI, men selskapet åpnet også Whisper med åpen kildekode slik at samfunnet også kunne bruke det.

Hvordan det fungerer er ganske avansert, og det innebærer opplæring på 680 000 timer med overvåket data samlet inn fra internett, hvorav en tredjedel ikke var på engelsk. Lyden deles opp i 30 sekunders biter, konverteres og sendes deretter til en koder, og en dekoder som har blitt trent opp vil prøve å forutsi den tilsvarende tekstteksten. Andre trinn finner sted her også, men de er ganske tekniske og involverer identifisering av språket som snakkes, flerspråklig taletranskripsjon og oversettelse til engelsk.

Når det gjelder hvordan det sammenlignes med andre verktøy, sier OpenAI at Whisper gjør opptil 50 % færre feil enn andre språkmodeller, og jeg tror det. Jeg har brukt mange verktøy opp gjennom årene for å prøve å transkribere lyd, og ingenting har vært så nøyaktig som Whisper for meg. Som jeg nevnte, transkriberte jeg et 25-minutters intervju som kom ut feilfritt, som stort sett alle verktøy sliter med.

Det eneste som er spesielt interessant med Whisper er at det ikke er et verktøy rettet mot sluttbrukere, men heller mot utviklere og forskere. OpenAI sa at grunnen til åpen kildekode for modellene og koden var å "tjene som et grunnlag for å bygge nyttige applikasjoner og for videre forskning på robust talebehandling." Du kan fortsatt sette den opp og bruke den, men det er egentlig ikke et forbrukerprodukt ennå.

Det er flere modeller du kan bruke når du transkriberer lyd, og det er forskjellige vRAM-krav for hver. Den største modellen krever 10 GB vRAM, selv om den også er den mest nøyaktige. Det finnes også kun engelske modeller av hver, bortsett fra den største modellen, som bør redusere vRAM-kravene hvis du vet at innholdet du transkriberer kun er på engelsk. Uansett trenger du en god GPU med nok vRAM til å få den i gang.

Hvordan bruke OpenAIs Whisper

Whisper fra OpenAI er et åpen kildekodeverktøy som du kan kjøre lokalt ganske enkelt ved å følge noen få opplæringsprogrammer. Hvis du har en MacBook, er det noen mer innviklede trinn for å få den til å fungere, men det er ikke så ille, siden du i utgangspunktet bare trenger å kompilere en C++ versjon av Whisper fra kilden selv. Det er ikke en offisiell port, men det er den eneste måten å få den til å kjøre på Apple-silisium. Du kan følg denne opplæringen på Medium for hvordan du gjør det.

Du kan også bare kjøre den i Google Collab, selv om den er tregere, eller du kan kjøre den lokalt hvis du har en x86 maskin. Du trenger bare å sørge for at du har installert ffmpeg, og du kan klone Git-depotet som Whisper er i og kjøre det. Bare følg instruksjonene i Whisper Git-depot, og du vil kunne sette opp Whisper på kort tid. Jo kraftigere maskinvaren din er, jo bedre, selvfølgelig, men den vil kjøre på stort sett alt med nok vRAM, bare ta lengre tid hvis PC-en din er tregere.