OpenAI's Whisper er det mest nøjagtige AI-talegenkendelsesværktøj, vi har prøvet indtil videre

OpenAI's Whisper transskriberer hvad som helst for dig med lethed, og det er det bedste transskriptionsværktøj, jeg er stødt på.

Der er et par måder at transskribere et interview eller en video på. Du kan gøre det i hånden bare ved at lytte, hvilket giver dig den bedste nøjagtighed, men tager langt længst tid, eller du kan bruge en tjeneste eller et værktøj. For eksempel brugte jeg YouTube, lod det automatisk generere undertekster, gemme disse undertekster og redigere dem for at løse alle problemerne. Nu er der forskellige AI-værktøjer, der kan gøre et fremragende stykke arbejde, og et sådant værktøj er OpenAI's Whisper.

For at demonstrere, hvor godt værktøjet virker, transskriberede jeg seneste XDA TV-video. Som du kan se nedenfor, vil den transskribere og tidsstemple sektioner, som nemt kan bruges som undertekster på platforme som YouTube. Det virker også hurtigt; Jeg brugte den på min M1 MacBook Pro til at transskribere en 10-minutters video på lidt over fem et halvt minut.

Dette værktøj er en game-changer for indholdsskabere, der har brug for at generere undertekster, folk, der skal transskribere interviews, eller som bare ønsker at omdanne enhver form for lyd til tekst. Jeg har fundet dens nøjagtighed utrolig, og for nylig transskriberede jeg et 25-minutters interview, hvor ikke en eneste ting blev transskriberet forkert. Whisper kan også oversætte sprog i transskriberet lyd.

Hvad er Whisper?

Whisper er et automatisk talegenkendelsessystem, der demonstrerer utrolig nøjagtighed i at forstå talte ord. Det blev bygget af OpenAI, formentlig til brug i systemer som ChatGPT, hvor du nu kan tale med en AI, men virksomheden åbnede også Whisper, så samfundet også kunne bruge det.

Hvordan det fungerer, er ret avanceret, og det involverer træning i 680.000 timers overvågede data indsamlet fra internettet, hvoraf en tredjedel ikke var på engelsk. Lyden opdeles i 30 sekunders bidder, konverteres og overføres derefter til en koder, og en dekoder, der er blevet trænet, vil forsøge at forudsige den tilsvarende tekstoverskrift. Andre trin finder også sted her, men de er ret tekniske og involverer identifikation af sproget, der tales, flersproget taletransskription og oversættelse til engelsk.

Med hensyn til hvordan det kan sammenlignes med andre værktøjer, siger OpenAI, at Whisper laver op til 50 % færre fejl end andre sprogmodeller, og jeg tror på det. Jeg har brugt en masse værktøjer gennem årene til at prøve at transskribere lyd, og intet har været så præcist som Whisper for mig. Som jeg nævnte, transskriberede jeg et 25-minutters interview, der kom fejlfrit ud, som stort set alle værktøjer kæmper med.

Den ene ting, der er særlig interessant ved Whisper, er, at det ikke er et værktøj rettet mod slutbrugere, men snarere mod udviklere og forskere. OpenAI sagde, at årsagen til open-sourcing af modellerne og koden var at "tjene som grundlag for at bygge nyttige applikationer og til yderligere forskning i robust talebehandling." Du kan stadig konfigurere det og bruge det, men det er ikke rigtig et forbrugerprodukt endnu.

Der er flere modeller, som du kan bruge, når du transskriberer lyd, og der er forskellige vRAM-krav til hver. Den største model kræver 10 GB vRAM, selvom den også er den mest nøjagtige. Der er også kun engelske modeller af hver, bortset fra den største model, som burde reducere vRAM-kravene, hvis du ved, at indholdet, du transskriberer, kun er på engelsk. Uanset hvad, skal du bruge en god GPU med nok vRAM til at få det op at køre.

Sådan bruger du OpenAI's Whisper

Whisper fra OpenAI er et open source-værktøj, som du ret nemt kan køre lokalt ved at følge et par tutorials. Hvis du har en MacBook, er der nogle mere indviklede trin for at få den til at fungere, men det er ikke så slemt, da du stort set kun skal kompilere en C++ version af Whisper selv fra kilden. Det er ikke en officiel port, men det er den eneste måde at få den til at køre indbygget på Apple silicium. Du kan følg denne vejledning på Medium for, hvordan man gør det.

Du kan også bare køre det i Google Collab, selvom det er langsommere, eller du kan køre det lokalt, hvis du har en x86 maskine. Du skal bare sikre dig, at du har installeret ffmpeg, og du kan klone det Git-lager, som Whisper er i, og køre det. Du skal blot følge instruktionerne i Whisper Git repository, og du vil være i stand til at konfigurere Whisper på ingen tid. Jo mere kraftfuld din hardware er, jo bedre, selvfølgelig, men den vil køre på stort set alt med nok vRAM, det tager bare længere tid, hvis din pc er langsommere.