OpenAI: s Whisper är det mest exakta AI-taligenkänningsverktyget vi har provat hittills

OpenAI: s Whisper kommer att transkribera vad som helst för dig med lätthet, och det är det bästa transkriptionsverktyget som jag har stött på överlägset.

Det finns några sätt att transkribera en intervju eller en video. Du kan göra det för hand bara genom att lyssna, vilket ger dig den bästa noggrannheten men tar överlägset längst, eller så kan du använda en tjänst eller ett verktyg. Till exempel brukade jag använda YouTube, lät det generera undertexter automatiskt, spara dessa undertexter och redigera dem för att åtgärda alla problem. Nu finns det olika AI-verktyg som kan göra ett utmärkt jobb, och ett sådant verktyg är OpenAI: s Whisper.

För att visa hur bra verktyget fungerar transkriberade jag senaste XDA TV-video. Som du kan se nedan kommer det att transkribera och tidsstämpla avsnitt, som enkelt kan användas som undertexter på plattformar som YouTube. Det fungerar snabbt också; Jag använde den på min M1 MacBook Pro för att transkribera en 10-minuters video på drygt fem och en halv minut.

Det här verktyget är en spelväxlare för innehållsskapare som behöver generera undertexter, personer som behöver transkribera intervjuer eller som bara vill förvandla alla typer av ljud till text. Jag har tyckt att dess noggrannhet var otrolig, och nyligen transkriberade jag en 25-minuters intervju där inte en enda sak transkriberades felaktigt. Whisper kan också översätta språk i transkriberat ljud.

Vad är Whisper?

Whisper är ett automatiskt taligenkänningssystem som visar otrolig noggrannhet när det gäller att förstå talade ord. Det byggdes av OpenAI, förmodligen för användning i system som ChatGPT, där du kan nu samtala med en AI, men företaget skapade också Whisper med öppen källkod så att samhället också kunde använda det.

Hur det fungerar är ganska avancerat, och det innebär utbildning på 680 000 timmars övervakad data som samlats in från internet, varav en tredjedel inte var på engelska. Ljudet delas upp i 30 sekunders bitar, konverteras och skickas sedan till en kodare, och en avkodare som har tränats kommer att försöka förutsäga motsvarande texttext. Andra steg äger rum här också, men de är ganska tekniska och involverar identifiering av språket som talas, flerspråkig taltranskription och översättning till engelska.

När det gäller hur det kan jämföras med andra verktyg, säger OpenAI att Whisper gör upp till 50 % färre fel än andra språkmodeller, och jag tror det. Jag har använt många verktyg genom åren för att försöka transkribera ljud, och ingenting har varit så exakt som Whisper för mig. Som jag nämnde transkriberade jag en 25-minutersintervju som kom ut felfritt, som i stort sett alla verktyg kämpar med.

En sak som är särskilt intressant med Whisper är att det inte är ett verktyg riktat till slutanvändare utan snarare till utvecklare och forskare. OpenAI sa att anledningen till open-sourcing av modellerna och koden var att "fungera som en grund för att bygga användbara applikationer och för ytterligare forskning om robust talbehandling." Du kan fortfarande ställa in den och använda den, men det är egentligen inte en konsumentprodukt än.

Det finns flera modeller som du kan använda när du transkriberar ljud, och det finns olika vRAM-krav för var och en. Den största modellen kräver 10 GB vRAM, men den är också den mest exakta. Det finns också endast engelska modeller av var och en, förutom den största modellen, vilket borde minska vRAM-kraven om du vet att innehållet som du transkriberar endast är på engelska. Hur som helst, du behöver en bra GPU med tillräckligt med vRAM för att få det igång.

Hur man använder OpenAI: s Whisper

Whisper från OpenAI är ett verktyg med öppen källkod som du kan köra lokalt ganska enkelt genom att följa några handledningar. Om du har en MacBook finns det några mer invecklade steg för att få den att fungera, men det är inte så illa, eftersom du i princip bara behöver kompilera en C++ version av Whisper från källan själv. Det är inte en officiell port, men det är det enda sättet att få den att köras på Apple-kisel. Du kan följ denna handledning på Medium för hur man gör det.

Du kan också bara köra det i Google Collab, även om det är långsammare, eller så kan du köra det lokalt om du har en x86 maskin. Du behöver bara se till att du har ffmpeg installerat, och du kan klona Git-förvaret som Whisper är i och köra det. Följ bara instruktionerna i Whisper Git repository, och du kommer att kunna ställa in Whisper på nolltid. Ju mer kraftfull din hårdvara är, desto bättre, naturligtvis, men den kommer att köras på i princip vad som helst med tillräckligt med vRAM, bara det tar längre tid om din dator är långsammare.