OpenAI Whisper on kõige täpsem AI kõnetuvastustööriist, mida oleme seni proovinud

OpenAI Whisper transkribeerib teie jaoks kõike hõlpsalt ja see on parim transkriptsioonitööriist, millega olen seni kokku puutunud.

Intervjuu või video transkribeerimiseks on mitu võimalust. Saate seda teha käsitsi, lihtsalt kuulates, mis tagab teile parima täpsuse, kuid võtab kõige kauem aega, või võite kasutada teenust või tööriista. Näiteks kasutasin YouTube'i, lasin sellel automaatselt subtiitreid genereerida, need subtiitrid salvestada ja kõigi probleemide lahendamiseks redigeerida. Nüüd on mitmesuguseid AI-tööriistu, mis saavad suurepärase tööga hakkama, ja üks selline tööriist on OpenAI Whisper.

Et näidata, kui hästi tööriist töötab, transkribeerisin selle uusim XDA TV video. Nagu allpool näete, transkribeerib ja ajatempli jaotisi, mida saab hõlpsasti kasutada subtiitritena platvormidel nagu YouTube. See toimib ka kiiresti; Kasutasin seda oma M1 MacBook Pro-s 10-minutilise video transkribeerimiseks veidi enam kui viie ja poole minutiga.

See tööriist on mängu muutja sisuloojatele, kes peavad looma subtiitreid, inimestele, kes peavad transkribeerima intervjuusid või kes soovivad lihtsalt mis tahes heli tekstiks muuta. Olen pidanud selle täpsust uskumatuks ja hiljuti transkribeerisin 25-minutilise intervjuu, kus ühtegi asja ei transkribeeritud valesti. Whisper suudab ka transkribeeritud heli keeli tõlkida.

Mis on Whisper?

Whisper on automaatne kõnetuvastussüsteem, mis näitab kõneldud sõnade mõistmisel uskumatut täpsust. Selle ehitas OpenAI, arvatavasti kasutamiseks sellistes süsteemides nagu ChatGPT, kus nüüd saab AI-ga vestelda, kuid ettevõte kasutas ka avatud lähtekoodiga Whisperit, et kogukond saaks seda samuti kasutada.

Selle toimimine on üsna arenenud ja hõlmab koolitust 680 000 tunni jooksul Internetist kogutud jälgitavate andmete kohta, millest kolmandik ei olnud inglise keeles. Heli jagatakse 30-sekundilisteks tükkideks, teisendatakse ja suunatakse seejärel kodeerijasse ning väljaõppinud dekooder proovib ennustada vastavat pealkirja. Siin toimuvad ka muud sammud, kuid need on üsna tehnilised ja hõlmavad kõneldava keele tuvastamist, kõne mitmekeelset transkriptsiooni ja tõlkimist inglise keelde.

Mis puutub selle võrdlusesse teiste tööriistadega, siis OpenAI ütleb, et Whisper teeb kuni 50% vähem vigu kui teised keelemudelid, ja ma usun seda. Olen aastate jooksul kasutanud heli transkribeerimiseks palju tööriistu ja miski pole minu jaoks olnud nii täpne kui Whisper. Nagu mainisin, transkribeerisin 25-minutilise intervjuu, mis tuli veatult välja, millega vaevab peaaegu iga tööriist.

Whisperi puhul on eriti huvitav see, et see ei ole mõeldud lõppkasutajatele, vaid pigem arendajatele ja teadlastele. OpenAI ütles, et mudelite ja koodide avatud lähtekoodiga hankimise põhjuseks oli see, et "kasutatakse kasulike rakenduste ja jõulise kõnetöötluse edasiseks uurimiseks." Saate selle siiski seadistada ja kasutada, kuid see pole tegelikult tarbetoode veel.

Heli transkribeerimiseks saate kasutada mitut mudelit ja igaühe jaoks on erinevad vRAM-i nõuded. Suurim mudel nõuab 10 GB vRAM-i, kuigi see on ka kõige täpsem. Samuti on olemas ainult ingliskeelsed mudelid, välja arvatud suurim mudel, mis peaks vähendama vRAM-i nõudeid, kui teate, et transkribeeritav sisu on ainult inglise keeles. Igal juhul vajate a hea GPU piisavalt VRAM-iga, et see tööle panna.

Kuidas kasutada OpenAI Whisperit

OpenAI Whisper on avatud lähtekoodiga tööriist, mida saate mõnda õpetust järgides üsna lihtsalt kohapeal käitada. Kui teil on MacBook, on selle tööle saamiseks mõned keerulisemad sammud, kuid see pole väga halb, sest põhimõtteliselt peate lihtsalt kompileerima Whisperi C++ versioon allikast ise. See ei ole ametlik port, kuid see on ainus viis, kuidas see Apple'i räni baasil töötama. Sa saad järgige seda õpetust kohta Medium, kuidas seda teha.

Saate seda ka lihtsalt käivitada rakenduses Google Collab, kuigi see on aeglasem, või saate seda käitada kohapeal, kui teil on x86 masin. Peate lihtsalt veenduma, et ffmpeg on installitud, ja saate kloonida Giti hoidla, milles Whisper on, ja seda käivitada. Lihtsalt järgige juhiseid Whisper Giti hoidlaja saate Whisperi kohe seadistada. Mida võimsam on teie riistvara, seda parem muidugi, kuid see töötab põhimõtteliselt kõigega, millel on piisavalt vRAM-i, kuid kui teie arvuti on aeglasem, kulub see kauem aega.