„OpenAI's Whisper“ yra tiksliausias AI kalbos atpažinimo įrankis, kurį iki šiol bandėme

click fraud protection

„OpenAI's Whisper“ lengvai transkribuos bet ką, be to, tai yra geriausias transkripcijos įrankis, su kuriuo man teko susidurti.

Yra keletas būdų, kaip transkribuoti interviu ar vaizdo įrašą. Galite tai padaryti ranka tiesiog klausydami, o tai suteiks didžiausią tikslumą, bet užtrunka ilgiausiai, arba galite naudoti paslaugą ar įrankį. Pavyzdžiui, naudojau „YouTube“, leisdavau jai automatiškai generuoti subtitrus, išsaugoti tuos subtitrus ir redaguoti, kad išspręstų visas problemas. Dabar yra įvairių AI įrankių, kurie gali atlikti puikų darbą, ir vienas iš tokių įrankių yra „OpenAI's Whisper“.

Norėdamas parodyti, kaip gerai veikia įrankis, perrašiau naujausias XDA TV vaizdo įrašas. Kaip matote toliau, jis transkribuos ir laiko žymos skyrius, kuriuos galima lengvai naudoti kaip subtitrus tokiose platformose kaip „YouTube“. Jis taip pat veikia greitai; Naudojau jį savo M1 MacBook Pro, kad perrašyčiau 10 minučių trukmės vaizdo įrašą per kiek daugiau nei penkias su puse minutės.

Šis įrankis yra žaidimų keitiklis, skirtas turinio kūrėjams, kuriems reikia generuoti subtitrus, žmonėms, kuriems reikia transkribuoti interviu arba tiesiog norintiems bet kokį garsą paversti tekstu. Man pasirodė neįtikėtinas jo tikslumas ir neseniai perrašiau 25 minučių interviu, kuriame nė vienas dalykas nebuvo perrašytas neteisingai. „Whisper“ taip pat gali išversti kalbas transkribuotame garso įraše.

Kas yra Whisper?

„Whisper“ yra automatinė kalbos atpažinimo sistema, demonstruojanti neįtikėtiną ištartų žodžių supratimo tikslumą. Jį sukūrė „OpenAI“, tikriausiai naudojimui tokiose sistemose kaip ChatGPT, kur dabar galite pasikalbėti su AI, bet įmonė taip pat sukūrė atvirojo kodo „Whisper“, kad bendruomenė taip pat galėtų juo naudotis.

Tai, kaip tai veikia, yra gana pažangi ir apima mokymus apie 680 000 valandų prižiūrimų duomenų, surinktų iš interneto, iš kurių trečdalis buvo ne anglų kalba. Garsas suskaidomas į 30 sekundžių dalis, konvertuojamas ir perduodamas į koduotuvą, o apmokytas dekoderis bandys nuspėti atitinkamą teksto antraštę. Čia taip pat atliekami kiti veiksmai, tačiau jie yra gana techniniai ir apima kalbos, kuria kalbama, nustatymą, daugiakalbę kalbos transkripciją ir vertimą į anglų kalbą.

Kalbant apie jo palyginimą su kitais įrankiais, „OpenAI“ teigia, kad „Whisper“ daro iki 50% mažiau klaidų nei kiti kalbų modeliai, ir aš tuo tikiu. Per daugelį metų naudojau daugybę įrankių, kad bandyčiau transkribuoti garsą, ir man niekas nebuvo taip tikslus kaip Whisper. Kaip jau minėjau, perrašiau 25 minučių trukmės interviu, kuris pasirodė nepriekaištingai, su tuo susiduria beveik kiekvienas įrankis.

Vienas dalykas, ypač įdomus apie Whisper, yra tai, kad tai nėra įrankis, skirtas galutiniams vartotojams, o kūrėjams ir tyrėjams. OpenAI teigė, kad modelių ir kodo atvirojo šaltinio priežastis buvo „tarnauti kaip pagrindas kuriant naudingas programas ir tolesniems tvirto kalbos apdorojimo tyrimams." Vis tiek galite jį nustatyti ir naudoti, bet tai tikrai nėra plataus vartojimo produktas dar.

Yra keli modeliai, kuriuos galite naudoti perrašydami garsą, ir kiekvienam yra skirtingi vRAM reikalavimai. Didžiausiam modeliui reikia 10 GB vRAM, tačiau jis taip pat yra pats tiksliausias. Taip pat yra kiekvieno modelio tik anglų kalba, išskyrus didžiausią modelį, kuris turėtų sumažinti VRAM reikalavimus, jei žinote, kad perrašomas turinys yra tik anglų kalba. Bet kuriuo atveju jums reikės a geras GPU su pakankamai vRAM, kad ji pradėtų veikti.

Kaip naudotis „OpenAI's Whisper“.

„Whisper“ iš „OpenAI“ yra atvirojo kodo įrankis, kurį galite gana lengvai paleisti vietoje, vadovaudamiesi keliomis pamokomis. Jei turite „MacBook“, yra keletas sudėtingesnių veiksmų, kad jis veiktų, tačiau tai nėra labai blogai, nes iš esmės jums tereikia sukompiliuoti C++ Whisper versija pats iš šaltinio. Tai nėra oficialus prievadas, tačiau tai yra vienintelis būdas priversti jį veikti naudojant „Apple“ silicį. Tu gali vadovaukitės šia pamoka „Medium“, kad sužinotumėte, kaip tai padaryti.

Taip pat galite tiesiog paleisti jį naudodami „Google Colab“, nors jis yra lėtesnis, arba galite paleisti vietoje, jei turite x86 mašina. Jums tereikia įsitikinti, kad įdiegėte „ffmpeg“, ir galite klonuoti „Git“ saugyklą, kurioje yra „Whisper“, ir ją paleisti. Tiesiog vykdykite instrukcijas, pateiktas Whisper Git saugykla, ir greitai galėsite nustatyti „Whisper“. Žinoma, kuo galingesnė jūsų aparatinė įranga, tuo geriau, bet ji veiks iš esmės bet kur su pakankamai vRAM, tik užtrunka ilgiau, jei jūsų kompiuteris yra lėtesnis.