OpenAI's Whisper je najbolj natančno orodje za prepoznavanje govora z umetno inteligenco, kar smo jih preizkusili doslej

OpenAI's Whisper vam bo z lahkoto prepisal karkoli in je najboljše orodje za prepisovanje, kar sem jih kdaj srečal.

Intervju ali videoposnetek lahko prepišete na več načinov. To lahko storite ročno, samo s poslušanjem, kar vam bo dalo najboljšo natančnost, a traja daleč najdlje, ali pa uporabite storitev ali orodje. Včasih sem na primer uporabljal YouTube, pustil, da samodejno ustvari podnapise, shranil te podnapise in jih uredil, da bi rešil vse težave. Zdaj obstajajo različna orodja AI, ki lahko odlično opravijo delo, in eno takih orodij je Whisper podjetja OpenAI.

Da pokažem, kako dobro orodje deluje, sem prepisal najnovejši XDA TV video. Kot lahko vidite spodaj, bo prepisal in odseke s časovnim žigom, ki jih je mogoče preprosto uporabiti kot podnapise na platformah, kot je YouTube. Deluje tudi hitro; Uporabil sem ga na svojem M1 MacBook Pro za prepis 10-minutnega videa v nekaj več kot petih minutah in pol.

To orodje spremeni igro za ustvarjalce vsebine, ki morajo ustvariti podnapise, ljudi, ki morajo prepisati intervjuje, ali ki želijo preprosto spremeniti kakršen koli zvok v besedilo. Ugotovil sem, da je njegova natančnost neverjetna in pred kratkim sem prepisal 25-minutni intervju, kjer niti ena stvar ni bila napačno prepisana. Whisper lahko prevede tudi jezike v prepisanem zvoku.

Kaj je Whisper?

Whisper je avtomatski sistem za prepoznavanje govora, ki izkazuje neverjetno natančnost pri razumevanju izgovorjenih besed. Izdelal ga je OpenAI, domnevno za uporabo v sistemih, kot je ChatGPT, kjer lahko zdaj pogovarjajte se z AI, vendar je podjetje odprlo tudi Whisper, da ga lahko uporablja tudi skupnost.

Kako deluje, je dokaj napreden in vključuje usposabljanje na 680.000 urah nadzorovanih podatkov, zbranih iz interneta, od katerih tretjina ni bila v angleščini. Zvok je razdeljen na 30-sekundne dele, pretvorjen in nato posredovan v kodirnik in dekodirnik, ki je bil usposobljen, bo poskušal predvideti ustrezen besedilni napis. Tu potekajo tudi drugi koraki, vendar so precej tehnični in vključujejo identifikacijo jezika, ki se govori, večjezični prepis govora in prevod v angleščino.

Kar zadeva primerjavo z drugimi orodji, OpenAI pravi, da Whisper naredi do 50 % manj napak kot drugi jezikovni modeli, in temu verjamem. V preteklih letih sem uporabil veliko orodij, da bi poskušal prepisati zvok, in nič mi ni bilo tako natančno kot Whisper. Kot sem že omenil, sem prepisal 25-minutni intervju, ki je izšel brezhibno, s čimer se spopada skoraj vsako orodje.

Edina stvar, ki je posebej zanimiva pri Whisperju, je, da ni orodje, namenjeno končnim uporabnikom, ampak bolj razvijalcem in raziskovalcem. OpenAI je dejal, da je razlog za odprtokodno uporabo modelov in kode ta, da "služijo kot temelj za izdelavo uporabnih aplikacij in za nadaljnje raziskave robustne obdelave govora." Še vedno ga lahko nastavite in uporabljate, vendar v resnici ni potrošniški izdelek še.

Obstaja več modelov, ki jih lahko uporabite pri prepisovanju zvoka, in za vsakega obstajajo različne zahteve za vRAM. Največji model zahteva 10 GB vRAM-a, čeprav je tudi najbolj natančen. Obstajajo tudi samo angleški modeli vsakega, razen največjega modela, ki bi moral zmanjšati zahteve za vRAM, če veste, da je vsebina, ki jo prepisujete, samo v angleščini. V vsakem primeru boste potrebovali dober GPU z dovolj vRAM-a, da lahko začne delovati.

Kako uporabljati OpenAI's Whisper

Whisper iz OpenAI je odprtokodno orodje, ki ga lahko precej enostavno zaženete lokalno, tako da sledite nekaj vadnicam. Če imate MacBook, obstaja nekaj bolj zapletenih korakov, da bo deloval, vendar ni tako slabo, saj boste morali v bistvu samo prevesti C++ različica Whisperja od samega vira. To ni uradna vrata, vendar je to edini način, da poskrbite za izvorno delovanje na Applovem siliciju. Ti lahko sledite tej vadnici na Medium, kako to storiti.

Lahko ga zaženete tudi v Google Collab, čeprav je počasnejši, ali pa ga zaženete lokalno, če imate stroj x86. Prepričati se morate le, da imate nameščen ffmpeg, in lahko klonirate repozitorij Git, v katerem je Whisper, in ga zaženete. Preprosto sledite navodilom v Repozitorij Whisper Gitin v hipu boste lahko nastavili Whisper. Zmogljivejša kot je vaša strojna oprema, boljša je seveda, vendar bo delovala na skoraj vseh napravah z dovolj vRAM-a, le da bo trajalo dlje, če je vaš računalnik počasnejši.