OpenAI-jev Whisper najprecizniji je alat za prepoznavanje govora pomoću umjetne inteligencije koji smo dosad isprobali

OpenAI-jev Whisper s lakoćom će prepisati sve za vas i to je dosad najbolji alat za prepisivanje na koji sam naišao.

Postoji nekoliko načina transkripcije intervjua ili videa. Možete to učiniti ručno samo slušajući, što će vam dati najbolju točnost, ali traje daleko najdulje, ili možete koristiti uslugu ili alat. Na primjer, koristio sam YouTube, dopustio mu da automatski generira titlove, spremio te titlove i uredio ih kako bih riješio sve probleme. Sada postoje razni AI alati koji mogu obaviti izvrstan posao, a jedan takav alat je OpenAI-jev Whisper.

Da bih pokazao koliko dobro alat radi, prepisao sam najnoviji XDA TV video. Kao što možete vidjeti u nastavku, transkribirat će odjeljke s vremenskom oznakom, koji se lako mogu koristiti kao titlovi na platformama poput YouTubea. Djeluje također brzo; Koristio sam ga na svom M1 MacBook Prou ​​za transkripciju 10-minutnog videa za nešto više od pet i pol minuta.

Ovaj alat mijenja pravila igre za kreatore sadržaja koji trebaju generirati titlove, ljude koji trebaju transkribirati intervjue ili koji jednostavno žele bilo koju vrstu zvuka pretvoriti u tekst. Smatram njegovu točnost nevjerojatnom, a nedavno sam transkribirao 25-minutni intervju u kojem niti jedna stvar nije bila krivo transkribirana. Whisper također može prevoditi jezike u transkribiranom zvuku.

Što je Whisper?

Whisper je sustav za automatsko prepoznavanje govora koji pokazuje nevjerojatnu točnost u razumijevanju izgovorenih riječi. Izgradio ga je OpenAI, vjerojatno za korištenje u sustavima poput ChatGPT, gdje sada možete razgovarati s AI, ali tvrtka je također otvorila Whisper kako bi ga zajednica mogla koristiti.

Način na koji funkcionira prilično je napredan i uključuje obuku na 680 000 sati nadziranih podataka prikupljenih s interneta, od kojih trećina nije bila na engleskom jeziku. Zvuk se dijeli na dijelove od 30 sekundi, pretvara, a zatim prosljeđuje u koder, a dekoder koji je uvježban pokušat će predvidjeti odgovarajući tekstualni naslov. Ovdje se također odvijaju i drugi koraci, ali oni su prilično tehnički i uključuju identifikaciju jezika koji se govori, višejezičnu transkripciju govora i prijevod na engleski.

Što se tiče usporedbe s drugim alatima, OpenAI kaže da Whisper čini do 50% manje pogrešaka od drugih jezičnih modela, i ja u to vjerujem. Tijekom godina koristio sam mnogo alata da pokušam transkribirati zvuk i ništa mi nije bilo tako precizno kao Whisper. Kao što sam spomenuo, prepisao sam 25-minutni intervju koji je ispao besprijekoran, s čime se gotovo svaki alat muči.

Jedna stvar koja je posebno zanimljiva kod Whispera je da to nije alat namijenjen krajnjim korisnicima, već programerima i istraživačima. OpenAI je rekao da je razlog otvaranja modela i koda bio da "posluže kao temelj za izgradnju korisnih aplikacija i za daljnje istraživanje o robusnoj obradi govora." Još uvijek ga možete postaviti i koristiti, ali to zapravo nije potrošački proizvod još.

Postoji više modela koje možete koristiti prilikom transkripcije zvuka, a za svaki postoje različiti zahtjevi za vRAM. Najveći model zahtijeva 10 GB vRAM-a, iako je i najprecizniji. Postoje i modeli samo na engleskom jeziku za svaki, osim najvećeg modela, koji bi trebao smanjiti zahtjeve za vRAM ako znate da je sadržaj koji transkribirate samo na engleskom. U svakom slučaju, trebat će vam dobar GPU s dovoljno vRAM-a da se pokrene.

Kako koristiti OpenAI's Whisper

Whisper iz OpenAI-ja je alat otvorenog koda koji možete pokrenuti lokalno prilično jednostavno slijedeći nekoliko vodiča. Ako imate MacBook, postoje neki zamršeniji koraci kako biste ga pokrenuli, ali nije tako loše, jer ćete u osnovi samo morati kompajlirati C++ verzija Whispera od samog izvora. To nije službeni port, ali to je jedini način da se nativno pokrene na Apple siliciju. Možeš slijedite ovaj vodič na Medium kako to učiniti.

Također ga možete samo pokrenuti u Google Collabu, iako je sporiji, ili ga možete pokrenuti lokalno ako imate x86 stroj. Samo trebate biti sigurni da imate instaliran ffmpeg i možete klonirati Git repozitorij u kojem se nalazi Whisper i pokrenuti ga. Jednostavno slijedite upute u Whisper Git repozitorij, i moći ćete postaviti Whisper u tren oka. Što je snažniji vaš hardver, to je, naravno, bolje, ali radit će u osnovi na bilo čemu s dovoljno vRAM-a, samo će trebati dulje ako je vaše računalo sporije.