OpenAI's Whisper ir precīzākais AI runas atpazīšanas rīks, ko līdz šim esam izmēģinājuši

click fraud protection

OpenAI's Whisper viegli transkribēs jebko, un tas ir labākais transkripcijas rīks, ar kādu esmu saskāries.

Ir daži veidi, kā pārrakstīt interviju vai video. Varat to izdarīt ar roku, vienkārši klausoties, kas nodrošinās vislabāko precizitāti, bet aizņems visilgāko laiku, vai arī varat izmantot pakalpojumu vai rīku. Piemēram, es izmantoju YouTube, ļāvu tam automātiski ģenerēt subtitrus, saglabāt tos un rediģēt tos, lai novērstu visas problēmas. Tagad ir dažādi AI rīki, kas var veikt lielisku darbu, un viens no šādiem rīkiem ir OpenAI's Whisper.

Lai parādītu, cik labi rīks darbojas, es transkribēju jaunākais XDA TV video. Kā redzat tālāk, tajā tiks atšifrētas un laikspiedolu sadaļas, kuras var viegli izmantot kā subtitrus tādās platformās kā YouTube. Tas darbojas arī ātri; Es to izmantoju savā M1 MacBook Pro, lai pārrakstītu 10 minūšu video nedaudz vairāk kā piecarpus minūtēs.

Šis rīks ir spēles mainītājs satura veidotājiem, kuriem jāģenerē subtitri, cilvēkiem, kuriem nepieciešams pārrakstīt intervijas vai kuri vienkārši vēlas pārvērst jebkāda veida audio tekstu. Man šķita, ka tā precizitāte ir neticama, un nesen es pārrakstīju 25 minūšu garu interviju, kurā neviena lieta netika pārrakstīta nepareizi. Whisper var arī tulkot valodas transkribētā audio formātā.

Kas ir Whisper?

Whisper ir automātiska runas atpazīšanas sistēma, kas demonstrē neticamu precizitāti runāto vārdu izpratnē. To izveidoja OpenAI, domājams, izmantošanai tādās sistēmās kā ChatGPT, kur tagad var sarunāties ar AI, bet uzņēmums arī izmantoja atvērtā koda Whisper, lai arī kopiena to varētu izmantot.

Tas, kā tas darbojas, ir diezgan progresīvs, un tas ietver apmācību par 680 000 stundu uzraudzītu datu, kas savākti no interneta, no kuriem trešdaļa nebija angļu valodā. Audio tiek sadalīts 30 sekunžu gabalos, pārveidots un pēc tam pārsūtīts kodētājā, un apmācīts dekodētājs mēģinās paredzēt atbilstošo teksta parakstu. Šeit notiek arī citas darbības, taču tās ir diezgan tehniskas un ietver runas valodas noteikšanu, runas daudzvalodu transkripciju un tulkošanu angļu valodā.

Runājot par salīdzinājumu ar citiem rīkiem, OpenAI saka, ka Whisper pieļauj līdz pat 50% mazāk kļūdu nekā citos valodu modeļos, un es tam ticu. Gadu gaitā esmu izmantojis daudz rīku, lai mēģinātu pārrakstīt audio, un nekas man nav bijis tik precīzs kā Whisper. Kā jau minēju, es pārrakstīju 25 minūšu garu interviju, kas iznāca nevainojami, un gandrīz katrs rīks cīnās ar to.

Viena lieta, kas īpaši interesanta Whisper, ir tā, ka tas nav rīks, kas paredzēts gala lietotājiem, bet gan izstrādātājiem un pētniekiem. OpenAI teica, ka modeļu un koda atklātā avota iegūšanas iemesls bija "kalpot par pamatu noderīgu lietojumprogrammu veidošanai un turpmākiem pētījumiem par spēcīgu runas apstrādi." Jūs joprojām varat to iestatīt un izmantot, taču tas nav īsti patēriņa produkts. vēl.

Ir vairāki modeļi, kurus varat izmantot, pārrakstot audio, un katram ir atšķirīgas vRAM prasības. Lielākais modelis prasa 10 GB vRAM, lai gan tas ir arī visprecīzākais. Katram ir arī modeļi tikai angļu valodā, izņemot lielāko modeli, kam vajadzētu samazināt vRAM prasības, ja zināt, ka saturs, ko transkribējat, ir tikai angļu valodā. Jebkurā gadījumā jums būs nepieciešams a labs GPU ar pietiekami daudz vRAM, lai to varētu sākt un palaist.

Kā lietot OpenAI's Whisper

Whisper no OpenAI ir atvērtā pirmkoda rīks, kuru varat diezgan vienkārši palaist lokāli, izpildot dažas apmācības. Ja jums ir MacBook, ir jāveic dažas sarežģītākas darbības, lai tas darbotos, taču tas nav pārāk slikti, jo būtībā jums būs tikai jāapkopo Whisper C++ versija no paša avota. Tas nav oficiāls ports, taču tas ir vienīgais veids, kā panākt, lai tas darbotos ar Apple silīciju. Jūs varat sekojiet šai apmācībai uz Medium, lai uzzinātu, kā to izdarīt.

Varat arī vienkārši palaist to pakalpojumā Google Collab, lai gan tas ir lēnāks, vai arī varat to palaist lokāli, ja jums ir x86 mašīna. Jums vienkārši jāpārliecinās, vai ir instalēts ffmpeg, un varat klonēt Git repozitoriju, kurā atrodas Whisper, un palaist to. Vienkārši izpildiet norādījumus Whisper Git repozitorijs, un jūs varēsiet ātri iestatīt Whisper. Jo jaudīgāka ir jūsu aparatūra, jo labāk, protams, taču tā darbosies būtībā ar jebko, kam ir pietiekami daudz vRAM, taču tas aizņems ilgāku laiku, ja dators ir lēnāks.