OpenAI: n Whisper on tarkin tekoälyn puheentunnistustyökalu, jota olemme tähän mennessä kokeilleet

OpenAI: n Whisper litteroi mitä tahansa helposti, ja se on paras transkriptiotyökalu, jonka olen koskaan tavannut.

On olemassa muutamia tapoja litteroida haastattelu tai video. Voit tehdä sen käsin vain kuuntelemalla, mikä antaa sinulle parhaan tarkkuuden, mutta kestää ylivoimaisesti pisimmän, tai voit käyttää palvelua tai työkalua. Käytin esimerkiksi YouTubea, annoin sen luoda automaattisesti tekstityksiä, tallentaa ne ja muokata niitä korjataksesi kaikki ongelmat. Nyt on olemassa useita tekoälytyökaluja, jotka voivat tehdä erinomaista työtä, ja yksi tällainen työkalu on OpenAI: n Whisper.

Osoittaakseni, kuinka hyvin työkalu toimii, litteroin sen uusin XDA TV -video. Kuten alta näet, se litteroi ja leimaa osiot, joita voidaan helposti käyttää tekstityksenä YouTuben kaltaisilla alustoilla. Se toimii myös nopeasti; Käytin sitä M1 MacBook Prossani litteroimaan 10 minuutin videon hieman yli viidessä ja puolessa minuutissa.

Tämä työkalu on pelin muuttaja sisällöntuottajille, jotka tarvitsevat tekstityksiä, henkilöille, joiden on litteroitava haastatteluja tai jotka haluavat vain muuttaa minkä tahansa äänen tekstiksi. Olen kokenut sen tarkkuuden uskomattomaksi, ja äskettäin litteroin 25 minuutin haastattelun, jossa yhtäkään asiaa ei kirjoitettu väärin. Whisper voi myös kääntää kieliä transkriboidussa äänessä.

Mikä on Whisper?

Whisper on automaattinen puheentunnistusjärjestelmä, joka osoittaa uskomattoman tarkkuuden puhuttujen sanojen ymmärtämisessä. Sen rakensi OpenAI, oletettavasti käytettäväksi sellaisissa järjestelmissä kuin ChatGPT, missä voit nyt keskustella tekoälyn kanssa, mutta yritys käytti myös avoimen lähdekoodin Whisperiä, jotta myös yhteisö voisi käyttää sitä.

Toimintatapa on melko edistynyt, ja siihen sisältyy koulutusta 680 000 tunnin ajan Internetistä kerätystä valvotusta datasta, joista kolmasosa ei ollut englanninkielistä. Ääni jaetaan 30 sekunnin osiin, muunnetaan ja siirretään sitten kooderiin, ja koulutettu dekooderi yrittää ennustaa vastaavan tekstin. Myös muita vaiheita tapahtuu täällä, mutta ne ovat melko teknisiä ja sisältävät puhutun kielen tunnistamisen, monikielisen puheen transkription ja kääntämisen englanniksi.

Mitä tulee muihin työkaluihin verrattuna, OpenAI sanoo, että Whisper tekee jopa 50 % vähemmän virheitä kuin muut kielimallit, ja uskon sen. Olen vuosien varrella käyttänyt monia työkaluja äänen litteroimiseen, eikä mikään ole ollut minulle yhtä tarkkaa kuin Whisper. Kuten mainitsin, litteroin 25 minuutin haastattelun, joka tuli virheettömästi, minkä kanssa melkein kaikki työkalut kamppailevat.

Yksi erityisen kiinnostava asia Whisperissä on, että se ei ole loppukäyttäjille suunnattu työkalu, vaan pikemminkin kehittäjille ja tutkijoille. OpenAI sanoi, että mallien ja koodin avoimen lähdekoodin syynä oli "toimia perustana hyödyllisten sovellusten rakentamiselle ja vankan puheenkäsittelyn lisätutkimuksia varten." Voit silti määrittää sen ja käyttää sitä, mutta se ei todellakaan ole kuluttajatuote vielä.

On olemassa useita malleja, joita voit käyttää äänen transkriptiossa, ja jokaiselle on eri vRAM-vaatimukset. Suurin malli vaatii 10 Gt vRAM-muistia, vaikka se on myös tarkin. Jokaisesta on myös vain englanninkielisiä malleja, paitsi suurin malli, jonka pitäisi vähentää vRAM-vaatimuksia, jos tiedät, että kopioitava sisältö on vain englanniksi. Joka tapauksessa tarvitset a hyvä GPU jossa on tarpeeksi vRAM-muistia, jotta se saadaan käyntiin.

Kuinka käyttää OpenAI: n Whisperiä

OpenAI: n Whisper on avoimen lähdekoodin työkalu, jota voit käyttää paikallisesti melko helposti seuraamalla muutamia opetusohjelmia. Jos sinulla on MacBook, on joitakin mutkikkaampia vaiheita saada se toimimaan, mutta se ei ole paha, koska sinun on periaatteessa vain käännettävä Whisperin C++-versio itse lähteestä. Se ei ole virallinen portti, mutta se on ainoa tapa saada se toimimaan natiivisti Applen piillä. Sinä pystyt seuraa tätä opetusohjelmaa Mediumissa, kuinka se tehdään.

Voit myös suorittaa sen Google Collabissa, vaikka se on hitaampi, tai voit suorittaa sen paikallisesti, jos sinulla on x86 kone. Sinun tarvitsee vain varmistaa, että sinulla on ffmpeg asennettuna, ja voit kloonata Whisperin olevan Git-arkiston ja käyttää sitä. Seuraa vain ohjeita Whisper Git -arkisto, ja voit ottaa Whisperin käyttöön hetkessä. Mitä tehokkaampi laitteistosi on, sitä parempi tietysti, mutta se toimii periaatteessa millä tahansa riittävällä vRAM-muistilla, mutta kestää vain kauemmin, jos tietokoneesi on hitaampi.