OpenAI Whisper je najpresnejší nástroj na rozpoznávanie reči AI, aký sme doteraz vyskúšali

click fraud protection

OpenAI Whisper pre vás ľahko prepíše čokoľvek a je to najlepší prepisovací nástroj, s ktorým som sa doteraz stretol.

Existuje niekoľko spôsobov, ako prepísať rozhovor alebo video. Môžete to urobiť ručne len počúvaním, čo vám poskytne najlepšiu presnosť, ale trvá to ďaleko najdlhšie, alebo môžete použiť službu alebo nástroj. Napríklad som používal YouTube, nechal som ho automaticky vygenerovať titulky, uložiť ich a upraviť ich, aby som vyriešil všetky problémy. Teraz existujú rôzne nástroje AI, ktoré môžu robiť vynikajúcu prácu, a jedným z takýchto nástrojov je OpenAI's Whisper.

Aby som demonštroval, ako dobre tento nástroj funguje, prepísal som súbor najnovšie XDA TV video. Ako môžete vidieť nižšie, prepíše a označí časti, ktoré sa dajú ľahko použiť ako titulky na platformách ako YouTube. Funguje tiež rýchlo; Použil som ho na svojom M1 MacBook Pro na prepis 10-minútového videa za niečo vyše päť a pol minúty.

Tento nástroj mení hru pre tvorcov obsahu, ktorí potrebujú generovať titulky, ľudí, ktorí potrebujú prepisovať rozhovory alebo len chcú premeniť akýkoľvek druh zvuku na text. Zistil som, že jeho presnosť je neuveriteľná a nedávno som prepísal 25-minútový rozhovor, kde ani jedna vec nebola prepísaná nesprávne. Whisper dokáže prekladať jazyky aj v prepisovanom zvuku.

Čo je Whisper?

Whisper je systém automatického rozpoznávania reči, ktorý demonštruje neuveriteľnú presnosť v chápaní hovorených slov. Bol vytvorený OpenAI, pravdepodobne na použitie v systémoch ako ChatGPT, kde teraz môžete konverzovať s AI, ale spoločnosť tiež otvorila Whisper, aby ho mohla používať aj komunita.

Ako to funguje, je pomerne pokročilé a zahŕňa školenie o 680 000 hodinách kontrolovaných údajov zozbieraných z internetu, z ktorých tretina nebola v angličtine. Zvuk je rozdelený na 30-sekundové časti, konvertovaný a potom odovzdaný do kódovača a natrénovaný dekodér sa pokúsi predpovedať zodpovedajúci textový titulok. Uskutočňujú sa tu aj ďalšie kroky, ale sú dosť technické a zahŕňajú identifikáciu jazyka, ktorým sa hovorí, viacjazyčný prepis reči a preklad do angličtiny.

Pokiaľ ide o porovnanie s inými nástrojmi, OpenAI hovorí, že Whisper robí až o 50% menej chýb ako iné jazykové modely a ja tomu verím. V priebehu rokov som na pokusy a prepis zvuku použil veľa nástrojov a nič pre mňa nebolo také presné ako Whisper. Ako som už spomenul, prepísal som 25-minútový rozhovor, ktorý vyšiel bezchybne, s čím zápasí takmer každý nástroj.

Jedna vec, ktorá je na Whisper obzvlášť zaujímavá, je, že to nie je nástroj zameraný na koncových používateľov, ale skôr na vývojárov a výskumníkov. OpenAI uviedla, že dôvodom pre open-sourcing modelov a kódu bolo „slúžiť ako základ pre vytváranie užitočných aplikácií a pre ďalší výskum robustného spracovania reči." Stále ho môžete nastaviť a používať, ale v skutočnosti to nie je spotrebný produkt ešte.

Existuje viacero modelov, ktoré môžete použiť pri prepise zvuku, a pre každý existujú iné požiadavky na vRAM. Najväčší model vyžaduje 10 GB pamäte vRAM, aj keď je tiež najpresnejší. Existujú aj modely každého z nich iba v angličtine, s výnimkou najväčšieho modelu, ktorý by mal znížiť požiadavky na pamäť RAM, ak viete, že obsah, ktorý prepisujete, je iba v angličtine. V každom prípade budete potrebovať a dobrý GPU s dostatočnou pamäťou VRAM na jeho uvedenie do prevádzky.

Ako používať OpenAI's Whisper

Whisper od OpenAI je nástroj s otvoreným zdrojovým kódom, ktorý môžete ľahko spustiť lokálne podľa niekoľkých návodov. Ak máte MacBook, existuje niekoľko spletitejších krokov na jeho fungovanie, ale nie je to také zlé, pretože v podstate budete musieť zostaviť C++ verzia Whisper zo zdroja sami. Nie je to oficiálny port, ale je to jediný spôsob, ako ho natívne spustiť na kremíku Apple. Môžeš postupujte podľa tohto návodu na médiu, ako to urobiť.

Môžete ho tiež spustiť v službe Google Collab, aj keď je to pomalšie, alebo ho môžete spustiť lokálne, ak máte stroj x86. Musíte sa len uistiť, že máte nainštalovaný ffmpeg, a môžete naklonovať úložisko Git, v ktorom je Whisper, a spustiť ho. Jednoducho postupujte podľa pokynov v Úložisko Whisper Gita Whisper budete môcť nastaviť okamžite. Čím výkonnejší je váš hardvér, tým lepšie, samozrejme, ale pobeží v podstate na čomkoľvek s dostatočnou pamäťou vRAM, akurát to bude trvať dlhšie, ak je váš počítač pomalší.