OpenAI's Whisper za vás snadno přepíše cokoli a je to nejlepší přepisovací nástroj, se kterým jsem se zatím setkal.
Existuje několik způsobů, jak přepsat rozhovor nebo video. Mohli byste to udělat ručně, pouze nasloucháním, což vám poskytne nejlepší přesnost, ale trvá to zdaleka nejdéle, nebo můžete použít službu nebo nástroj. Používal jsem například YouTube, nechal jsem jej automaticky vygenerovat titulky, uložit je a upravit je, aby se vyřešily všechny problémy. Nyní existují různé nástroje umělé inteligence, které mohou odvádět vynikající práci, a jedním z takových nástrojů je OpenAI's Whisper.
Abych demonstroval, jak dobře tento nástroj funguje, přepsal jsem soubor nejnovější XDA TV video. Jak můžete vidět níže, přepíše a označí části, které lze snadno použít jako titulky na platformách, jako je YouTube. Funguje to také rychle; Použil jsem jej na svém M1 MacBook Pro k přepisu 10minutového videa za něco málo přes pět a půl minuty.
Tento nástroj mění hru pro tvůrce obsahu, kteří potřebují generovat titulky, lidi, kteří potřebují přepisovat rozhovory nebo jen chtějí převést jakýkoli druh zvuku na text. Jeho přesnost mi přišla neuvěřitelná a nedávno jsem přepsal 25minutový rozhovor, kde nebyla ani jedna věc přepsána špatně. Whisper také umí překládat jazyky v přepsaném zvuku.
Co je Whisper?
Whisper je systém automatického rozpoznávání řeči, který prokazuje neuvěřitelnou přesnost v porozumění mluvenému slovu. Byl vytvořen OpenAI, pravděpodobně pro použití v systémech jako ChatGPT, kde nyní můžete konverzovat s AI, ale společnost také otevřela Whisper, aby jej mohla používat i komunita.
Jak to funguje, je poměrně pokročilé a zahrnuje školení o 680 000 hodinách kontrolovaných dat shromážděných z internetu, z nichž třetina nebyla v angličtině. Zvuk je rozdělen na 30sekundové části, konvertován a poté předán do kodéru a trénovaný dekodér se pokusí předpovědět odpovídající textový titulek. Zde probíhají i další kroky, ale jsou dost technické a zahrnují identifikaci mluveného jazyka, vícejazyčný přepis řeči a překlad do angličtiny.
Pokud jde o srovnání s jinými nástroji, OpenAI říká, že Whisper dělá až o 50 % méně chyb než jiné jazykové modely, a já tomu věřím. V průběhu let jsem používal mnoho nástrojů, abych zkoušel a přepisoval zvuk, a nic pro mě nebylo tak přesné jako Whisper. Jak jsem již zmínil, přepsal jsem 25minutový rozhovor, který vyšel bezchybně, se kterým se potýká téměř každý nástroj.
Jedna věc, která je na Whisperu obzvláště zajímavá, je, že to není nástroj zaměřený na koncové uživatele, ale spíše na vývojáře a výzkumníky. OpenAI uvedla, že důvodem pro open-sourcing modelů a kódu bylo, aby „sloužily jako základ pro vytváření užitečných aplikací a pro další výzkum robustního zpracování řeči." Stále jej můžete nastavit a používat, ale ve skutečnosti to není spotřební produkt dosud.
Existuje několik modelů, které můžete použít při přepisu zvuku, a pro každý z nich existují jiné požadavky na vRAM. Největší model vyžaduje 10 GB paměti vRAM, i když je také nejpřesnější. U každého jsou také modely pouze v angličtině, s výjimkou největšího modelu, který by měl snížit požadavky na vRAM, pokud víte, že obsah, který přepisujete, je pouze v angličtině. V každém případě budete potřebovat a dobrý GPU s dostatkem paměti VRAM, aby se dal zprovoznit.
Jak používat OpenAI's Whisper
Whisper od OpenAI je nástroj s otevřeným zdrojovým kódem, který můžete snadno spustit lokálně podle několika návodů. Pokud máte MacBook, existuje několik spletitějších kroků, jak jej zprovoznit, ale není to tak špatné, protože v podstatě budete potřebovat pouze zkompilovat C++ verze Whisper ze samotného zdroje. Není to oficiální port, ale je to jediný způsob, jak jej přimět k nativnímu běhu na křemíku Apple. Můžeš postupujte podle tohoto návodu na médium, jak to udělat.
Můžete jej také spustit v Google Collab, i když je pomalejší, nebo jej můžete spustit lokálně, pokud máte stroj x86. Musíte se jen ujistit, že máte nainstalovaný ffmpeg, a můžete naklonovat úložiště Git, ve kterém je Whisper, a spustit jej. Jednoduše postupujte podle pokynů v Úložiště Whisper Gita během okamžiku budete moci nastavit Whisper. Čím výkonnější je váš hardware, tím samozřejmě lépe, ale poběží v podstatě na čemkoli s dostatkem paměti vRAM, jen to bude trvat déle, pokud je váš počítač pomalejší.