Az OpenAI Whisper a legpontosabb mesterséges intelligencia beszédfelismerő eszköz, amit eddig kipróbáltunk

Az OpenAI Whisperje bármit könnyedén átír, és ez a legjobb átírási eszköz, amivel eddig találkoztam.

Többféleképpen is átírhat egy interjút vagy egy videót. Megteheti kézzel, pusztán hallgatással, ami a legjobb pontosságot biztosítja, de messze a leghosszabb ideig tart, vagy használhat egy szolgáltatást vagy eszközt. Például régebben a YouTube-ot használtam, hagytam, hogy automatikusan generáljon feliratokat, mentse a feliratokat, és szerkessze őket, hogy megoldja az összes problémát. Jelenleg számos mesterséges intelligencia-eszköz létezik, amelyek kiváló munkát végezhetnek, és az egyik ilyen eszköz az OpenAI Whisper.

Hogy bemutassam, milyen jól működik az eszköz, átírtam a a legújabb XDA TV videó. Amint alább látható, átírja és időbélyegzi a szakaszokat, amelyek könnyen használhatók feliratként olyan platformokon, mint a YouTube. Gyorsan működik is; Az M1 MacBook Pro gépemen egy 10 perces videó átírására használtam alig több mint öt és fél perc alatt.

Ez az eszköz játékmódot jelent azoknak a tartalomkészítőknek, akiknek feliratokat kell készíteniük, azoknak, akiknek interjúkat kell átírniuk, vagy akik csak bármilyen hanganyagot szeretnének szöveggé alakítani. Hihetetlennek találtam a pontosságát, és nemrégiben átírtam egy 25 perces interjút, ahol egyetlen dolgot sem írtak át rosszul. A Whisper képes lefordítani a nyelveket átírt hanganyagban is.

Mi az a Whisper?

A Whisper egy automatikus beszédfelismerő rendszer, amely hihetetlen pontosságot mutat a kimondott szavak megértésében. Az OpenAI építette, feltehetően olyan rendszerekben való használatra, mint pl ChatGPT, ahol most lehet beszélgetni egy MI-vel, de a cég nyílt forráskódú Whispert is készített, hogy a közösség is használhassa.

A működése meglehetősen fejlett, és 680 000 órányi, az internetről gyűjtött felügyelt adattal kapcsolatos képzést foglal magában, amelyek egyharmada nem angol nyelvű. A hangot 30 másodperces darabokra osztják, átalakítják, majd egy kódolóba továbbítják, és egy betanított dekóder megpróbálja megjósolni a megfelelő szöveges feliratot. Más lépések itt is zajlanak, de ezek meglehetősen technikai jellegűek, és magukban foglalják a beszélt nyelv azonosítását, többnyelvű beszédátírást és angolra fordítást.

Ami a többi eszközhöz való viszonyítását illeti, az OpenAI azt mondja, hogy a Whisper akár 50%-kal kevesebb hibát követ el, mint más nyelvi modellek, és én el is hiszem. Az évek során rengeteg eszközt használtam a hangok átírására, és semmi sem volt olyan pontos, mint a Whisper. Mint említettem, egy 25 perces interjút írtam át, ami hibátlanul jött ki, amivel nagyjából minden eszköz küzd.

A Whisper egyik különösen érdekessége, hogy nem a végfelhasználóknak, hanem inkább a fejlesztőknek és kutatóknak szánt eszköz. Az OpenAI szerint a modellek és kódok nyílt forráskódú beszerzésének oka az volt, hogy "alapként szolgáljon hasznos alkalmazások és a robusztus beszédfeldolgozás további kutatásához." Még mindig beállíthatja és használhatja, de ez nem igazán fogyasztói termék még.

Számos modell használható a hang átírásakor, és mindegyikhez különböző vRAM-követelmények vonatkoznak. A legnagyobb modellhez 10 GB vRAM szükséges, bár ez a legpontosabb is. Mindegyikhez vannak csak angol nyelvű modellek is, kivéve a legnagyobb modellt, amely csökkenti a vRAM-igényt, ha tudja, hogy az átírandó tartalom csak angol nyelvű. Akárhogy is, szüksége lesz a jó GPU elegendő vRAM-mal az üzembe helyezéshez.

Az OpenAI Whisper használata

A Whisper az OpenAI-tól egy nyílt forráskódú eszköz, amelyet néhány oktatóanyag követésével meglehetősen egyszerűen futtathat helyileg. Ha MacBookod van, van néhány bonyolultabb lépés a működéshez, de ez nem túl rossz, mivel alapvetően csak le kell fordítanod egy A Whisper C++ verziója maga a forrásból. Nem hivatalos port, de ez az egyetlen módja annak, hogy Apple szilíciumból natívan működjön. tudsz kövesse ezt az oktatóanyagot a Mediumon, hogy hogyan kell ezt megtenni.

Futtathatja a Google Collabban is, bár az lassabb, vagy helyileg is futtathatja, ha rendelkezik x86-os gép. Csak meg kell győződnie arról, hogy telepítve van-e az ffmpeg, és klónozhatja a Git-tárat, amelyben a Whisper található, és futtathatja azt. Egyszerűen kövesse az utasításokat a Whisper Git adattár, és pillanatok alatt beállíthatja a Whispert. Minél erősebb a hardver, természetesen annál jobb, de alapvetően bármin fog futni, elegendő vRAM-mal, csak tovább tart, ha a számítógép lassabb.