Whisper de la OpenAI este cel mai precis instrument de recunoaștere a vorbirii AI pe care l-am încercat până acum

Whisper de la OpenAI va transcrie orice pentru tine cu ușurință și este cel mai bun instrument de transcriere pe care l-am întâlnit de departe.

Există câteva modalități de a transcrie un interviu sau un videoclip. Puteți face acest lucru manual doar ascultând, ceea ce vă va oferi cea mai bună acuratețe, dar durează de departe cel mai mult timp, sau puteți folosi un serviciu sau un instrument. De exemplu, foloseam YouTube, îl lăsam să genereze automat subtitrări, să salveze acele subtitrări și să le editez pentru a remedia toate problemele. Acum, există diverse instrumente AI care pot face o treabă excelentă, iar un astfel de instrument este Whisper de la OpenAI.

Pentru a demonstra cât de bine funcționează instrumentul, am transcris cel mai recent videoclip XDA TV. După cum puteți vedea mai jos, va transcrie și marca secțiuni de timp, care pot fi folosite cu ușurință ca subtitrări pe platforme precum YouTube. Funcționează rapid, de asemenea; L-am folosit pe MacBook Pro M1 pentru a transcrie un videoclip de 10 minute în puțin peste cinci minute și jumătate.

Acest instrument este un schimbător de joc pentru creatorii de conținut care trebuie să genereze subtitrări, oameni care trebuie să transcrie interviuri sau care doresc pur și simplu să transforme orice tip de sunet în text. Mi s-a părut incredibilă acuratețea și, recent, am transcris un interviu de 25 de minute în care niciun lucru nu a fost transcris incorect. Whisper poate traduce și limbi în audio transcris.

Ce este Whisper?

Whisper este un sistem automat de recunoaștere a vorbirii care demonstrează o acuratețe incredibilă în înțelegerea cuvintelor rostite. A fost construit de OpenAI, probabil pentru utilizare în sisteme precum ChatGPT, unde poți acum conversa cu un AI, dar compania a folosit și Whisper în sursă deschisă, astfel încât comunitatea să-l poată folosi și ea.

Modul în care funcționează este destul de avansat și implică instruire pe 680.000 de ore de date supravegheate colectate de pe internet, dintre care o treime nu era în limba engleză. Audio este împărțit în bucăți de 30 de secunde, convertit și apoi trecut într-un codificator, iar un decodor care a fost antrenat va încerca să prezică legenda textului corespunzătoare. Alți pași au loc și aici, dar sunt destul de tehnici și implică identificarea limbii vorbite, transcrierea vorbirii în mai multe limbi și traducerea în engleză.

În ceea ce privește modul în care se compară cu alte instrumente, OpenAI spune că Whisper face cu până la 50% mai puține erori decât alte modele de limbaj și cred asta. Am folosit o mulțime de instrumente de-a lungul anilor pentru a încerca să transcriu sunetul și nimic nu a fost la fel de precis ca Whisper pentru mine. După cum am menționat, am transcris un interviu de 25 de minute care a ieșit impecabil, cu care aproape orice instrument se luptă.

Singurul lucru deosebit de interesant despre Whisper este că nu este un instrument destinat utilizatorilor finali, ci mai degrabă dezvoltatorilor și cercetătorilor. OpenAI a spus că motivul pentru care modelele și codul au fost deschise a fost „a servi drept fundație pentru construirea de aplicații utile și pentru cercetări ulterioare privind procesarea robustă a vorbirii.” Îl puteți configura și utiliza în continuare, dar nu este cu adevărat un produs de consum inca.

Există mai multe modele pe care le puteți utiliza atunci când transcrieți sunetul și există cerințe vRAM diferite pentru fiecare. Cel mai mare model necesită 10 GB de vRAM, deși este și cel mai precis. Există, de asemenea, modele pentru fiecare în limba engleză, cu excepția celui mai mare model, care ar trebui să reducă cerințele vRAM dacă știți că conținutul pe care îl transcrieți este doar în limba engleză. Oricum, vei avea nevoie de un GPU bun cu suficientă vRAM pentru a-l pune în funcțiune.

Cum se utilizează Whisper de la OpenAI

Whisper de la OpenAI este un instrument open-source pe care îl puteți rula local destul de ușor, urmând câteva tutoriale. Dacă aveți un MacBook, există câțiva pași mai complicati pentru ca acesta să funcționeze, dar nu este prea rău, deoarece practic va trebui doar să compilați un Versiunea C++ a lui Whisper chiar de la sursă. Nu este un port oficial, dar este singura modalitate de a-l face să ruleze nativ pe siliciu Apple. Puteți urmați acest tutorial pe Medium pentru a afla cum să faci asta.

De asemenea, îl puteți rula doar în Google Colab, deși este mai lent, sau îl puteți rula local dacă aveți un mașină x86. Trebuie doar să vă asigurați că aveți instalat ffmpeg și că puteți clona depozitul Git în care se află Whisper și îl puteți rula. Pur și simplu urmați instrucțiunile din Depozitul Whisper Gitși vei putea configura Whisper în cel mai scurt timp. Cu cât hardware-ul tău este mai puternic, cu atât mai bine, desigur, dar va rula practic pe orice cu suficientă vRAM, durând doar mai mult dacă computerul tău este mai lent.