Whisper di OpenAI è lo strumento di riconoscimento vocale AI più accurato che abbiamo provato finora

Whisper di OpenAI trascriverà qualsiasi cosa per te con facilità ed è di gran lunga il miglior strumento di trascrizione che abbia mai incontrato.

Esistono alcuni modi per trascrivere un'intervista o un video. Potresti farlo a mano semplicemente ascoltando, il che ti darà la migliore precisione ma richiederà di gran lunga più tempo, oppure potresti utilizzare un servizio o uno strumento. Ad esempio, usavo YouTube, lasciavo che generasse automaticamente i sottotitoli, li salvasse e li modificassi per risolvere tutti i problemi. Ora, ci sono vari strumenti di intelligenza artificiale che possono fare un lavoro eccellente e uno di questi è Whisper di OpenAI.

Per dimostrare quanto bene funziona lo strumento, ho trascritto il file video XDA TV più recente. Come puoi vedere di seguito, trascriverà e timestamp le sezioni, che possono essere facilmente utilizzate come sottotitoli su piattaforme come YouTube. Funziona anche velocemente; L'ho usato sul mio MacBook Pro M1 per trascrivere un video di 10 minuti in poco più di cinque minuti e mezzo.

Questo strumento rappresenta una svolta per i creatori di contenuti che hanno bisogno di generare sottotitoli, per le persone che hanno bisogno di trascrivere interviste o che vogliono semplicemente trasformare qualsiasi tipo di audio in testo. Ho trovato incredibile la sua precisione e recentemente ho trascritto un'intervista di 25 minuti in cui non una sola cosa è stata trascritta in modo errato. Whisper può anche tradurre le lingue nell'audio trascritto.

Cos'è il sussurro?

Whisper è un sistema di riconoscimento vocale automatico che dimostra un'incredibile precisione nella comprensione delle parole pronunciate. È stato costruito da OpenAI, presumibilmente per l'uso in sistemi come ChatGPT, dove puoi ora conversare con un'intelligenza artificiale, ma l'azienda ha anche reso open source Whisper in modo che anche la comunità potesse usarlo.

Il suo funzionamento è abbastanza avanzato e prevede la formazione su 680.000 ore di dati supervisionati raccolti da Internet, un terzo dei quali non in inglese. L'audio viene suddiviso in blocchi di 30 secondi, convertito e quindi passato a un codificatore e un decodificatore addestrato proverà a prevedere la didascalia di testo corrispondente. Qui si svolgono anche altri passaggi, ma sono piuttosto tecnici e comportano l'identificazione della lingua parlata, la trascrizione vocale multilingue e la traduzione in inglese.

Per quanto riguarda il confronto con altri strumenti, OpenAI afferma che Whisper commette fino al 50% in meno di errori rispetto ad altri modelli linguistici, e io ci credo. Nel corso degli anni ho utilizzato molti strumenti per provare a trascrivere l'audio e per me niente è stato così preciso come Whisper. Come ho già detto, ho trascritto un'intervista di 25 minuti che è venuta fuori in modo impeccabile, cosa con cui praticamente ogni strumento ha difficoltà.

La cosa particolarmente interessante di Whisper è che non è uno strumento rivolto agli utenti finali ma piuttosto a sviluppatori e ricercatori. OpenAI ha affermato che il motivo dell'open source dei modelli e del codice è quello di "servire come base per la creazione di applicazioni utili e... per ulteriori ricerche sull'elaborazione vocale efficace." Puoi ancora configurarlo e usarlo, ma non è realmente un prodotto di consumo Ancora.

Esistono più modelli che puoi utilizzare durante la trascrizione dell'audio e per ciascuno di essi esistono requisiti vRAM diversi. Il modello più grande richiede 10 GB di vRAM, sebbene sia anche il più preciso. Esistono anche modelli solo in inglese per ciascuno, ad eccezione del modello più grande, che dovrebbe ridurre i requisiti di vRAM se sai che il contenuto che stai trascrivendo è solo in inglese. In ogni caso, avrai bisogno di un file buona GPU con abbastanza vRAM per farlo funzionare.

Come utilizzare Whisper di OpenAI

Whisper di OpenAI è uno strumento open source che puoi eseguire localmente abbastanza facilmente seguendo alcuni tutorial. Se hai un MacBook, ci sono alcuni passaggi più contorti per farlo funzionare, ma non è poi così male, dato che in pratica dovrai solo compilare un Versione C++ di Whisper dalla fonte stessa. Non è un port ufficiale, ma è l'unico modo per farlo funzionare in modo nativo sul silicio Apple. Puoi segui questo tutorial su Medium per sapere come farlo.

Puoi anche eseguirlo semplicemente in Google Collab, anche se è più lento, oppure puoi eseguirlo localmente se disponi di un macchina x86. Devi solo assicurarti di avere ffmpeg installato e puoi clonare il repository Git in cui si trova Whisper ed eseguirlo. Basta seguire le istruzioni nel Repository Git di Whispere sarai in grado di configurare Whisper in pochissimo tempo. Più potente è il tuo hardware, meglio è, ovviamente, ma funzionerà praticamente su qualsiasi cosa con sufficiente vRAM, impiegando solo più tempo se il tuo PC è più lento.