Whisper von OpenAI ist das genaueste KI-Spracherkennungstool, das wir bisher ausprobiert haben

Whisper von OpenAI transkribiert alles ganz einfach für Sie und ist mit Abstand das beste Transkriptionstool, das mir je begegnet ist.

Es gibt verschiedene Möglichkeiten, ein Interview oder ein Video zu transkribieren. Sie könnten dies manuell tun, indem Sie einfach zuhören, was Ihnen die beste Genauigkeit bietet, aber bei weitem am längsten dauert, oder Sie könnten einen Dienst oder ein Werkzeug nutzen. Früher habe ich zum Beispiel YouTube verwendet, es automatisch Untertitel generieren lassen, diese Untertitel gespeichert und bearbeitet, um alle Probleme zu beheben. Mittlerweile gibt es verschiedene KI-Tools, die hervorragende Arbeit leisten können, und eines dieser Tools ist Whisper von OpenAI.

Um zu demonstrieren, wie gut das Tool funktioniert, habe ich das transkribiert neuestes XDA-TV-Video. Wie Sie unten sehen können, werden Abschnitte transkribiert und mit einem Zeitstempel versehen, die problemlos als Untertitel auf Plattformen wie YouTube verwendet werden können. Es funktioniert auch schnell; Ich habe es auf meinem M1 MacBook Pro verwendet, um ein 10-minütiges Video in etwas mehr als fünfeinhalb Minuten zu transkribieren.

Dieses Tool ist von entscheidender Bedeutung für Content-Ersteller, die Untertitel generieren müssen, für Personen, die Interviews transkribieren müssen oder die einfach jede Art von Audio in Text umwandeln möchten. Ich fand die Genauigkeit unglaublich und habe kürzlich ein 25-minütiges Interview transkribiert, bei dem nichts falsch transkribiert wurde. Whisper kann auch Sprachen in transkribiertem Audio übersetzen.

Was ist Flüstern?

Whisper ist ein automatisches Spracherkennungssystem, das eine unglaubliche Genauigkeit beim Verstehen gesprochener Wörter aufweist. Es wurde von OpenAI entwickelt, vermutlich für den Einsatz in Systemen wie ChatGPT, wo Sie jetzt können Sich mit einer KI unterhalten, aber das Unternehmen hat Whisper auch als Open-Source-Lösung bereitgestellt, damit die Community es ebenfalls nutzen kann.

Die Funktionsweise ist ziemlich fortgeschritten und erfordert eine Schulung anhand von 680.000 Stunden überwachter Daten, die aus dem Internet gesammelt wurden, ein Drittel davon nicht auf Englisch. Audio wird in 30-Sekunden-Blöcke aufgeteilt, konvertiert und dann an einen Encoder übergeben, und ein trainierter Decoder versucht, die entsprechende Textbeschriftung vorherzusagen. Auch hier finden weitere Schritte statt, die jedoch ziemlich technisch sind und die Identifizierung der gesprochenen Sprache, die mehrsprachige Sprachtranskription und die Übersetzung ins Englische umfassen.

Zum Vergleich mit anderen Tools sagt OpenAI, dass Whisper bis zu 50 % weniger Fehler macht als andere Sprachmodelle, und ich glaube daran. Ich habe im Laufe der Jahre viele Tools verwendet, um Audio zu transkribieren, und nichts war für mich so genau wie Whisper. Wie ich bereits erwähnt habe, habe ich ein 25-minütiges Interview transkribiert, das fehlerfrei zustande kam, womit so ziemlich jedes Tool Probleme hat.

Besonders interessant an Whisper ist, dass es sich nicht um ein Tool handelt, das sich an Endbenutzer richtet, sondern an Entwickler und Forscher. OpenAI sagte, der Grund für die Open-Source-Veröffentlichung der Modelle und des Codes bestehe darin, „als Grundlage für die Entwicklung nützlicher Anwendungen zu dienen.“ für weitere Forschungen zur robusten Sprachverarbeitung.“ Sie können es immer noch einrichten und verwenden, aber es ist nicht wirklich ein Verbraucherprodukt noch.

Es gibt mehrere Modelle, die Sie beim Transkribieren von Audio verwenden können, und für jedes gelten unterschiedliche vRAM-Anforderungen. Das größte Modell erfordert 10 GB vRAM, ist aber auch das genaueste. Es gibt jeweils auch Modelle, die nur auf Englisch verfügbar sind, mit Ausnahme des größten Modells, wodurch sich die vRAM-Anforderungen verringern dürften, wenn Sie wissen, dass der Inhalt, den Sie transkribieren, nur auf Englisch ist. In jedem Fall benötigen Sie eine gute GPU mit genügend vRAM, um es zum Laufen zu bringen.

So verwenden Sie Whisper von OpenAI

Whisper von OpenAI ist ein Open-Source-Tool, das Sie mithilfe einiger Tutorials ganz einfach lokal ausführen können. Wenn Sie ein MacBook haben, sind einige kompliziertere Schritte erforderlich, um es zum Laufen zu bringen, aber das ist nicht so schlimm, da Sie im Grunde nur ein MacBook kompilieren müssen C++-Version von Whisper von der Quelle selbst. Es handelt sich nicht um eine offizielle Portierung, aber es ist die einzige Möglichkeit, sie nativ auf Apple-Chips laufen zu lassen. Du kannst Folgen Sie diesem Tutorial auf Medium, wie das geht.

Sie können es auch einfach in Google Collab ausführen, obwohl es langsamer ist, oder Sie können es lokal ausführen, wenn Sie eine haben x86-Maschine. Sie müssen nur sicherstellen, dass ffmpeg installiert ist, und Sie können das Git-Repository, in dem sich Whisper befindet, klonen und es ausführen. Folgen Sie einfach den Anweisungen in der Whisper Git-Repository, und Sie können Whisper im Handumdrehen einrichten. Je leistungsfähiger Ihre Hardware ist, desto besser, natürlich, aber sie läuft grundsätzlich auf allem, was über genügend vRAM verfügt. Wenn Ihr PC langsamer ist, dauert es nur länger.