Whisper OpenAI to najdokładniejsze narzędzie do rozpoznawania mowy AI, jakie do tej pory wypróbowaliśmy

Whisper OpenAI z łatwością dokona transkrypcji wszystkiego i jest to najlepsze narzędzie do transkrypcji, z jakim się dotychczas spotkałem.

Istnieje kilka sposobów transkrypcji wywiadu lub filmu. Można to zrobić ręcznie, po prostu nasłuchując, co zapewni największą dokładność, ale zajmie zdecydowanie najwięcej czasu, lub można skorzystać z usługi lub narzędzia. Na przykład korzystałem z YouTube, pozwalałem mu automatycznie generować napisy, zapisywać te napisy i edytować je, aby rozwiązać wszystkie problemy. Obecnie istnieją różne narzędzia AI, które mogą wykonać świetną robotę, a jednym z takich narzędzi jest Whisper OpenAI.

Aby zademonstrować, jak dobrze działa to narzędzie, dokonałem transkrypcji najnowszy film XDA TV. Jak widać poniżej, dokona transkrypcji i oznaczy sekcje znacznikiem czasu, które można z łatwością wykorzystać jako napisy na platformach takich jak YouTube. Działa również szybko; Użyłem go na moim MacBooku Pro M1, aby dokonać transkrypcji 10-minutowego wideo w nieco ponad pięć i pół minuty.

To narzędzie zmienia zasady gry dla twórców treści, którzy muszą generować napisy, osób, które muszą transkrybować wywiady lub po prostu chcą zamienić dowolny rodzaj dźwięku na tekst. Uważam, że jego dokładność jest niesamowita i niedawno dokonałem transkrypcji 25-minutowego wywiadu, w którym ani jedna rzecz nie została przepisana niepoprawnie. Whisper może również tłumaczyć języki w transkrypcji audio.

Co to jest Szept?

Whisper to automatyczny system rozpoznawania mowy, który wykazuje niesamowitą dokładność w rozumieniu wypowiadanych słów. Został zbudowany przez OpenAI, prawdopodobnie do użytku w systemach takich jak CzatGPT, gdzie możesz teraz rozmawiać z AI, ale firma udostępniła także Whisper na otwartym kodzie źródłowym, aby społeczność również mogła z niego korzystać.

Zasada działania jest dość zaawansowana i obejmuje przeszkolenie na 680 000 godzin nadzorowanych danych zebranych z Internetu, z czego jedna trzecia nie była w języku angielskim. Dźwięk jest dzielony na 30-sekundowe fragmenty, konwertowany, a następnie przekazywany do kodera, a przeszkolony dekoder spróbuje przewidzieć odpowiedni podpis tekstowy. W tym miejscu odbywają się również inne kroki, ale są one dość techniczne i obejmują identyfikację języka, w którym się mówi, wielojęzyczną transkrypcję mowy i tłumaczenie na angielski.

Jeśli chodzi o porównanie z innymi narzędziami, OpenAI twierdzi, że Whisper popełnia aż o 50% mniej błędów niż inne modele językowe i ja w to wierzę. Przez lata korzystałem z wielu narzędzi do transkrypcji dźwięku i nic nie było dla mnie tak dokładne jak Whisper. Jak wspomniałem, dokonałem transkrypcji 25-minutowego wywiadu, który wyszedł bezbłędnie, z czym boryka się właściwie każde narzędzie.

Jedną rzeczą szczególnie interesującą w Whisper jest to, że nie jest to narzędzie skierowane do użytkowników końcowych, ale raczej do programistów i badaczy. OpenAI stwierdziło, że powodem otwartego udostępniania modeli i kodu było „służenie jako podstawa do tworzenia przydatnych aplikacji i do dalszych badań nad solidnym przetwarzaniem mowy.” Nadal możesz go skonfigurować i używać, ale tak naprawdę nie jest to produkt konsumencki już.

Istnieje wiele modeli, których można używać podczas transkrypcji dźwięku, a każdy z nich ma inne wymagania dotyczące pamięci VRAM. Największy model wymaga 10 GB pamięci vRAM, choć jest też najdokładniejszy. Istnieją również modele każdego z nich dostępne wyłącznie w języku angielskim, z wyjątkiem największego modelu, który powinien zmniejszyć wymagania dotyczące pamięci VRAM, jeśli wiesz, że transkrybowana treść jest tylko w języku angielskim. Tak czy inaczej, będziesz potrzebować dobry procesor graficzny z wystarczającą ilością pamięci VRAM, aby go uruchomić.

Jak korzystać z szeptu OpenAI

Whisper z OpenAI to narzędzie typu open source, które można dość łatwo uruchomić lokalnie, postępując zgodnie z kilkoma samouczkami. Jeśli masz MacBooka, jest kilka bardziej skomplikowanych kroków, aby go uruchomić, ale nie jest tak źle, ponieważ w zasadzie wystarczy skompilować Wersja C++ programu Whisper z własnego źródła. Nie jest to oficjalny port, ale tylko w ten sposób można go uruchomić natywnie na krzemie Apple. Możesz postępuj zgodnie z tym samouczkiem na Medium, aby dowiedzieć się, jak to zrobić.

Możesz także po prostu uruchomić go w Google Collab, choć jest wolniejszy, lub możesz uruchomić go lokalnie, jeśli masz maszyna x86. Musisz tylko upewnić się, że masz zainstalowany ffmpeg i możesz sklonować repozytorium Git, w którym znajduje się Whisper, i uruchomić je. Wystarczy postępować zgodnie z instrukcjami zawartymi w Repozytorium Whisper Giti będziesz mógł błyskawicznie skonfigurować Whisper. Im mocniejszy jest twój sprzęt, tym oczywiście lepiej, ale będzie działał w zasadzie na wszystkim, co ma wystarczającą ilość pamięci VRAM, tylko zajmie to więcej czasu, jeśli twój komputer jest wolniejszy.