OpenAI'nin Whisper'ı şu ana kadar denediğimiz en doğru AI konuşma tanıma aracıdır

click fraud protection

OpenAI'nin Whisper'ı sizin için her şeyi kolaylıkla yazıya geçirecektir ve bugüne kadar karşılaştığım en iyi yazıya dönüştürme aracıdır.

Bir röportajı veya videoyu yazıya dökmenin birkaç yolu vardır. Bunu yalnızca dinleyerek elle yapabilirsiniz; bu size en iyi doğruluğu sağlar ancak çok daha uzun sürer veya bir hizmet veya araç kullanabilirsiniz. Örneğin, YouTube'u kullanıyordum, otomatik olarak altyazı oluşturmasına izin veriyordum, bu altyazıları kaydediyordum ve tüm sorunları çözecek şekilde düzenliyordum. Artık mükemmel bir iş çıkarabilecek çeşitli yapay zeka araçları var ve bu araçlardan biri de OpenAI'nin Whisper'ı.

Aracın ne kadar iyi çalıştığını göstermek için, en yeni XDA TV videosu. Aşağıda görebileceğiniz gibi YouTube gibi platformlarda kolaylıkla altyazı olarak kullanılabilen transkripsiyon ve zaman damgası bölümlerini oluşturacaktır. Aynı zamanda hızlı çalışır; M1 MacBook Pro'mda 10 dakikalık bir videoyu beş buçuk dakikadan biraz fazla bir sürede yazıya dökmek için kullandım.

Bu araç, altyazı oluşturması gereken içerik oluşturucular, röportajları yazıya dökmesi gereken veya herhangi bir tür sesi metne dönüştürmek isteyen kişiler için ezber bozan bir özelliktir. Doğruluğunu inanılmaz buldum ve yakın zamanda tek bir şeyin yanlış yazıya geçirilmediği 25 dakikalık bir röportajı yazıya döktüm. Whisper ayrıca dilleri yazıya aktarılmış ses olarak da çevirebilir.

Fısıltı nedir?

Whisper, konuşulan kelimeleri anlamada inanılmaz bir doğruluk sergileyen otomatik bir konuşma tanıma sistemidir. Muhtemelen aşağıdaki gibi sistemlerde kullanılmak üzere OpenAI tarafından inşa edilmiştir: SohbetGPT, şimdi nerede yapabilirsin bir yapay zeka ile konuşancak şirket aynı zamanda topluluğun da kullanabilmesi için Whisper'ı açık kaynaklı hale getirdi.

Nasıl çalıştığı oldukça ileri düzeydedir ve internetten toplanan ve üçte biri İngilizce olmayan 680.000 saatlik denetlenen veriye ilişkin eğitimi içermektedir. Ses 30 saniyelik parçalara bölünür, dönüştürülür ve ardından bir kodlayıcıya aktarılır ve eğitilmiş bir kod çözücü, karşılık gelen metin başlığını tahmin etmeye çalışır. Burada başka adımlar da gerçekleştirilir, ancak bunlar oldukça tekniktir ve konuşulan dilin tanımlanmasını, çok dilli konuşmanın transkripsiyonunu ve İngilizceye çeviriyi içerir.

Diğer araçlarla karşılaştırıldığında OpenAI, Whisper'ın diğer dil modellerine göre %50'ye kadar daha az hata yaptığını söylüyor ve ben de buna inanıyorum. Yıllar boyunca sesi yazıya dökmek için pek çok araç kullandım ve hiçbir şey benim için Whisper kadar doğru olmadı. Bahsettiğim gibi, neredeyse her aracın uğraştığı, kusursuz bir şekilde ortaya çıkan 25 dakikalık bir röportajı yazıya döktüm.

Whisper'ın özellikle ilginç olan yanı, son kullanıcılara değil, geliştiricilere ve araştırmacılara yönelik bir araç olmasıdır. OpenAI, modellerin ve kodun açık kaynak olarak kullanılmasının nedeninin "faydalı uygulamalar oluşturmak için bir temel görevi görmek" olduğunu söyledi. Sağlam konuşma işleme konusunda daha fazla araştırma için." Onu hâlâ kurup kullanabilirsiniz, ancak bu aslında bir tüketici ürünü değildir. henüz.

Sesi yazıya aktarırken kullanabileceğiniz birden fazla model vardır ve her biri için farklı vRAM gereksinimleri vardır. En büyük model 10 GB vRAM gerektirir, ancak aynı zamanda en doğru olanıdır. Ayrıca, en büyük model dışında her birinin yalnızca İngilizce olan modelleri de vardır; bu, eğer transkripsiyon yaptığınız içeriğin yalnızca İngilizce olduğunu biliyorsanız vRAM gereksinimlerini azaltacaktır. Her iki durumda da, bir ihtiyacınız olacak iyi GPU kurulumu ve çalışması için yeterli vRAM'e sahip.

OpenAI'nin Whisper'ı nasıl kullanılır?

OpenAI'den Whisper, birkaç öğreticiyi takip ederek oldukça kolay bir şekilde yerel olarak çalıştırabileceğiniz açık kaynaklı bir araçtır. Bir MacBook'unuz varsa, onu çalıştırmak için daha karmaşık adımlar vardır, ancak bu çok da kötü değildir, çünkü temelde sadece bir derleme yapmanız gerekecektir. Whisper'ın C++ sürümü kaynaktan kendiniz. Bu resmi bir bağlantı noktası değil, ancak Apple silikonunda yerel olarak çalışmasını sağlamanın tek yolu bu. Yapabilirsiniz bu öğreticiyi takip edin Bunun nasıl yapılacağı konusunda Medium'da.

Ayrıca, daha yavaş olmasına rağmen Google Collab'da da çalıştırabilirsiniz veya yerel olarak çalıştırabilirsiniz. x86 makinesi. Sadece ffmpeg'in kurulu olduğundan emin olmanız gerekir ve Whisper'ın bulunduğu Git deposunu kopyalayıp çalıştırabilirsiniz. bölümündeki talimatları uygulamanız yeterlidir. Whisper Git deposuve Whisper'ı çok kısa sürede kurabileceksiniz. Donanımınız ne kadar güçlü olursa elbette o kadar iyidir, ancak temel olarak yeterli vRAM'e sahip her şeyde çalışır, ancak bilgisayarınız yavaşsa daha uzun sürer.