Whisper OpenAI adalah alat pengenalan ucapan AI paling akurat yang pernah kami coba sejauh ini

Whisper OpenAI akan menyalin apa pun untuk Anda dengan mudah, dan ini adalah alat transkripsi terbaik yang pernah saya temui sejauh ini.

Ada beberapa cara untuk menyalin wawancara atau video. Anda dapat melakukannya dengan tangan hanya dengan mendengarkan, yang akan memberi Anda akurasi terbaik namun membutuhkan waktu paling lama, atau Anda dapat menggunakan layanan atau alat. Misalnya, saya dulu menggunakan YouTube, membiarkannya menghasilkan subtitle secara otomatis, menyimpan subtitle tersebut, dan mengeditnya untuk memperbaiki semua masalah. Sekarang, ada berbagai alat AI yang dapat melakukan pekerjaan dengan sangat baik, dan salah satu alat tersebut adalah Whisper dari OpenAI.

Untuk mendemonstrasikan seberapa baik alat ini bekerja, saya menyalinnya video XDA TV terbaru. Seperti yang Anda lihat di bawah, ini akan mentranskripsikan dan memberi stempel waktu pada bagian tersebut, yang dapat dengan mudah digunakan sebagai subtitle di platform seperti YouTube. Ia juga bekerja dengan cepat; Saya menggunakannya di M1 MacBook Pro saya untuk menyalin video berdurasi 10 menit hanya dalam waktu lima setengah menit.

Alat ini merupakan terobosan baru bagi pembuat konten yang perlu membuat subtitle, orang yang perlu menyalin wawancara, atau yang hanya ingin mengubah segala jenis audio menjadi teks. Saya merasa keakuratannya luar biasa, dan baru-baru ini, saya mentranskripsikan wawancara berdurasi 25 menit dan tidak ada satu hal pun yang ditranskripsikan dengan salah. Whisper juga dapat menerjemahkan bahasa dalam audio yang ditranskripsikan.

Apa itu Bisikan?

Whisper adalah sistem pengenalan suara otomatis yang menunjukkan akurasi luar biasa dalam memahami kata-kata yang diucapkan. Itu dibangun oleh OpenAI, mungkin untuk digunakan dalam sistem seperti ObrolanGPT, di mana Anda bisa sekarang berbicara dengan AI, tetapi perusahaan juga membuat Whisper menjadi sumber terbuka sehingga komunitas dapat menggunakannya juga.

Cara kerjanya cukup canggih, dan melibatkan pelatihan selama 680.000 jam data yang diawasi yang dikumpulkan dari internet, sepertiganya tidak dalam bahasa Inggris. Audio dibagi menjadi potongan-potongan berdurasi 30 detik, diubah, lalu diteruskan ke encoder, dan decoder yang telah dilatih akan mencoba memprediksi teks yang sesuai. Langkah-langkah lain juga dilakukan di sini, namun cukup teknis dan melibatkan identifikasi bahasa yang digunakan, transkripsi ucapan multibahasa, dan terjemahan ke bahasa Inggris.

Mengenai perbandingannya dengan alat lain, OpenAI mengatakan bahwa Whisper membuat kesalahan hingga 50% lebih sedikit dibandingkan model bahasa lain, dan saya mempercayainya. Saya telah menggunakan banyak alat selama bertahun-tahun untuk mencoba dan menyalin audio, dan bagi saya tidak ada yang seakurat Whisper. Seperti yang saya sebutkan, saya mentranskripsikan wawancara 25 menit yang hasilnya sempurna, yang hampir semua alat kesulitan mengatasinya.

Satu hal yang sangat menarik tentang Whisper adalah bahwa ini bukan alat yang ditujukan untuk pengguna akhir melainkan untuk pengembang dan peneliti. OpenAI mengatakan alasan model dan kode open source adalah untuk "berfungsi sebagai landasan untuk membangun aplikasi yang berguna dan untuk penelitian lebih lanjut mengenai pemrosesan ucapan yang kuat." Anda masih dapat mengatur dan menggunakannya, namun ini sebenarnya bukan produk konsumen belum.

Ada beberapa model yang dapat Anda gunakan saat menyalin audio, dan terdapat persyaratan vRAM yang berbeda untuk masing-masing model. Model terbesar memerlukan vRAM 10 GB, meskipun model ini juga paling akurat. Ada juga masing-masing model yang hanya berbahasa Inggris, kecuali model terbesar, yang akan mengurangi persyaratan vRAM jika Anda mengetahui konten yang Anda transkripsikan hanya dalam bahasa Inggris. Apa pun pilihannya, Anda memerlukan a GPU yang bagus dengan vRAM yang cukup untuk mengaktifkan dan menjalankannya.

Cara menggunakan Bisikan OpenAI

Whisper dari OpenAI adalah alat sumber terbuka yang dapat Anda jalankan secara lokal dengan cukup mudah dengan mengikuti beberapa tutorial. Jika Anda memiliki MacBook, ada beberapa langkah yang lebih berbelit-belit untuk membuatnya berfungsi, tapi itu tidak terlalu buruk, karena pada dasarnya Anda hanya perlu mengkompilasi Bisikan versi C++ dari sumbernya sendiri. Ini bukan port resmi, tetapi ini satu-satunya cara untuk menjalankannya secara asli di silikon Apple. Kamu bisa ikuti tutorial ini di Medium untuk mengetahui cara melakukannya.

Anda juga dapat menjalankannya di Google Collab, meskipun lebih lambat, atau Anda dapat menjalankannya secara lokal jika Anda memiliki mesin x86. Anda hanya perlu memastikan bahwa Anda telah menginstal ffmpeg, dan Anda dapat mengkloning repositori Git tempat Whisper berada dan menjalankannya. Cukup ikuti instruksi di Repositori Whisper Git, dan Anda akan dapat menyiapkan Whisper dalam waktu singkat. Semakin kuat perangkat keras Anda, tentu saja semakin baik, tetapi pada dasarnya perangkat tersebut akan berjalan pada apa pun dengan vRAM yang cukup, hanya saja membutuhkan waktu lebih lama jika PC Anda lebih lambat.