Whisper ของ OpenAI เป็นเครื่องมือรู้จำคำพูด AI ที่แม่นยำที่สุดที่เราเคยลองใช้มา

Whisper ของ OpenAI จะถอดเสียงทุกอย่างให้คุณได้อย่างง่ายดาย และเป็นเครื่องมือถอดเสียงที่ดีที่สุดที่ฉันเคยเจอมา

มีหลายวิธีในการถอดเสียงบทสัมภาษณ์หรือวิดีโอ คุณสามารถทำด้วยมือได้เพียงแค่ฟัง ซึ่งจะให้ความแม่นยำสูงสุดแต่ใช้เวลานานที่สุด หรือคุณสามารถใช้บริการหรือเครื่องมือก็ได้ ตัวอย่างเช่น ฉันเคยใช้ YouTube ปล่อยให้มันสร้างคำบรรยายโดยอัตโนมัติ บันทึกคำบรรยายเหล่านั้น และแก้ไขเพื่อแก้ไขปัญหาทั้งหมด ขณะนี้ มีเครื่องมือ AI มากมายที่สามารถทำงานได้ดีเยี่ยม และเครื่องมือหนึ่งดังกล่าวก็คือ Whisper ของ OpenAI

เพื่อแสดงให้เห็นว่าเครื่องมือทำงานได้ดีเพียงใด ฉันจึงได้ถอดความ วิดีโอ XDA TV ล่าสุด. ดังที่คุณเห็นด้านล่าง มันจะถอดเสียงและประทับเวลาส่วนต่างๆ ซึ่งสามารถใช้เป็นคำบรรยายบนแพลตฟอร์มเช่น YouTube ได้อย่างง่ายดาย มันทำงานได้อย่างรวดเร็วเช่นกัน ฉันใช้มันกับ M1 MacBook Pro เพื่อถอดเสียงวิดีโอความยาว 10 นาทีในเวลาเพียงห้านาทีครึ่ง

เครื่องมือนี้เป็นตัวเปลี่ยนเกมสำหรับผู้สร้างเนื้อหาที่ต้องการสร้างคำบรรยาย ผู้ที่ต้องการถอดเสียงบทสัมภาษณ์ หรือผู้ที่ต้องการเปลี่ยนเสียงทุกประเภทให้เป็นข้อความ ฉันพบว่ามันแม่นยำอย่างเหลือเชื่อ และเมื่อเร็วๆ นี้ ฉันถอดเสียงบทสัมภาษณ์ความยาว 25 นาที ซึ่งไม่มีสิ่งใดถูกถอดเสียงอย่างไม่ถูกต้องเลย Whisper ยังสามารถแปลภาษาในรูปแบบเสียงที่ถอดเสียงได้

วิสเปอร์คืออะไร?

Whisper คือระบบรู้จำคำพูดอัตโนมัติที่แสดงให้เห็นความแม่นยำอันเหลือเชื่อในการทำความเข้าใจคำพูด มันถูกสร้างขึ้นโดย OpenAI ซึ่งน่าจะใช้ในระบบเช่น ChatGPTซึ่งตอนนี้คุณทำได้แล้ว สนทนากับ AIแต่บริษัทยังได้เปิด Whisper เพื่อให้ชุมชนสามารถใช้งานได้เช่นกัน

วิธีการทำงานค่อนข้างก้าวหน้า และเกี่ยวข้องกับการฝึกอบรมเกี่ยวกับข้อมูลภายใต้การดูแลจำนวน 680,000 ชั่วโมงที่รวบรวมจากอินเทอร์เน็ต ซึ่งหนึ่งในสามไม่ใช่ภาษาอังกฤษ เสียงจะถูกแบ่งออกเป็นช่วง 30 วินาที แปลง และส่งผ่านไปยังตัวเข้ารหัส และตัวถอดรหัสที่ได้รับการฝึกจะพยายามคาดเดาคำบรรยายข้อความที่เกี่ยวข้อง ขั้นตอนอื่นๆ เกิดขึ้นที่นี่เช่นกัน แต่จะค่อนข้างเป็นเทคนิคและเกี่ยวข้องกับการระบุภาษาที่พูด การถอดเสียงคำพูดหลายภาษา และการแปลเป็นภาษาอังกฤษ

สำหรับการเปรียบเทียบกับเครื่องมืออื่นๆ OpenAI กล่าวว่า Whisper สร้างข้อผิดพลาดน้อยกว่าโมเดลภาษาอื่นถึง 50% และฉันก็เชื่อเช่นนั้น ฉันใช้เครื่องมือมากมายในช่วงหลายปีที่ผ่านมาเพื่อลองถอดเสียง และไม่มีอะไรแม่นยำเท่ากับ Whisper สำหรับฉัน อย่างที่ฉันบอกไปแล้ว ฉันได้คัดลอกบทสัมภาษณ์ความยาว 25 นาทีที่ออกมาอย่างไม่มีที่ติ ซึ่งเครื่องมือแทบทุกชิ้นต้องเจอปัญหา

สิ่งหนึ่งที่น่าสนใจเป็นพิเศษเกี่ยวกับ Whisper ก็คือ มันไม่ได้มุ่งเป้าไปที่ผู้ใช้ปลายทาง แต่มุ่งเป้าไปที่นักพัฒนาและนักวิจัยมากกว่า OpenAI กล่าวว่าเหตุผลของโมเดลและโค้ดแบบโอเพ่นซอร์สคือ "ทำหน้าที่เป็นรากฐานสำหรับการสร้างแอปพลิเคชันที่มีประโยชน์และ สำหรับการวิจัยเพิ่มเติมเกี่ยวกับการประมวลผลคำพูดที่มีประสิทธิภาพ" คุณยังสามารถตั้งค่าและใช้งานได้ แต่นั่นไม่ใช่ผลิตภัณฑ์สำหรับผู้บริโภคจริงๆ ยัง.

มีหลายรุ่นที่คุณสามารถใช้เมื่อถอดเสียง และมีข้อกำหนด vRAM ที่แตกต่างกันสำหรับแต่ละรุ่น รุ่นที่ใหญ่ที่สุดต้องใช้ vRAM ขนาด 10GB แม้ว่าจะแม่นยำที่สุดก็ตาม แต่ละรุ่นยังมีเฉพาะภาษาอังกฤษเท่านั้น ยกเว้นรุ่นที่ใหญ่ที่สุด ซึ่งควรลดข้อกำหนด vRAM หากคุณทราบว่าเนื้อหาที่คุณกำลังถอดเสียงเป็นภาษาอังกฤษเท่านั้น ไม่ว่าจะด้วยวิธีใด คุณจะต้องมี จีพียูที่ดี ด้วย vRAM ที่เพียงพอสำหรับการเริ่มต้นใช้งาน

วิธีใช้ Whisper ของ OpenAI

Whisper จาก OpenAI เป็นเครื่องมือโอเพ่นซอร์สที่คุณสามารถเรียกใช้ในเครื่องได้อย่างง่ายดายโดยทำตามบทช่วยสอนบางส่วน หากคุณมี MacBook มีขั้นตอนที่ซับซ้อนกว่านี้ในการทำให้มันใช้งานได้ แต่ก็ไม่ได้แย่เกินไป เพราะโดยพื้นฐานแล้วคุณเพียงแค่ต้องคอมไพล์ไฟล์ Whisper เวอร์ชัน C++ จากแหล่งที่มาด้วยตัวคุณเอง ไม่ใช่พอร์ตอย่างเป็นทางการ แต่เป็นวิธีเดียวที่จะทำให้พอร์ตดังกล่าวทำงานบน Apple Silicon ได้ คุณสามารถ ทำตามบทช่วยสอนนี้ บนสื่อเพื่อดูวิธีการทำเช่นนั้น

คุณยังสามารถเรียกใช้ใน Google Collab ได้อีกด้วย แม้ว่าจะช้ากว่าก็ตาม หรือคุณสามารถเรียกใช้ในเครื่องได้หากคุณมี เครื่องx86. คุณเพียงแค่ต้องตรวจสอบให้แน่ใจว่าคุณได้ติดตั้ง ffmpeg แล้ว และคุณสามารถโคลนพื้นที่เก็บข้อมูล Git ที่ Whisper อยู่และเรียกใช้ได้ เพียงทำตามคำแนะนำใน พื้นที่เก็บข้อมูล Whisper Gitและคุณจะสามารถตั้งค่า Whisper ได้ในเวลาอันรวดเร็ว ยิ่งฮาร์ดแวร์ของคุณมีประสิทธิภาพมากเท่าไรก็ยิ่งดีเท่านั้น แต่โดยพื้นฐานแล้วมันจะทำงานบนอะไรก็ได้ที่มี vRAM เพียงพอ เพียงแค่ใช้เวลานานขึ้นหากพีซีของคุณช้าลง