Whisper של OpenAI הוא הכלי המדויק ביותר לזיהוי דיבור בינה מלאכותית שניסינו עד כה

Whisper של OpenAI יתמלל עבורך כל דבר בקלות, וזהו כלי התמלול הטוב ביותר שנתקלתי בו ללא ספק.

יש כמה דרכים לתמלל ראיון או סרטון. אתה יכול לעשות את זה ביד רק על ידי האזנה, מה שייתן לך את הדיוק הטוב ביותר אבל לוקח את הארוך ביותר, או שאתה יכול להשתמש בשירות או בכלי. לדוגמה, השתמשתי בעבר ביוטיוב, נתתי לו ליצור כתוביות באופן אוטומטי, לשמור את הכתוביות הללו ולערוך אותן כדי לתקן את כל הבעיות. כעת, ישנם כלי AI שונים שיכולים לעשות עבודה מצוינת, וכלי אחד כזה הוא Whisper של OpenAI.

כדי להדגים עד כמה הכלי עובד, תמללתי את ה סרטון הטלוויזיה האחרון של XDA. כפי שתוכלו לראות למטה, הוא יתמלל ויתבצע חותמת זמן, שיכולים לשמש בקלות ככתוביות בפלטפורמות כמו YouTube. גם זה עובד מהר; השתמשתי בו ב-M1 MacBook Pro שלי כדי לתמלל סרטון של 10 דקות בקצת יותר מחמש דקות וחצי.

הכלי הזה הוא מחליף משחק עבור יוצרי תוכן שצריכים ליצור כתוביות, אנשים שצריכים לתמלל ראיונות, או שפשוט רוצים להפוך כל סוג של אודיו לטקסט. מצאתי את הדיוק שלו מדהים, ולאחרונה תמללתי ראיון בן 25 דקות שבו אף דבר לא תומלל בצורה שגויה. Whisper יכול גם לתרגם שפות באודיו מתומלל.

מה זה Whisper?

Whisper היא מערכת זיהוי דיבור אוטומטית המפגינה דיוק מדהים בהבנת המילים המדוברות. זה נבנה על ידי OpenAI, ככל הנראה לשימוש במערכות כמו ChatGPT, איפה שאתה יכול עכשיו לשוחח עם AI, אבל החברה גם הוציאה את Whisper בקוד פתוח כדי שהקהילה תוכל להשתמש בו גם כן.

אופן הפעולה שלו מתקדם למדי, והוא כולל הדרכה על 680,000 שעות של נתונים מפוקחים שנאספו מהאינטרנט, שליש מהם לא היה באנגלית. אודיו מפוצל לנתחים של 30 שניות, מומר, ואז מועבר למקודד, ומפענח שעבר הכשרה ינסה לחזות את הכיתוב המתאים. שלבים אחרים מתרחשים גם כאן, אבל הם די טכניים וכוללים זיהוי השפה המדוברת, תמלול דיבור רב לשוני ותרגום לאנגלית.

באשר לאופן ההשוואה לכלים אחרים, OpenAI אומר כי Whisper עושה עד 50% פחות שגיאות ממודלים של שפה אחרים, ואני מאמין בכך. השתמשתי בכלים רבים במהלך השנים כדי לנסות לתמלל אודיו, ושום דבר לא היה מדויק כמו Whisper עבורי. כפי שציינתי, תמללתי ראיון בן 25 דקות שיצא ללא דופי, שכמעט כל כלי נאבק בו.

הדבר היחיד המעניין במיוחד ב- Whisper הוא שזה לא כלי שמיועד למשתמשי קצה אלא למפתחים וחוקרים. OpenAI אמרה שהסיבה ליצירת קוד פתוח של המודלים והקוד היא "לשמש בסיס לבניית יישומים שימושיים ו למחקר נוסף על עיבוד דיבור חזק." אתה עדיין יכול להגדיר אותו ולהשתמש בו, אבל זה לא באמת מוצר צריכה עדיין.

ישנם מספר דגמים שבהם אתה יכול להשתמש בעת תמלול אודיו, ויש דרישות vRAM שונות עבור כל אחד מהם. הדגם הגדול ביותר דורש 10GB של vRAM, אם כי הוא גם המדויק ביותר. ישנם גם דגמים באנגלית בלבד של כל אחד מהם, למעט הדגם הגדול ביותר, שאמור להפחית את דרישות ה-vRAM אם אתה יודע שהתוכן שאתה מתמלל הוא רק באנגלית. כך או כך, תצטרך א GPU טוב עם מספיק vRAM כדי להפעיל אותו.

כיצד להשתמש ב- Whisper של OpenAI

Whisper מ-OpenAI הוא כלי קוד פתוח שאתה יכול להפעיל באופן מקומי די בקלות על ידי ביצוע מספר מדריכים. אם יש לך MacBook, יש כמה שלבים מפותלים יותר כדי לגרום לו לעבוד, אבל זה לא נורא, מכיוון שבעצם תצטרך להרכיב גרסת C++ של Whisper מהמקור בעצמך. זה לא נמל רשמי, אבל זו הדרך היחידה לגרום לו לפעול באופן מקורי על סיליקון אפל. אתה יכול עקוב אחר הדרכה זו על Medium כיצד לעשות זאת.

אתה יכול גם פשוט להפעיל אותו ב-Google Collab, אם כי הוא איטי יותר, או שאתה יכול להפעיל אותו באופן מקומי אם יש לך מכונת x86. אתה רק צריך לוודא שהתקנת את ffmpeg, ואתה יכול לשכפל את מאגר Git שבו Whisper נמצא ולהפעיל אותו. פשוט עקוב אחר ההוראות ב- מאגר Whisper Git, ותוכל להגדיר את Whisper תוך זמן קצר. ככל שהחומרה שלך חזקה יותר, כך טוב יותר, כמובן, אבל היא תפעל על כל דבר עם מספיק vRAM, רק ייקח יותר זמן אם המחשב שלך איטי יותר.