מנוע הטקסט לדיבור של Alphabet של אלפבית נשמע כמעט בלתי ניתן להבדיל מבני אדם

מעבדת המחקר בינה מלאכותית של Alphabet פיתחה את Tacotron 2, מערכת טקסט לדיבור המפיקה אודיו שלא ניתן להבחין בו מאדם.

חברת הבת של אלפבית, DeepMind, התפתחה WaveNet, רשת עצבית המניעה את סינתזת הדיבור של Google Assistant, באוקטובר. הוא מסוגל לדגימות אודיו טובות ומציאותיות יותר מהקודם של ענקית החיפוש מערכת טקסט לדיבור, ויותר מכך, היא מייצרת אודיו גולמי -- לא צלילים שחוברו יחד מ שחקני קול. כעת, חוקרים באלפבית פיתחו גרסה חדשה, Tacotron 2, המשתמשת במספר רשתות עצביות כדי לייצר דיבור שכמעט ולא ניתן להבחין בו מאדם.

הנה דוגמה. הראשון נוצר באמצעות Tacotron 2, והשני הוא שחקן קול:

[audio wav=" https://static1.xdaimages.com/wordpress/wp-content/uploads/2017/12/washington_gen.wav"][/audio]

[audio wav=" https://static1.xdaimages.com/wordpress/wp-content/uploads/2017/12/washington_gt.wav"][/audio]

Tacotron 2 מורכב משתי רשתות עצביות עמוקות. כפי שמתאר זאת מאמר המחקר שהתפרסם החודש, הראשון מתרגם טקסט לספקטרוגרמה, ייצוג חזותי של ספקטרום של תדרי שמע. השני - WaveNet של DeepMind - מפרש את התרשים ומייצר רכיבי שמע מתאימים. התוצאה היא מנוע מקצה לקצה שיכול להדגיש מילים, לבטא נכון שמות, לקלוט תחביריות רמזים (כלומר, הדגשה של מילים באותיות נטוי או באותיות רישיות), ולשנות את האופן שבו היא מתבטאת בהתבסס על סימני פיסוק.

לא ברור אם Tacotron 2 יעשה את דרכו לשירותים פונים למשתמש כמו Google Assistant, אבל זה יהיה שווה לקורס. זמן קצר לאחר פרסום מחקר WaveNet של DeepMind, גוגל הפיקה מכונה זיהוי דיבור המופעל על ידי למידה במספר שפות בסמארטפונים, רמקולים, וטאבלטים.

יש רק בעיה אחת: נכון לעכשיו, מערכת Tacotron 2 מאומנת לחקות קול נשי אחד. כדי ליצור קולות ודפוסי דיבור חדשים, Google תצטרך לאמן את המערכת שוב.

Tacotron 2