โมเดลการเรียนรู้ของเครื่องใหม่ของ Google Duo ปรับปรุงคุณภาพเสียงในการโทร

Google Duo ใช้โมเดลการเรียนรู้ของเครื่อง WaveNetEQ ใหม่ของ Google เพื่อปรับปรุงคุณภาพเสียงในการโทรโดยการเติมเต็มช่องว่างและลดความกระวนกระวายใจ

Google มีประวัติในการฆ่าแอปส่งข้อความอย่างไม่เป็นที่พอใจและสนับสนุนแอปการสื่อสารรุ่นใหม่ซึ่งในที่สุดก็ถูกฆ่าเช่นกัน จนถึงขณะนี้ Google Duo ถือเป็นข้อยกเว้นนับตั้งแต่เปิดตัวควบคู่ไปกับ Allo ซึ่งเป็นบริการส่งข้อความที่เลิกใช้งานไปแล้ว Duo ได้รับความสนใจจาก Google อย่างต่อเนื่องและมีการเพิ่มฟีเจอร์ใหม่ ๆ เช่น รองรับ 1080p บนโทรศัพท์ Samsung S20 5G, (เร็วๆ นี้) คำบรรยายสด, ดูเดิลและจนถึง ผู้เข้าร่วม 12 คนในการโทรแบบกลุ่ม. ขณะนี้ Google กำลังใช้การเรียนรู้ของเครื่องเพื่อลดปัญหาใหญ่ของความกระวนกระวายใจเพื่อประสบการณ์เสียงที่นุ่มนวลและต่อเนื่อง

การสนทนาทางวิดีโอกลายเป็นวิธีการสื่อสารอย่างเป็นทางการที่สำคัญในช่วงระยะเวลากักกันโรคโควิด-19 และเสียงที่กระวนกระวายใจอาจทำให้คุณหรือบริษัทเสียค่าใช้จ่ายทางการเงิน Google รับทราบว่า 99% ของการโทรผ่าน Duo หยุดชะงักเนื่องจากความล่าช้าของเครือข่าย ประมาณหนึ่งในห้าของการโทรเหล่านี้สูญเสียเสียง 3% ในขณะที่หนึ่งในสิบสูญเสียเสียงไปเกือบ 8% ซึ่งส่วนใหญ่อาจเป็นข้อมูลที่สำคัญมากที่ทำให้คุณพลาดไป สิ่งนี้เกิดขึ้นเมื่อแพ็กเก็ตข้อมูลล่าช้าหรือสูญหายในการส่งข้อมูล และการไม่มีแพ็กเก็ตเหล่านี้ส่งผลให้เกิดข้อผิดพลาดในเสียง ทำให้ไม่สามารถเข้าใจได้มาก

อัลกอริธึมการเรียนรู้ของเครื่อง WaveNetEQ ใหม่ของ Google ทำงานบนเทคนิคที่เรียกว่า "การปกปิดการสูญเสียแพ็กเก็ต" (PLC) WaveNet EQ เป็นโมเดลเชิงกำเนิดที่อิงจาก ดีพมายด์เวฟอาร์เอ็นเอ็น และสร้างกลุ่มเสียงเพื่ออุดช่องว่างด้วยตัวเติมที่สมจริง โมเดล AI ได้รับการฝึกโดยการป้อนข้อมูลที่เกี่ยวข้องกับคำพูดจำนวนมาก เนื่องจากการเข้ารหัสจากต้นทางถึงปลายทางใน Google Duo โมเดลจึงทำงานบนอุปกรณ์ของผู้รับ แต่ Google อ้างว่าเป็น "เร็วพอที่จะเล่นบนโทรศัพท์ได้ ในขณะที่ยังคงให้คุณภาพเสียงที่ล้ำสมัย"

WaveRRN อาศัยโมเดลการอ่านออกเสียงข้อความ และนอกจากจะได้รับการฝึกอบรมเรื่อง "สิ่งที่จะพูด" แล้ว ยังได้รับการฝึกอบรมเรื่อง "วิธีการพูด" อีกด้วย โดยจะวิเคราะห์อินพุตด้วยความเข้าใจด้านสัทศาสตร์ที่แข็งแกร่งเพื่อทำนายเสียงในอนาคตอันใกล้นี้ นอกจากการเติมเต็มช่องว่างแล้ว โมเดลยังสร้างเสียงส่วนเกินในรูปแบบคลื่นดิบเพื่อซ้อนทับส่วนที่ตามหลังการกระวนกระวายใจ สัญญาณนี้จะซ้อนทับกับเสียงจริงโดยมีสัญญาณเฟดจางเล็กน้อย และส่งผลให้การเปลี่ยนผ่านราบรื่นยิ่งขึ้น

โมเดล WaveNetEQ ของ Google Duo ได้รับการฝึกอบรมใน 48 ภาษาที่เลี้ยงโดยคน 100 คน เพื่อให้สามารถเรียนรู้ลักษณะทั่วไปของเสียงมนุษย์ แทนที่จะเรียนรู้เพียงภาษาเดียว แบบจำลองนี้ได้รับการฝึกฝนให้สร้างพยางค์เป็นส่วนใหญ่ และสามารถเติมช่องว่างยาวได้ถึง 120 มิลลิวินาที

คุณลักษณะนี้มีอยู่แล้วใน Google Pixel 4 และกำลังเปิดตัวไปยังอุปกรณ์ Android อื่นๆ

แหล่งที่มา: บล็อกของ Google AI