Google Duo ใช้ตัวแปลงสัญญาณใหม่เพื่อคุณภาพการโทรที่ดีขึ้นเมื่อการเชื่อมต่อไม่ดี

Google ได้พัฒนา Lyra ซึ่งเป็นตัวแปลงสัญญาณบิตเรตต่ำสำหรับการบีบอัดคำพูดที่มีจุดมุ่งหมายเพื่อปรับปรุงคุณภาพเสียงในแอปอย่าง Google Duo อย่างมากมาย

อัปเดต 1 (04/09/2021 @ 15:45 น. ET): Google ได้เปิดตัวซอร์สโค้ดสำหรับ Lyra ซึ่งเป็นตัวแปลงสัญญาณเสียงพูดบิตเรตต่ำใหม่ที่ Google Duo ใช้ คลิกที่นี่เพื่อดูข้อมูลเพิ่มเติม บทความซึ่งเผยแพร่เมื่อวันที่ 1 มีนาคม 2021 ได้รับการเก็บรักษาไว้ด้านล่าง

ในขณะที่ผู้ให้บริการในสหรัฐอเมริกากำลังยุ่งอยู่กับการทำการตลาดเครือข่าย 5G ใหม่ แต่ความจริงก็คือคนส่วนใหญ่ไม่ได้สัมผัสกับความเร็วที่โฆษณาไว้ ยังมีหลายพื้นที่ของสหรัฐอเมริกา — และทั่วโลก — ที่ความเร็วข้อมูลช้า ดังนั้นเพื่อชดเชย บริการต่างๆ เช่น Google Duo ใช้เทคนิคการบีบอัดเพื่อส่งมอบวิดีโอและเสียงที่ดีที่สุดเท่าที่จะเป็นไปได้ ประสบการณ์. ขณะนี้ Google กำลังทดสอบตัวแปลงสัญญาณเสียงใหม่ซึ่งมีจุดมุ่งหมายเพื่อปรับปรุงคุณภาพเสียงในการเชื่อมต่อเครือข่ายที่ไม่ดีอย่างมาก

ในโพสต์บล็อกทีมงาน Google AI ให้รายละเอียดตัวแปลงสัญญาณเสียงพูดคุณภาพสูงและบิตเรตต่ำมากตัวใหม่ที่พวกเขาตั้งชื่อว่า "Lyra" เหมือนแบบดั้งเดิม ตัวแปลงสัญญาณแบบพาราเมตริก สถาปัตยกรรมพื้นฐานของ Lyra เกี่ยวข้องกับการแยกคุณลักษณะคำพูดที่โดดเด่น (หรือที่เรียกว่า "คุณลักษณะ") ใน รูปแบบของ

บันทึกสเปกโตรแกรมเมล ที่ถูกบีบอัด ส่งผ่านเครือข่าย และสร้างขึ้นใหม่ในอีกด้านหนึ่งโดยใช้แบบจำลองกำเนิด แตกต่างจากตัวแปลงสัญญาณแบบพาราเมตริกแบบดั้งเดิม Lyra ใช้โมเดลการสร้างเสียงคุณภาพสูงใหม่ที่ไม่ใช่ สามารถแยกพารามิเตอร์ที่สำคัญออกจากคำพูดได้เท่านั้น แต่ยังสามารถสร้างคำพูดขึ้นมาใหม่ได้โดยใช้จำนวนที่น้อยที่สุด ข้อมูล. โมเดลเจนเนอเรชั่นใหม่ที่ใช้ใน Lyra สร้างขึ้นจาก Google งานก่อนหน้าบน WaveNetEQซึ่งเป็นระบบปกปิดการสูญหายของแพ็กเก็ตตามแบบจำลองที่ใช้ใน Google Duo ในปัจจุบัน

สถาปัตยกรรมพื้นฐานของไลรา ที่มา: Google

Google กล่าวว่าแนวทางดังกล่าวทำให้ Lyra ทัดเทียมกับตัวแปลงสัญญาณรูปคลื่นที่ล้ำสมัยซึ่งใช้ในแพลตฟอร์มสตรีมมิ่งและการสื่อสารในปัจจุบัน Google ระบุว่าประโยชน์ของ Lyra เหนือตัวแปลงสัญญาณรูปคลื่นที่ล้ำสมัยเหล่านี้ก็คือ Lyra จะไม่ส่งสัญญาณตัวอย่างทีละตัวอย่าง ซึ่งต้องใช้บิตเรตที่สูงกว่า (และข้อมูลจึงมากขึ้น) เพื่อเอาชนะความกังวลเรื่องความซับซ้อนในการคำนวณของการรันโมเดลเจนเนอเรทีฟบนอุปกรณ์ Google กล่าวว่า Lyra ใช้ "โมเดลเจนเนอเรทีฟที่เกิดซ้ำที่ราคาถูกกว่า" ซึ่งทำงานได้ "ที่ อัตราที่ต่ำกว่า" แต่สร้างสัญญาณหลายสัญญาณที่ช่วงความถี่ที่แตกต่างกันแบบขนานซึ่งต่อมารวมกัน "เป็นสัญญาณเอาต์พุตเดียวที่อัตราตัวอย่างที่ต้องการ" การใช้โมเดลกำเนิดนี้บนอุปกรณ์ระดับกลางแบบเรียลไทม์จะให้เวลาแฝงในการประมวลผล 90 มิลลิวินาที ซึ่ง Google กล่าวว่า "สอดคล้องกับคำพูดแบบดั้งเดิมอื่นๆ ตัวแปลงสัญญาณ"

คู่กับ ตัวแปลงสัญญาณ AV1 สำหรับวิดีโอGoogle กล่าวว่าวิดีโอแชทสามารถเกิดขึ้นได้แม้กระทั่งกับผู้ใช้ที่ใช้โมเด็มโทรเข้า 56kbps แบบโบราณ นั่นเป็นเพราะว่า Lyra ได้รับการออกแบบมาเพื่อทำงานในสภาพแวดล้อมที่มีแบนด์วิธจำกัดอย่างมาก เช่น 3kbps จากข้อมูลของ Google นั้น Lyra มีประสิทธิภาพเหนือกว่า Opus codec แบบโอเพ่นซอร์สที่ไม่มีค่าลิขสิทธิ์รวมถึงตัวแปลงสัญญาณอื่น ๆ เช่น Speex, MELP และ AMR ได้อย่างง่ายดายด้วยบิตเรตต่ำมาก ต่อไปนี้คือตัวอย่างคำพูดบางส่วนจาก Google ยกเว้นเสียงที่เข้ารหัสใน Lyra ตัวอย่างคำพูดแต่ละตัวอย่างจะได้รับผลกระทบจากคุณภาพเสียงที่ลดลงที่บิตเรตต่ำมาก

คำพูดที่สะอาด

ต้นฉบับ

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_reference.wav

บทประพันธ์@6kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_opus.wav

ไลรา@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_lyra.wav

Speex@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_speex.wav

สภาพแวดล้อมที่มีเสียงดัง

ต้นฉบับ

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_reference.wav

บทประพันธ์@6kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_opus.wav

ไลรา@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_lyra.wav

Speex@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_speex.wav

Google กล่าวว่าได้ฝึกฝน Lyra "ด้วยเสียงหลายพันชั่วโมงพร้อมผู้พูดในกว่า 70 ภาษาโดยใช้ไลบรารีเสียงแบบโอเพ่นซอร์ส จากนั้นจึงตรวจสอบเสียง คุณภาพกับผู้ฟังที่เชี่ยวชาญและผู้ฟังจากฝูงชน" ด้วยเหตุนี้ ตัวแปลงสัญญาณใหม่จึงเปิดตัวใน Google Duo แล้ว เพื่อปรับปรุงคุณภาพการโทรด้วยแบนด์วิดท์ที่ต่ำมาก การเชื่อมต่อ แม้ว่าปัจจุบัน Lyra จะมุ่งเป้าไปที่กรณีการใช้คำพูด แต่ Google ก็กำลังสำรวจวิธีทำให้เป็นตัวแปลงสัญญาณเสียงสำหรับใช้งานทั่วไป

อัปเดต 1: ตัวแปลงสัญญาณ Lyra โอเพ่นซอร์สของ Google ที่ใช้ใน Google Duo

เมื่อต้นสัปดาห์ที่ผ่านมา Google ประกาศแล้ว มันมี Lyra แบบโอเพ่นซอร์ส ซึ่งเป็นตัวแปลงสัญญาณเสียงใหม่ที่ Google Duo ใช้ ดังนั้นนักพัฒนารายอื่นจึงสามารถใช้มันในแอปการสื่อสารของตนเองได้ การเปิดตัวครั้งนี้มาพร้อมกับเครื่องมือที่จำเป็นในการเข้ารหัสและถอดรหัสเสียงด้วย Lyra และได้รับการปรับให้เหมาะสมสำหรับ ARM Android 64 บิตพร้อมการพัฒนาบน Linux ห้องสมุดโอเพ่นซอร์สมุ่งเน้นไปที่การใช้ Lyra สำหรับการสื่อสารด้วยเสียงแบบเรียลไทม์ แต่ Google เป็นเช่นนั้น คาดหวังว่านักพัฒนาจะใช้ตัวแปลงสัญญาณกับแอปพลิเคชันอื่นที่เข้ารหัสและถอดรหัสคำพูด เสียง โค้ดเขียนด้วยภาษา C++ และ core API, ห่วงโซ่เครื่องมือการประมวลผลสัญญาณ และแอป Android สาธิตพร้อมให้ใช้งานแล้ว GitHub เป็นรุ่นเบต้าภายใต้ลิขสิทธิ์ Apache