Hexagon 685 DSP ของ Qualcomm คือขุมพลังแห่งการเรียนรู้ของเครื่องจักร

Snapdragon 845 ของ Qualcomm บรรจุชิปการเรียนรู้ของเครื่องอันทรงพลังไว้ภายใน เรียกว่า Hexagon 685 DSP และเป็นก้าวสำคัญในฮาร์ดแวร์ AI

Snapdragon 845 ซึ่งเป็นระบบบนชิปใหม่ล่าสุดในตระกูล Snapdragon ของ Qualcomm ถือเป็นขุมพลังของโปรเซสเซอร์ มีคอร์ CPU ที่รวดเร็ว, ตัวประมวลผลสัญญาณภาพ Spectra (ISP) รุ่นที่สาม และสถาปัตยกรรมที่ประหยัดพลังงานมากกว่ารุ่นก่อนหน้าถึง 30 เปอร์เซ็นต์ แต่ส่วนประกอบที่น่าประทับใจที่สุดคือโปรเซสเซอร์ร่วม - Hexagon 685 DSP - ซึ่งออกแบบมาเพื่อปัญญาประดิษฐ์และการเรียนรู้ของเครื่อง

อะไรที่ทำให้ Hexagon 685 DSP ของ Qualcomm ติ๊ก

สถาปัตยกรรม Hexagon DSP ใน Snapdragon 835 ที่มา: ควอลคอมม์

"คณิตศาสตร์เวกเตอร์เป็นรากฐานของการเรียนรู้เชิงลึก" - Travis Lanier ผู้อำนวยการอาวุโสฝ่ายการจัดการผลิตภัณฑ์ของ Qualcomm

เพื่อให้เข้าใจถึงสิ่งที่ทำให้ Hexagon DSP มีเอกลักษณ์เฉพาะตัว การรู้ว่า AI ได้รับการขับเคลื่อนจากสาขาวิชาวิศวกรรมศาสตร์ในวิทยาลัยคณิตศาสตร์ที่คุ้นเคยเป็นอย่างดีจะช่วยให้เข้าใจได้ การเรียนรู้ของเครื่องเกี่ยวข้องกับการคำนวณด้วยเวกเตอร์ขนาดใหญ่ ซึ่งเป็นความท้าทายสำหรับโปรเซสเซอร์สมาร์ทโฟน แท็บเล็ต และพีซี เป็นเรื่องยากสำหรับชิปเอนกประสงค์ในการคำนวณอัลกอริธึม เช่น Stochastic Gradient Descent ซึ่งเป็นอัลกอริธึมประเภทต่างๆ ที่เป็นแกนหลักของแอปที่ขับเคลื่อนด้วย AI ได้อย่างรวดเร็วและมีประสิทธิภาพ Hexagon DSP ของ Qualcomm ถูกนำมาใช้เพื่อแก้ปัญหานี้: จัดการข้อมูลภาพและเซ็นเซอร์ได้ดี โดยเฉพาะการถ่ายภาพ

แต่ Hexagon DSP มีความสามารถมากกว่าการถ่ายเซลฟี่ให้สวยงาม บริบท HVX ที่รวมอยู่ (จะอธิบายเพิ่มเติมในภายหลัง) ให้ข้อได้เปรียบของทั้งโปรเซสเซอร์อเนกประสงค์และคอร์ที่มีฟังก์ชันคงที่ Hexagon 685 DSP มีประสิทธิภาพที่ยอดเยี่ยมในการคำนวณทางคณิตศาสตร์ที่อยู่เบื้องหลังการเรียนรู้ของเครื่องบนอุปกรณ์ แต่ยังคงความยืดหยุ่นของโปรเซสเซอร์ที่ตั้งโปรแกรมได้มากกว่า

ชิป AI เช่น Hexagon 685 DSP ซึ่งบางครั้งเรียกว่า “หน่วยประมวลผลประสาท” “เอ็นจิ้นประสาท” หรือ “แกนการเรียนรู้ของเครื่องจักร” ได้รับการปรับแต่งให้เหมาะกับอัลกอริทึมทางคณิตศาสตร์ของ AI โดยเฉพาะ ความต้องการ มีการออกแบบที่เข้มงวดกว่า CPU แบบดั้งเดิมมาก และมีคำสั่งและการจัดเตรียมพิเศษ (ในกรณีของ Hexagon 685 DSP สถาปัตยกรรม HVX ที่กล่าวมาข้างต้น) ซึ่งเร่งการดำเนินการสเกลาร์และเวกเตอร์บางอย่าง ซึ่งจะสังเกตเห็นได้ชัดเจนในขนาดใหญ่ การใช้งาน

Hexagon 685 DSP ของ Snapdragon 845 สามารถรองรับหน่วยเวกเตอร์ได้หลายพันบิตต่อรอบการประมวลผล เมื่อเปรียบเทียบกับหลายร้อยบิตต่อรอบของคอร์ CPU โดยเฉลี่ย นั่นเป็นเพราะการออกแบบ ด้วยเธรดสเกลาร์แบบขนานสี่เธรดสำหรับการดำเนินการ Very Long Instruction Word (VLIW) และบริบท HVX หลายรายการ DSP จึงเป็น สามารถสลับหน่วยการดำเนินการหลายหน่วยในคำสั่งเดียวและแสดงผ่านเลขจำนวนเต็มและจุดทศนิยมคงที่ การดำเนินงาน

แทนที่จะผลักดันประสิทธิภาพผ่าน MHz แบบดิบ การออกแบบของ Hexagon 685 มุ่งเป้าไปที่การทำงานในระดับสูงต่อรอบด้วยความเร็วสัญญาณนาฬิกาที่ลดลง ประกอบด้วยฮาร์ดแวร์แบบมัลติเธรดที่ทำงานได้ดีสำหรับ VLIW เนื่องจากมัลติเธรดจะซ่อนเวลาแฝงของไปป์ไลน์ ช่วยให้สามารถใช้งานแพ็กเก็ต VLIW ได้ดีขึ้น มัลติเธรดของ DSP หมายความว่าสามารถให้บริการเซสชันออฟโหลดได้หลายครั้ง เช่น แอปเสียง กล้อง คอมพิวเตอร์วิทัศน์ และอื่นๆ -- และเร่งงานต่างๆ ไปพร้อมๆ กัน ป้องกันไม่ให้แอปพลิเคชันต้องต่อสู้เพื่อแย่งชิง เวลาดำเนินการ.

ที่มา: ควอลคอมม์

แต่นั่นไม่ใช่จุดแข็งเพียงอย่างเดียวของ Hexagon DSP สถาปัตยกรรมชุดคำสั่ง (ISA) มีประสิทธิภาพที่ดีขึ้นกว่า VLIW แบบดั้งเดิมด้วย โค้ดควบคุมที่ได้รับการปรับปรุง และใช้เทคนิคอันชาญฉลาดในการกู้คืนประสิทธิภาพจากการไม่ได้ใช้งานและจนตรอก หัวข้อ นอกจากนี้ยังใช้การตั้งเวลาเธรดแบบ Round-Robin แบบ Zero-latency ซึ่งหมายความว่าเธรดของ DSP จะประมวลผลคำสั่งใหม่ทันทีหลังจากเสร็จสิ้นแพ็กเก็ตข้อมูลก่อนหน้า

ที่มา: ควอลคอมม์

ไม่มีอะไรใหม่เพื่อให้ชัดเจน Qualcomm เปิดตัว Hexagon DSP 'รุ่นแรก' (หรือเหมาะสม) - Hexagon 680 หรือ QDSP6 v6 - ควบคู่ไปกับ Snapdragon 820 ในปี 2558 และ Hexagon 680 ตามมาด้วยการปรับปรุงเล็กน้อย หกเหลี่ยม 682. แต่เจนเนอเรชั่นล่าสุดนั้นซับซ้อนที่สุด และมอบประสิทธิภาพโดยรวมของ DSP ของ Snapdragon 835 ถึงสามเท่า

ส่วนใหญ่ต้องขอบคุณ HVX ซึ่งทำงานได้ดีมากสำหรับการประมวลผลภาพ (ลองนึกถึงความเป็นจริงเสริม คอมพิวเตอร์วิทัศน์ วิดีโอ และรูปภาพ) รีจิสเตอร์ HVX ของ DSP สามารถควบคุมได้โดยรีจิสเตอร์สเกลาร์สองตัวใดก็ได้ และสามารถใช้หน่วย HVX และหน่วยสเกลาร์ได้พร้อมกัน ส่งผลให้ประสิทธิภาพเพิ่มขึ้นและทำงานพร้อมกันได้อย่างมาก

นี่ คำอธิบายของวอลคอมม์:

“สมมติว่าคุณกำลังประมวลผลบน CPU มือถือในโหมดรหัสควบคุม และคุณสลับไปที่โหมดการคำนวณบนตัวประมวลผลร่วม หากคุณต้องการโค้ดควบคุมใดๆ คุณต้องหยุดและกลับจากตัวประมวลผลร่วมไปยัง CPU หลัก ด้วย Hexagon ทั้งตัวประมวลผลโค้ดควบคุมบน DSP และตัวประมวลผลโค้ดเชิงคำนวณบน HVX สามารถทำงานได้พร้อมกันเพื่อให้การควบคุมและโค้ดเชิงคำนวณเชื่อมโยงกันอย่างแน่นหนา ซึ่งช่วยให้ DSP รับผลลัพธ์ของการคำนวณ HVX และใช้ในการตัดสินใจโค้ดควบคุมในรอบสัญญาณนาฬิกาถัดไป”

HVX มอบข้อได้เปรียบที่สำคัญอีกประการหนึ่งในการประมวลผลเซนเซอร์ภาพ อุปกรณ์ Snapdragon ที่มี Hexagon 685 DSP สามารถสตรีมข้อมูลได้โดยตรงจากเซ็นเซอร์ภาพไปยังหน่วยความจำในเครื่องของ DSP (แคช L2) โดยไม่ผ่านตัวควบคุมหน่วยความจำ DDR ของอุปกรณ์ แน่นอนว่าจะช่วยลดเวลาในการตอบสนอง แต่ยังช่วยยืดอายุการใช้งานแบตเตอรี่ด้วย โปรเซสเซอร์ Snapdragon ได้รับการออกแบบมาให้ไม่มีการใช้งานตลอดการทำงาน

ได้รับการปรับให้เหมาะสมเป็นพิเศษสำหรับเครือข่ายจุดลอยตัว 16 บิต และควบคุมโดยซอฟต์แวร์การเรียนรู้ของเครื่อง Qualcomm: Snapdragon Neural Processing Engine

“เรา [ดำเนินการ] อย่างจริงจัง” โฆษกของ Qualcomm กล่าว “เราได้ทำงานร่วมกับพันธมิตรในช่วงสามปีที่ผ่านมาเพื่อให้พวกเขาใช้ [...] ซิลิคอนของเราสำหรับ AI และการถ่ายภาพ”

พันธมิตรเหล่านั้นรวมถึง Google ซึ่งใช้ส่วนการประมวลผลภาพของ Hexagon DSP เพื่อขับเคลื่อนอัลกอริธึม HDR+ ของ Pixel และ Pixel 2 เป็นต้น แม้ว่า Google จะเปิดตัว Pixel Core ของตัวเองเช่นกัน แต่ก็น่าสังเกตว่าอุปกรณ์ที่เปิดใช้งาน Hexagon 685 DSP นั้น สิ่งที่เห็นผลลัพธ์ที่ดีที่สุดด้วยพอร์ต Google Camera อันโด่งดัง ส่วนหนึ่งเป็นเพราะ (ตามที่เรายืนยันแล้ว) ของ HVX การใช้ประโยชน์ Facebook ซึ่งเป็นพันธมิตรอีกรายหนึ่งทำงานอย่างใกล้ชิดกับ Qualcomm เพื่อเร่งตัวกรองและเอฟเฟกต์กล้องแบบเรียลไทม์ของ Messenger

Oppo ได้เพิ่มประสิทธิภาพเทคโนโลยีการปลดล็อคด้วยใบหน้าสำหรับ Hexagon 685 DSP และ Lenovo ได้พัฒนาคุณสมบัติ Landmark Detection โดยรอบ

เหตุผลหนึ่งที่ทำให้แพลตฟอร์มได้รับการสนับสนุนมากมายก็คือความเรียบง่าย Hexagon SDK ที่ครอบคลุมของ Qualcomm รองรับภาษา Halide สำหรับการประมวลผลภาพประสิทธิภาพสูง โดยไม่จำเป็น กังวลเกี่ยวกับเฟรมเวิร์กการฝึกอบรมแมชชีนเลิร์นนิง การใช้โมเดลนั้นทำได้ง่ายพอ ๆ กับการโทร API โดยส่วนใหญ่ กรณี

“เราไม่ได้ [...] แข่งขันกับ IBM และ Nvidia [ใน AI] แต่เรามีพื้นที่ที่นักพัฒนาสามารถเข้าถึง - และมีอยู่แล้ว” Qualcomm บอกกับ XDA Developers

หกเหลี่ยมเทียบกับ การแข่งขัน

Hexagon 685 DSP ของ Snapdragon 845 มาพร้อมกับผู้ผลิตอุปกรณ์ดั้งเดิม (OEM) จำนวนมากขึ้นที่แสวงหาโซลูชัน AI บนอุปกรณ์เคลื่อนที่และบนอุปกรณ์ของตนเอง ของหัวเว่ย คิริน 970 -- ระบบบนชิปภายใน เมท 10 และ เมท 10 โปร -- มี "หน่วยประมวลผลประสาท" (NPU) ที่สามารถรายงานว่าสามารถจดจำภาพได้มากกว่า 2,000 ภาพต่อวินาที โดยใช้พลังงานเพียง 1/50 ของ CPU ของสมาร์ทโฟนโดยเฉลี่ย และระบบบนชิป Apple A11 Bionic ใน iPhone 8, iPhone 8 Plus และ iPhone X มี “Neural Engine” ที่ทำการสร้างแบบจำลองใบหน้าแบบเรียลไทม์และดำเนินการได้มากถึง 6 แสนล้านรายการต่อวินาที

แต่วอลคอมม์กล่าวว่าการไม่เชื่อเรื่องพระเจ้าของแพลตฟอร์มHexagon ทำให้ได้เปรียบ ต่างจาก Apple และ Huawei ซึ่งส่วนใหญ่บังคับให้นักพัฒนาใช้ API ที่เป็นกรรมสิทธิ์ Qualcomm พยายามสนับสนุนเฟรมเวิร์กโอเพ่นซอร์สที่ได้รับความนิยมสูงสุดตั้งแต่เริ่มต้น ตัวอย่างเช่น ทำงานร่วมกับ Google เพื่อเพิ่มประสิทธิภาพ เทนเซอร์โฟลว์ซึ่งเป็นแพลตฟอร์มแมชชีนเลิร์นนิงของ Google สำหรับ Hexagon 685 DSP -- Qualcomm กล่าวว่ามันทำงานได้เร็วกว่าถึง 8 เท่าและประหยัดพลังงานมากกว่า 25 เท่าเมื่อเทียบกับอุปกรณ์ที่ไม่ใช่ Hexagon

ที่มา: ควอลคอมม์

บนสถาปัตยกรรม DSP ของ Qualcomm, ของ Google GoogLeNet Inception เครือข่ายประสาทเทียมระดับลึก -- อัลกอริธึมการเรียนรู้ของเครื่องที่ออกแบบมาเพื่อประเมินคุณภาพของระบบการตรวจจับและการจำแนกวัตถุ - แสดงให้เห็นประโยชน์จากการสาธิต แอปจดจำรูปภาพที่ขับเคลื่อนด้วย TensorFlow หนึ่งแอปบนสมาร์ทโฟนสองเครื่อง: แอปหนึ่งรันแอปบน CPU และอีกแอปหนึ่งทำงานบน Hexagon ของ Qualcomm ดีเอสพี. แอปสมาร์ทโฟนที่เร่งด้วย DSP จับภาพต่อวินาทีได้มากขึ้น ระบุวัตถุได้เร็วขึ้น และมีความมั่นใจในการสรุปว่าวัตถุนั้นคืออะไรมากกว่าแอปที่ใช้ CPU เท่านั้น

Google ยังใช้ Hexagon 685 DSP เพื่อเร่งความเร็ว Project Tango ซึ่งเป็นแพลตฟอร์มความเป็นจริงเสริมสำหรับสมาร์ทโฟน Phab 2 Pro ของ Lenovo, ZenFone AR ของ Asus และอุปกรณ์อื่นๆ ที่มีโมดูล IR ตรวจจับเชิงลึกของ Tango และกล้องติดตามภาพใช้ประโยชน์จาก Qualcomm's สถาปัตยกรรมการประมวลผลแบบ Heterogeneous ซึ่งมอบหมายงานการประมวลผลระหว่าง Hexagon 685 DSP ของชิปเซ็ต Snapdragon, ฮับเซ็นเซอร์ และสัญญาณภาพ โปรเซสเซอร์ (ISP) ผลลัพธ์ที่ได้คือค่าใช้จ่าย "น้อยกว่า 10 เปอร์เซ็นต์" บน CPU ของระบบบนชิปตามข้อมูลของ Qualcomm

“เท่าที่เรารู้ เราเป็นเพียงกลุ่มมือถือกลุ่มเดียวที่ [กำลัง] เพิ่มประสิทธิภาพและประสิทธิภาพการใช้พลังงาน” โฆษกของ Qualcomm กล่าว

แน่นอนว่าคู่แข่งกำลังทำงานเพื่อขยายขอบเขตอิทธิพลและส่งเสริมการสนับสนุนนักพัฒนาบนแพลตฟอร์มของพวกเขา ชิปนิวรัลของ Kirin 970 เปิดตัวพร้อมการรองรับ TensorFlow และ คาเฟ่ (เฟรมเวิร์ก API แบบเปิดของ Facebook) นอกเหนือจาก Kirin API ของ Huawei ด้วย TensorFlow Lite และ คาเฟ่2 บูรณาการในปลายปีนี้ และ Huawei ทำงานร่วมกับ Microsoft เพื่อเพิ่มประสิทธิภาพนักแปลที่ขับเคลื่อนด้วย AI สำหรับ Mate 10

แต่ Qualcomm มีข้อได้เปรียบอีกประการหนึ่ง: การเข้าถึง ผู้ผลิตชิปควบคุมตลาดชิปสมาร์ทโฟน 42 เปอร์เซ็นต์ในช่วงครึ่งแรกของปี 2560 ตามมาด้วย Apple และ MediaTek ที่ 18 เปอร์เซ็นต์ต่อตลาดตาม Strategy Analytics พอจะพูดได้ว่ารองเท้าบู๊ตยังไม่สั่นเลย

และวอลคอมม์คาดการณ์ว่ามันจะเติบโตเท่านั้น ผู้ผลิตชิปคาดการณ์รายรับ 160 พันล้านดอลลาร์ภายในปี 2568 ด้วยเทคโนโลยีซอฟต์แวร์ AI เช่น คอมพิวเตอร์วิทัศน์ และ มองว่าตลาดสมาร์ทโฟนซึ่งคาดว่าจะมียอดจัดส่งถึง 8.6 พันล้านเครื่องภายในปี 2564 ถือเป็นตลาดที่ใหญ่ที่สุด แพลตฟอร์ม.

ด้วย Hexagon 685 DSP และการปรับปรุง "ระดับอุดมศึกษา" อื่นๆ อย่างต่อเนื่องเพื่อมุ่งหน้าสู่ระดับกลาง ฮาร์ดแวร์ ยังง่ายกว่าสำหรับชิป Qualcomm ที่จะนำการเรียนรู้ของเครื่องบนอุปกรณ์มาสู่อุปกรณ์ทุกประเภทในบริเวณใกล้เคียง อนาคต. พวกเขายังเสนอ SDK ที่มีประโยชน์สำหรับนักพัฒนา (ไม่จำเป็นต้องยุ่งยากกับภาษาแอสเซมบลี DSP) เพื่อใช้ประโยชน์จาก Hexagon 685 DSP และ HVX ในแอปพลิเคชันและบริการของพวกเขา

“มีความจำเป็นสำหรับหน่วยประมวลผลเฉพาะเหล่านี้สำหรับการประมวลผลทางประสาท แต่คุณต้องขยายมันด้วย เพื่อให้คุณสามารถรองรับกรอบงาน [โอเพ่นซอร์ส] ได้” โฆษกของ Qualcomm กล่าว “ถ้าคุณไม่สร้างระบบนิเวศนั้น ก็ไม่มีทางที่นักพัฒนา [...] จะสามารถสร้างมันขึ้นมาได้”