Qualcomm ก้าวกระโดดครั้งใหญ่ในด้านประสิทธิภาพ AI ด้วย Snapdragon 865 SoC ใหม่ เราวิเคราะห์การเปลี่ยนแปลงที่ Qualcomm ทำเพื่อเร่งการเรียนรู้ของเครื่อง
ดูเหมือนว่าเราไม่สามารถไปได้สักวันโดยไม่เห็น "ปัญญาประดิษฐ์" ในข่าว และสัปดาห์ที่ผ่านมานี้ก็ไม่มีข้อยกเว้นในส่วนเล็กๆ ต้องขอบคุณ Snapdragon Tech Summit ทุกปี Qualcomm จะเปิดเผยการปรับปรุงมากมายที่นำมาสู่ Hexagon DSP และ Qualcomm AI Engine คำที่พวกเขาใช้สำหรับแพลตฟอร์มการประมวลผลที่แตกต่างกันทั้งหมด - CPU, GPU และ DSP - เมื่อพูดถึง AI ปริมาณงาน ไม่กี่ปีที่ผ่านมา การที่ Qualcomm ยืนกรานที่จะย้ายการสนทนาออกไปจากจุดพูดคุยแบบเดิมๆ เช่น การปรับปรุงประสิทธิภาพของ CPU เมื่อเทียบเป็นรายปี ดูเหมือนจะค่อนข้างแปลก แต่ในปี 2019 และด้วย Snapdragon 865 เราพบว่าการประมวลผลแบบต่างกันนั้นแท้จริงแล้วเป็นผู้นำในการผลักดันการประมวลผลแบบเคลื่อนที่ของพวกเขา เช่นเดียวกับ AI และปริมาณงานที่เร่งด้วยฮาร์ดแวร์ดูเหมือนจะแอบเข้าไปในกรณีการใช้งานและแอปพลิเคชันที่หลากหลาย ตั้งแต่โซเชียลมีเดียไปจนถึงทุกวัน บริการ
Snapdragon 865 นำเอ็นจิ้น AI เจนเนอเรชั่นที่ 5 ของ Qualcomm มาพร้อมกับการปรับปรุงประสิทธิภาพและประสิทธิภาพการใช้พลังงานอย่างฉับไว แต่ก็เป็นไปตามที่คาดหวัง ในแง่ของข้อกำหนด ตัวเลขประสิทธิภาพ คำศัพท์ทางวิศวกรรมที่หรูหรา และคำศัพท์ทางการตลาดที่น่าเบื่อ เป็นเรื่องง่ายที่จะมองข้ามความหมายของการปรับปรุงเหล่านี้จริงๆ พวกเขาอธิบายอะไร? เหตุใดการอัปเกรดเหล่านี้จึงมีความหมายมากสำหรับผู้ที่นำ AI ไปใช้งานในแอปของตนในปัจจุบัน และที่สำคัญกว่านั้นคือสำหรับผู้ที่ต้องการอัปเกรดในอนาคต
ในบทความนี้ เราจะพาทัวร์ชม Qualcomm AI Engine อย่างละเอียดที่เข้าถึงได้ง่าย โดยผสมผสานประวัติ ส่วนประกอบ และการอัปเกรดของ Snapdragon 865 และที่สำคัญที่สุด ทำไม หรือ ยังไง สิ่งเหล่านี้มีส่วนทำให้เกิดประสบการณ์การใช้งานสมาร์ทโฟนในปัจจุบัน ตั้งแต่ฟิลเตอร์ตลกๆ ไปจนถึงผู้ช่วยดิจิทัล
Hexagon DSP และ Qualcomm AI Engine: เมื่อการสร้างแบรนด์สร้างความแตกต่าง
แม้ว่าฉันจะไม่สามารถเข้าร่วม Snapdragon Tech Summit ในสัปดาห์นี้ได้ แต่ฉันก็ได้เข้าร่วมทุก ๆ คนมาตั้งแต่ปี 2558 หากคุณจำได้ ที่ เป็นปีแห่งความยุ่งวุ่นวายอย่าง Snapdragon 810 และนักข่าวที่ Chelsea Loft ในนิวยอร์กซิตี้ต่างกระตือรือร้นที่จะค้นหาว่า Snapdragon 820 จะไถ่ถอนบริษัทได้อย่างไร และมันเป็นชิปเซ็ตที่ยอดเยี่ยม เอาล่ะ: มันสัญญาว่าจะปรับปรุงประสิทธิภาพที่ดี (โดยไม่มีการควบคุมปริมาณ) โดยการกลับไปใช้คอร์แบบกำหนดเองที่ Qualcomm รู้จักและเคยลองมาแล้วจริง แต่ฉันยังจำประกาศที่ละเอียดอ่อนมากว่าเมื่อมองย้อนกลับไปแล้ว ควรได้รับความสนใจมากกว่านี้: Hexagon 680 DSP รุ่นที่สองและคำสั่งเดียว, Multiple Data (SIMD) Hexagon Vector eXtensions หรือ HVX. บางทีหากวิศวกรไม่ได้ตั้งชื่อคุณลักษณะนี้ ก็อาจได้รับความสนใจตามที่สมควรได้รับ
โปรเซสเซอร์ร่วมนี้ช่วยให้เธรดฮาร์ดแวร์ของหน่วยสเกลาร์ DSP เข้าถึง "บริบท" ของ HVX (ไฟล์รีจิสเตอร์) สำหรับความสามารถในการประมวลผลเวกเตอร์แบบกว้าง ช่วยให้สามารถถ่ายภาระงานประมวลผลที่สำคัญจาก CPU หรือ GPU ที่ต้องการพลังงานไปยัง DSP ที่ประหยัดพลังงานเพื่อให้งานเกี่ยวกับภาพและคอมพิวเตอร์วิทัศน์ทำงานด้วยประสิทธิภาพที่ดีขึ้นอย่างมาก ต่อมิลลิวัตต์ เหมาะอย่างยิ่งสำหรับการใช้การดำเนินการที่เหมือนกันกับองค์ประกอบเวกเตอร์ที่ต่อเนื่องกัน (แต่เดิมเป็นเพียงจำนวนเต็ม) ทำให้เหมาะสำหรับปริมาณงานคอมพิวเตอร์วิทัศน์ เราเคยเขียนบทความเชิงลึกเกี่ยวกับ DSP และ HVX ในอดีตโดยสังเกตว่าสถาปัตยกรรม HVX ยืมตัวเองได้ดีในการขนานและเห็นได้ชัดว่าประมวลผลเวกเตอร์อินพุตขนาดใหญ่ ในเวลานั้น Qualcomm ส่งเสริมทั้ง DSP และ HVX เกือบทั้งหมดโดยการอธิบายการปรับปรุงเหล่านั้น จะนำมาซึ่งปริมาณงานด้านการมองเห็นของคอมพิวเตอร์ เช่น อุปกรณ์ตรวจจับมุมของ Harris และหน้าต่างบานเลื่อนอื่นๆ วิธีการ
จนกระทั่งถึงการถือกำเนิดของการเรียนรู้เชิงลึกในแอปพลิเคชันมือถือสำหรับผู้บริโภคที่ DSP ซึ่งเป็นเวกเตอร์ หน่วยประมวลผล (และตอนนี้คือตัวเร่งเทนเซอร์) จะแต่งงานกับ AI และโครงข่ายประสาทเทียม โดยเฉพาะ. แต่เมื่อมองย้อนกลับไป ก็สมเหตุสมผลดี: สถาปัตยกรรมตัวประมวลผลสัญญาณดิจิทัล (DSP) ซึ่งแต่เดิมได้รับการออกแบบมาเพื่อการจัดการในรูปแบบดิจิทัล อินพุตสัญญาณในโลกแห่งความเป็นจริงหรืออนาล็อก สามารถรองรับปริมาณงานเดียวกันกับอัลกอริธึมการเรียนรู้ของเครื่องและระบบประสาท เครือข่าย ตัวอย่างเช่น DSP ได้รับการปรับแต่งสำหรับเคอร์เนลตัวกรอง การดำเนินการบิดและความสัมพันธ์ การคำนวณ 8 บิต การประมวลผลจำนวนมาก พีชคณิตเชิงเส้น (ผลคูณเวกเตอร์และเมทริกซ์) และการดำเนินการทวีคูณ (MAC) ทั้งหมดนี้มีประสิทธิภาพสูงสุดเมื่อ ขนานกัน รันไทม์ของโครงข่ายประสาทเทียมยังขึ้นอยู่กับการคูณเวกเตอร์ เมทริกซ์ และ/หรือเทนเซอร์ขนาดใหญ่ด้วย ดังนั้น เป็นเรื่องปกติที่ข้อดีด้านประสิทธิภาพของ DSP จะแปลเป็นสถาปัตยกรรมเครือข่ายประสาทเทียมอย่างเรียบร้อย ดี. เราจะกลับมาทบทวนหัวข้อนี้อีกครั้งโดยย่อ!
ในปีต่อ ๆ มา Qualcomm ยังคงเน้นย้ำว่าพวกเขาไม่ได้เสนอ แค่ ชิปเซ็ตแต่ แพลตฟอร์มมือถือและพวกเขาไม่ได้เน้น แค่ ในการปรับปรุงส่วนประกอบเฉพาะ แต่ให้การประมวลผลที่ "ต่างกัน" ในปี 2560 พวกเขาได้เปิดตัว Snapdragon Neural Processing Engine SDK (สำหรับการเร่งความเร็วรันไทม์) บนเครือข่ายนักพัฒนา Qualcomm และในต้นปี 2561 พวกเขา ประกาศเปิดตัว Qualcomm Artificial Intelligence Engine เพื่อรวมฮาร์ดแวร์ที่รองรับ AI หลายตัว (CPU, GPU, DSP) และส่วนประกอบซอฟต์แวร์ไว้ในที่เดียว ชื่อ. ด้วยระบบการตั้งชื่อที่มีประโยชน์นี้ พวกเขาสามารถโฆษณาการปรับปรุงประสิทธิภาพ AI ของตนบน Snapdragon 855 และ Snapdragon 855 และ Snapdragon 865 สามารถสะกดจำนวนการทำงานนับล้านล้านต่อวินาที (TOPS) และเปอร์เซ็นต์ปีต่อปีได้อย่างสะดวกสบาย การปรับปรุง ควบคุมการปรับปรุงรุ่นต่างๆ ใน CPU, GPU และ DSP - ทั้งหมดนี้เน้นไปที่ AI ของตัวเอง การอัพเกรด - บริษัทสามารถโพสต์เกณฑ์มาตรฐานที่น่าประทับใจเทียบกับคู่แข่งได้ ซึ่งเราจะกล่าวถึงต่อไป ไม่นาน ด้วยความพยายามทางการตลาดของบริษัทเมื่อเร็วๆ นี้และการส่งข้อความที่เป็นหนึ่งเดียวและสม่ำเสมอบนการประมวลผลที่แตกต่างกัน ในที่สุดแบรนด์ AI ของพวกเขาก็ได้รับความสนใจในหมู่นักข่าวและผู้ที่ชื่นชอบเทคโนโลยี
โครงข่ายประสาทเทียมที่เข้าใจง่าย: พีชคณิตเชิงเส้นจำนวนมาก
เพื่อแยกศัพท์เฉพาะต่างๆ มากมายที่เราจะเจอในบทความนี้ เราจำเป็นต้องมีไพรเมอร์สั้นๆ โครงข่ายประสาทเทียมคืออะไร และ สิ่งที่คุณต้องการเพื่อทำให้เร็วขึ้น. ฉันอยากจะพูดถึงรากฐานทางคณิตศาสตร์ของโครงข่ายประสาทเทียมโดยย่อ โดยหลีกเลี่ยงศัพท์เฉพาะและสัญลักษณ์ให้มากที่สุดเท่าที่จะเป็นไปได้ วัตถุประสงค์ของส่วนนี้คือเพียงเพื่อระบุว่าโครงข่ายประสาทเทียมกำลังทำอะไร โดยพื้นฐานแล้ว: การดำเนินการทางคณิตศาสตร์ มันดำเนินการมากกว่าพื้นฐานทางทฤษฎีที่พิสูจน์การดำเนินการดังกล่าว (ซึ่งซับซ้อนกว่ามาก!) อย่าลังเลที่จะไปยังหัวข้อถัดไปหากคุณต้องการข้ามไปที่การอัพเกรด Qualcomm AI Engine โดยตรง
“คณิตศาสตร์เวกเตอร์เป็นรากฐานของการเรียนรู้เชิงลึก” – Travis Lanier ผู้อำนวยการอาวุโสฝ่ายการจัดการผลิตภัณฑ์ของ Qualcomm ที่งาน Snapdragon Tech Summit ปี 2017
ด้านล่างนี้คุณจะพบไดอะแกรมโครงข่ายประสาทเทียมที่เชื่อมต่ออย่างสมบูรณ์แบบฟีดฟอร์เวิร์ดทั่วไป ในความเป็นจริง แผนภาพทำให้กระบวนการทั้งหมดดูซับซ้อนกว่าที่เป็นอยู่เล็กน้อย (อย่างน้อยก็จนกว่าคุณจะชินกับมัน) เราจะคำนวณการส่งต่อ ซึ่งท้ายที่สุดแล้วคือสิ่งที่เครือข่ายทำทุกครั้งที่สร้าง การอนุมานคำที่เราจะพบในบทความในภายหลังเช่นกัน ในขณะนี้ เราจะพูดถึงเฉพาะเครื่องจักรและชิ้นส่วนต่างๆ เท่านั้น พร้อมคำอธิบายสั้นๆ ของแต่ละส่วนประกอบ
โครงข่ายประสาทเทียมประกอบด้วยลำดับ ชั้นแต่ละอันประกอบด้วย "เซลล์ประสาท" หลายอัน (แสดงเป็นวงกลมในแผนภาพ) เชื่อมต่อกันด้วย น้ำหนัก (แสดงเป็นเส้นในแผนภาพ) โดยทั่วไปเลเยอร์มีสามประเภท: เลเยอร์อินพุตซึ่งรับอินพุตดิบ ชั้นที่ซ่อนอยู่ซึ่งคำนวณการดำเนินการทางคณิตศาสตร์จากเลเยอร์ก่อนหน้า และ เลเยอร์เอาท์พุตซึ่งให้คำทำนายขั้นสุดท้าย ในกรณีนี้ เรามีเลเยอร์ที่ซ่อนอยู่เพียงเลเยอร์เดียว โดยมีสามเลเยอร์ หน่วยที่ซ่อนอยู่. ที่ ป้อนข้อมูล ประกอบด้วยเวกเตอร์ อาร์เรย์ หรือรายการตัวเลขของมิติหรือความยาวเฉพาะ ในตัวอย่าง เราจะมีอินพุตสองมิติ สมมติว่า [1.0, -1.0]. นี่. เอาท์พุท ของเครือข่ายประกอบด้วยสเกลาร์หรือตัวเลขเดี่ยว (ไม่ใช่รายการ) แต่ละหน่วยที่ซ่อนอยู่จะเชื่อมโยงกับชุดของ น้ำหนัก และก ระยะอคติที่แสดงด้านข้างและด้านล่างแต่ละโหนด เพื่อคำนวณ ผลรวมถ่วงน้ำหนัก เอาต์พุตของหน่วย แต่ละน้ำหนักจะถูกคูณด้วยแต่ละอินพุตที่สอดคล้องกัน จากนั้นจึงนำผลิตภัณฑ์มาบวกเข้าด้วยกัน จากนั้นเราจะเพิ่มคำว่าอคติเข้าไปในผลรวมของผลิตภัณฑ์นั้น ซึ่งส่งผลให้เกิดเอาท์พุตของเซลล์ประสาท ตัวอย่างเช่น ด้วยข้อมูลที่เราป้อนเป็น [1.0,-1.0]หน่วยที่ซ่อนอยู่หน่วยแรกจะมีเอาต์พุตเป็น 1.0*0.3 + (-1.0) * 0.2 + 1.0 = 1.1. ง่ายใช่มั้ย?
ขั้นตอนต่อไปในแผนภาพแสดงถึง ฟังก์ชั่นการเปิดใช้งานและเป็นสิ่งที่จะทำให้เราสามารถสร้างเวกเตอร์เอาท์พุตของแต่ละเลเยอร์ที่ซ่อนอยู่ได้ ในกรณีของเรา เราจะใช้คำที่ได้รับความนิยมและเรียบง่ายที่สุด หน่วยเชิงเส้นตรง หรือ รีลูซึ่งจะใช้หมายเลขอินพุตและเอาต์พุตอย่างใดอย่างหนึ่ง (i) ศูนย์ หากตัวเลขนั้นเป็นลบหรือศูนย์ (ii) หมายเลขอินพุตเอง หากตัวเลขเป็นบวก ตัวอย่างเช่น, ReLU(-0.1) = 0, แต่ รีลู(0.1) = 0.1 ตามตัวอย่างการป้อนข้อมูลของเราตามนั้น แพร่กระจาย ผ่านหน่วยซ่อนแรกนั้น ผลลัพธ์ของ 1.1 ที่เราคำนวณจะถูกส่งผ่านไปยังฟังก์ชันการเปิดใช้งาน โดยให้ผล รีลู(1.1)=1.1. ในตัวอย่างนี้ เลเยอร์เอาท์พุตจะทำงานเหมือนกับหน่วยที่ซ่อนอยู่ โดยมันจะคูณเอาท์พุตของหน่วยที่ซ่อนอยู่กับน้ำหนักของมัน แล้วเพิ่มเงื่อนไขอคติของ 0.2. ฟังก์ชั่นการเปิดใช้งานครั้งสุดท้ายคือ ฟังก์ชั่นขั้นตอนจะเปลี่ยนอินพุตเชิงบวกเป็น 1 และค่าลบเป็น 0 เมื่อรู้ว่าแต่ละการดำเนินการในเครือข่ายทำงานอย่างไร เราสามารถเขียนการคำนวณการอนุมานทั้งหมดได้ดังต่อไปนี้:
นั่นคือทั้งหมดที่มีในการคำนวณเครือข่ายประสาทเทียมของเรา อย่างที่คุณเห็น. การดำเนินการประกอบด้วยผลคูณเกือบทั้งหมดและผลรวมของตัวเลข. ฟังก์ชั่นการเปิดใช้งานของเรา รีลู(x) ก็สามารถนำไปใช้ได้ง่ายมากเช่นกัน เช่น เพียงแค่โทร เป็นต้น สูงสุด (x, 0)โดยจะส่งคืนค่า x เมื่อใดก็ตามที่อินพุตมากกว่า 0 แต่มิฉะนั้นจะส่งกลับ 0 โปรดทราบว่า ขั้นตอน (x) ก็คำนวณได้เหมือนกัน มีฟังก์ชันการเปิดใช้งานที่ซับซ้อนกว่านี้อีกมากมาย เช่น ฟังก์ชันซิกมอยด์ หรือ แทนเจนต์ไฮเปอร์โบลิกซึ่งเกี่ยวข้องกับการคำนวณภายในที่แตกต่างกันและเหมาะสมกว่าสำหรับวัตถุประสงค์ที่แตกต่างกัน อีกสิ่งหนึ่งที่คุณสามารถเริ่มสังเกตเห็นได้ก็คือเราก็เช่นกัน สามารถเรียกใช้การคำนวณของหน่วยที่ซ่อนอยู่สามหน่วยและแอปพลิเคชัน ReLU พร้อมกันได้เนื่องจากไม่จำเป็นต้องใช้ค่าในเวลาเดียวกันจนกว่าเราจะคำนวณผลรวมถ่วงน้ำหนักที่โหนดเอาต์พุต
แต่เราไม่จำเป็นต้องหยุดอยู่แค่นั้น ด้านบน คุณจะเห็นการคำนวณแบบเดียวกัน แต่คราวนี้แสดงด้วยการดำเนินการคูณเมทริกซ์และเวกเตอร์แทน เพื่อให้บรรลุถึงการแสดงนี้ เราจะ "เพิ่ม" เวกเตอร์อินพุตของเราโดยเพิ่ม 1.0 เข้าไป (เฉดสีที่สว่างกว่า) ซึ่งเมื่อเราใส่ น้ำหนักและอคติของเรา (เฉดสีอ่อนกว่า) ในเมทริกซ์ดังที่แสดงไว้ด้านบน ผลการคูณที่ได้จะทำให้ได้หน่วยที่ซ่อนอยู่เหมือนกัน เอาท์พุท จากนั้น เราสามารถใช้ ReLU กับเวกเตอร์เอาต์พุต ตามองค์ประกอบ จากนั้น "เพิ่ม" เอาต์พุต ReLU เพื่อคูณด้วยน้ำหนักและอคติของเลเยอร์เอาต์พุตของเรา การแสดงนี้ช่วยลดความซับซ้อนของสัญลักษณ์อย่างมาก เนื่องจากพารามิเตอร์ (น้ำหนักและอคติ) ของเลเยอร์ที่ซ่อนอยู่ทั้งหมดสามารถซ่อนอยู่ใต้ตัวแปรตัวเดียวได้ แต่ที่สำคัญที่สุดสำหรับเรามันทำให้ชัดเจนว่า การคำนวณภายในของเครือข่ายคือการคูณเมทริกซ์และเวกเตอร์หรือผลคูณดอท เมื่อพิจารณาว่าขนาดของเวกเตอร์และเมทริกซ์เหล่านี้ปรับขนาดตามขนาดของอินพุตของเราและจำนวนพารามิเตอร์ในเครือข่ายของเรา รันไทม์ส่วนใหญ่จะถูกใช้ไปกับการคำนวณประเภทนี้ พีชคณิตเชิงเส้นเพียบ!
ตัวอย่างของเล่นของเราแน่นอนว่า มาก มีขอบเขตจำกัด ในทางปฏิบัติ โมเดลการเรียนรู้เชิงลึกสมัยใหม่สามารถมีเลเยอร์ที่ซ่อนอยู่ได้นับสิบหรือหลายร้อยชั้น และมีพารามิเตอร์ที่เกี่ยวข้องนับล้านรายการ แทนที่จะใช้ตัวอย่างอินพุตเวกเตอร์สองมิติของเรา พวกมันสามารถรับเวกเตอร์ที่มีค่าเข้านับพัน ในรูปทรงที่หลากหลาย เช่น เมทริกซ์ (เช่น รูปภาพช่องเดียว) หรือเทนเซอร์ (RGB สามช่องสัญญาณ) ภาพ) นอกจากนี้ยังไม่มีอะไรหยุดการแสดงเมทริกซ์ของเราจากการรับเวกเตอร์อินพุตหลายตัวพร้อมกันโดยการเพิ่มแถวลงในอินพุตดั้งเดิมของเรา โครงข่ายประสาทเทียมยังสามารถ "มีสาย" แตกต่างจากโครงข่ายประสาทเทียมที่ป้อนไปข้างหน้าของเรา หรือใช้ฟังก์ชันการเปิดใช้งานที่แตกต่างกัน มีสวนสัตว์ขนาดใหญ่ที่มีสถาปัตยกรรมและเทคนิคเครือข่ายมากมาย แต่สุดท้ายแล้วก็มีพวกมัน ส่วนใหญ่ แบ่งย่อยเป็นการดำเนินการทางคณิตศาสตร์แบบขนานแบบเดียวกับที่เราพบในตัวอย่างของเล่นของเรา ในขนาดที่ใหญ่กว่ามาก
ตัวอย่างภาพของชั้นการบิดหมุนที่ทำงานบนเทนเซอร์ (เครดิตภาพ: สู่วิทยาการข้อมูล)
ยกตัวอย่างที่ได้รับความนิยม โครงข่ายประสาทเทียมแบบหมุนวน (CNN) ที่คุณน่าจะได้อ่านมานั้นไม่ได้ “เชื่อมต่อกันอย่างสมบูรณ์” เหมือนเครือข่ายจำลองของเรา โดยมี “น้ำหนัก” หรือพารามิเตอร์ของมันซ่อนอยู่ ชั้นบิด ถือได้ว่าเป็นตัวกรองประเภทหนึ่ง หน้าต่างบานเลื่อนที่ใช้ตามลำดับกับแพทช์เล็ก ๆ ของอินพุตดังที่แสดงด้านบน - "การบิด" นี้เป็นเพียงผลคูณดอทแบบเลื่อนเท่านั้น! ขั้นตอนนี้ส่งผลให้เกิดสิ่งที่มักเรียกว่าก แผนที่คุณลักษณะ การรวมเลเยอร์จะช่วยลดขนาดของอินพุตหรือเอาท์พุตของเลเยอร์แบบหมุนวน โดยการคำนวณค่าสูงสุดหรือค่าเฉลี่ยของแพตช์เล็กๆ ของรูปภาพ ส่วนที่เหลือของเครือข่ายมักจะประกอบด้วยเลเยอร์ที่เชื่อมต่อโดยสมบูรณ์ เช่นเดียวกับในตัวอย่างของเรา และฟังก์ชันการเปิดใช้งานเช่น ReLU ซึ่งมักใช้สำหรับการดึงคุณลักษณะในรูปภาพที่แผนผังคุณลักษณะของเลเยอร์ Convolutional ในช่วงต้นสามารถ "ตรวจจับ" ได้ รูปแบบต่างๆ เช่น เส้นหรือขอบ และเลเยอร์ต่อมาสามารถตรวจจับคุณสมบัติที่ซับซ้อนมากขึ้น เช่น ใบหน้าหรือความซับซ้อนได้ รูปร่าง
ที่กล่าวมาทั้งหมดก็คือ จำกัดเพียงการอนุมานอย่างเคร่งครัดหรือประเมินโครงข่ายประสาทเทียมหลังจากพบพารามิเตอร์แล้ว การฝึกอบรม ซึ่งเป็นขั้นตอนที่ซับซ้อนกว่ามาก และขอย้ำอีกครั้งว่าเราได้ยกเว้นคำอธิบายไว้มากมาย ในความเป็นจริง แต่ละองค์ประกอบของเครือข่ายถูกรวมไว้เพื่อวัตถุประสงค์หนึ่ง ตัวอย่างเช่น พวกคุณที่เคยเรียนพีชคณิตเชิงเส้นสามารถสังเกตได้ทันทีโดยไม่ต้องมี ฟังก์ชันการเปิดใช้งานแบบไม่เชิงเส้น เครือข่ายของเราลดความซับซ้อนให้เป็นโมเดลเชิงเส้นพร้อมการทำนายที่จำกัดมาก ความจุ.
AI Engine ที่ได้รับการอัพเกรดบน Snapdragon 865 - สรุปการปรับปรุง
ด้วยความเข้าใจที่เป็นประโยชน์เกี่ยวกับส่วนประกอบของโครงข่ายประสาทเทียมและการดำเนินการทางคณิตศาสตร์ เราสามารถเริ่มเข้าใจได้อย่างชัดเจนว่าเหตุใดการเร่งด้วยฮาร์ดแวร์จึงมีความสำคัญมาก ในส่วนสุดท้าย เราจะสังเกตเห็นว่าการทำงานแบบขนานมีความสำคัญต่อการเร่งความเร็วเครือข่าย ช่วยให้เราสามารถคำนวณ dot-product แบบขนานหลายตัวที่สอดคล้องกับแต่ละเซลล์ประสาท การเปิดใช้งาน ดอทโปรดัคแต่ละอันประกอบด้วยการดำเนินการคูณ-บวกกับตัวเลข โดยปกติแล้วจะมีความแม่นยำ 8 บิตในกรณีของแอปพลิเคชันบนมือถือ ซึ่งจะต้องเกิดขึ้นโดยเร็วที่สุด AI Engine นำเสนอส่วนประกอบต่างๆ เพื่อลดภาระงานเหล่านี้ ขึ้นอยู่กับการพิจารณาประสิทธิภาพและประสิทธิภาพการใช้พลังงานของนักพัฒนา
แผนภาพของ CNN สำหรับชุดข้อมูล MNIST ยอดนิยม ซึ่งแสดงบนเวทีในการประชุมสุดยอด Snapdragon ปีนี้ หน่วยประมวลผลเวกเตอร์เหมาะอย่างยิ่งสำหรับเลเยอร์ที่เชื่อมต่อกันอย่างสมบูรณ์ ดังตัวอย่างในตัวอย่างของเรา ในขณะเดียวกัน โปรเซสเซอร์เทนเซอร์จะจัดการกับเลเยอร์แบบหมุนวนและการรวมกลุ่มที่ประมวลผลการเลื่อนหลายชั้น เคอร์เนลขนานกัน เช่นเดียวกับในแผนภาพด้านบน และแต่ละเลเยอร์แบบหมุนวนอาจแสดงคุณสมบัติที่แยกจากกันมากมาย แผนที่
ก่อนอื่น มาดู GPU ซึ่งเรามักจะพูดถึงในบริบทของเกม 3D ตลาดผู้บริโภคสำหรับวิดีโอเกมได้กระตุ้นการพัฒนาฮาร์ดแวร์ประมวลผลกราฟิกมานานหลายทศวรรษ แต่เหตุใด GPU จึงมีความสำคัญสำหรับโครงข่ายประสาทเทียม สำหรับผู้เริ่มต้น พวกเขาเคี้ยวรายการพิกัด 3 มิติจำนวนมากของจุดยอดรูปหลายเหลี่ยมพร้อมกันเพื่อติดตามสถานะโลกในเกม GPU ยังต้องดำเนินการคูณเมทริกซ์ขนาดยักษ์เพื่อแปลง (หรือแมป) 3D เหล่านี้ พิกัดบนระนาบ 2 มิติ พิกัดบนหน้าจอ และยังจัดการข้อมูลสีของพิกเซลด้วย ขนาน. ยิ่งไปกว่านั้น ยังมีแบนด์วิธหน่วยความจำสูงเพื่อจัดการกับบัฟเฟอร์หน่วยความจำขนาดใหญ่สำหรับบิตแมปพื้นผิวที่ซ้อนทับบนเรขาคณิตในเกม ข้อดีของการทำงานแบบขนาน แบนด์วิดท์หน่วยความจำ และความสามารถด้านพีชคณิตเชิงเส้นที่ได้นั้น ตรงกับข้อกำหนดด้านประสิทธิภาพของโครงข่ายประสาทเทียม
กลุ่มผลิตภัณฑ์ Adreno GPU จึงมีบทบาทสำคัญใน Qualcomm AI Engine และบนเวที Qualcomm ระบุว่าส่วนประกอบที่ได้รับการอัปเดตนี้ใน Snapdragon 865 ช่วยให้ ความสามารถจุดลอยตัวเป็นสองเท่า และ สองเท่าของจำนวน TOPS เมื่อเทียบกับรุ่นก่อน ซึ่งน่าประหลาดใจเนื่องจากมีประสิทธิภาพเพิ่มขึ้นเพียง 25% สำหรับการเรนเดอร์กราฟิก อย่างไรก็ตาม สำหรับการเปิดตัวครั้งนี้ ทางบริษัทยังภูมิใจนำเสนอ จำนวนหน่วยตรรกะทางคณิตศาสตร์ (ALU) เพิ่มขึ้น 50%แม้ว่าตามปกติแล้ว พวกเขาจะไม่เปิดเผยความถี่ GPU ของตน วอลคอมม์ยังระบุถึงความแม่นยำแบบผสม คำแนะนำซึ่งก็คือสิ่งที่ดูเหมือน: ความแม่นยำเชิงตัวเลขที่แตกต่างกันในการดำเนินการในวิธีการคำนวณแบบเดียว
Hexagon 698 DSP เป็นที่ที่เราเห็นประสิทธิภาพที่เพิ่มขึ้นอย่างมากจาก Snapdragon 865 ในปีนี้ บริษัทไม่ได้สื่อสารถึงการปรับปรุง vector eXtensions ของ DSP (ซึ่งประสิทธิภาพเพิ่มขึ้นสี่เท่าใน 855 ของปีที่แล้ว) หรือหน่วยสเกลาร์ของพวกเขา อย่างไรก็ตาม พวกเขาทราบว่าสำหรับ Tensor Accelerator ของบล็อกนี้ พวกเขาทำได้สำเร็จ ท็อปสี่เท่า เมื่อเทียบกับรุ่นที่เปิดตัวในปีที่แล้วใน Hexagon 695 DSP ในขณะที่ยังสามารถนำเสนอได้ ประสิทธิภาพการใช้พลังงานดีขึ้น 35%. นี่ถือเป็นเรื่องใหญ่เมื่อพิจารณาถึงความแพร่หลายของสถาปัตยกรรมเครือข่ายประสาทเทียมแบบหมุนวนในกรณีการใช้งาน AI สมัยใหม่ ตั้งแต่การตรวจจับวัตถุรูปภาพไปจนถึงการรู้จำเสียงอัตโนมัติ ตามที่อธิบายไว้ข้างต้น การดำเนินการบิดในเครือข่ายเหล่านี้จะสร้างอาร์เรย์ 2 มิติของเอาท์พุตเมทริกซ์สำหรับ ตัวกรองแต่ละตัว หมายความว่าเมื่อซ้อนกัน ผลลัพธ์ของเลเยอร์การบิดจะเป็นอาร์เรย์ 3 มิติหรือ เทนเซอร์
Qualcomm ยังส่งเสริม "สิ่งใหม่และไม่เหมือนใคร" การบีบอัดแบนด์วิธการเรียนรู้เชิงลึก เทคนิคซึ่งเห็นได้ชัดเจน บีบอัดข้อมูลแบบไม่สูญเสียประมาณ 50%ในทางกลับกัน ย้ายข้อมูลครึ่งหนึ่งและเพิ่มแบนด์วิดท์สำหรับส่วนอื่นๆ ของชิปเซ็ต นอกจากนี้ยังควรประหยัดพลังงานด้วยการลดปริมาณการรับส่งข้อมูล แม้ว่าเราจะไม่ได้ระบุตัวเลขใดๆ ก็ตาม และควรจะมีค่าใช้จ่ายด้านพลังงานเล็กน้อยในการบีบอัดข้อมูลด้วยเช่นกัน
ในเรื่องแบนด์วิธ Snapdragon 865 รองรับ หน่วยความจำ LPDDR5ซึ่งจะเป็นประโยชน์ต่อประสิทธิภาพของ AI เนื่องจากจะเพิ่มความเร็วในการถ่ายโอนทรัพยากรและข้อมูลอินพุต นอกเหนือจากฮาร์ดแวร์แล้ว Qualcomm ใหม่ ชุดเครื่องมือประสิทธิภาพของโมเดล AI ทำให้การบีบอัดโมเดลเป็นเรื่องง่ายและส่งผลให้นักพัฒนาประหยัดพลังงานได้อย่างมีประสิทธิภาพ โครงข่ายประสาทเทียมมักจะมีพารามิเตอร์ "ซ้ำซ้อน" จำนวนมาก ตัวอย่างเช่นอาจสร้างเลเยอร์ที่ซ่อนอยู่ให้กว้างเกินกว่าที่จำเป็น หนึ่งในฟีเจอร์ชุดเครื่องมือ AI ที่พูดคุยกันบนเวทีก็คือ การบีบอัดโมเดลโดยมีสองวิธีที่อ้างถึงคือการสลายตัวของค่าเอกพจน์เชิงพื้นที่ (SVD) และการบีบอัดแบบเบย์ ทั้งสองวิธี ซึ่งตัดโครงข่ายประสาทเทียมอย่างมีประสิทธิภาพด้วยการกำจัดโหนดที่ซ้ำซ้อนและปรับโครงสร้างแบบจำลองเป็น ที่จำเป็น. เทคนิคการบีบอัดแบบจำลองอื่นๆ ที่นำเสนอบนเวทีเกี่ยวข้องกับการหาปริมาณ และเกี่ยวข้องกับการเปลี่ยนแปลงความแม่นยำเชิงตัวเลขของพารามิเตอร์น้ำหนักและการคำนวณโหนดกระตุ้น
ความแม่นยำเชิงตัวเลขของน้ำหนักโครงข่ายประสาทเทียมหมายถึงว่าค่าตัวเลขที่ใช้สำหรับการคำนวณได้รับการจัดเก็บ ถ่ายโอน และประมวลผลเป็นค่า 64, 32, 16 (ความแม่นยำครึ่งหนึ่ง) หรือ 8 บิต การใช้ความแม่นยำเชิงตัวเลขที่ต่ำกว่า (เช่น INT8 เทียบกับ FP32) จะช่วยลดการใช้หน่วยความจำโดยรวมและความเร็วในการถ่ายโอนข้อมูล ทำให้มีแบนด์วิธที่สูงขึ้นและการอนุมานที่เร็วขึ้น แอปพลิเคชันการเรียนรู้เชิงลึกจำนวนมากในปัจจุบันได้เปลี่ยนไปใช้โมเดลความแม่นยำ 8 บิตสำหรับการอนุมาน ซึ่งอาจฟังดูดี น่าแปลกใจ: ความแม่นยำเชิงตัวเลขที่สูงขึ้นจะไม่ทำให้การทำนายที่ "แม่นยำ" มากขึ้นในการจำแนกประเภทหรือการถดถอย งาน? ไม่จำเป็น; ความแม่นยำเชิงตัวเลขที่สูงขึ้น โดยเฉพาะอย่างยิ่งในระหว่างการอนุมาน อาจสูญเปล่าเนื่องจากโครงข่ายประสาทเทียมได้รับการฝึกฝนให้รับมือกับอินพุตที่มีเสียงดังหรือ มีการรบกวนเล็กน้อยตลอดการฝึก และข้อผิดพลาดในการแสดงบิตล่างของค่าที่กำหนด (FP) จะเป็น 'สุ่ม' อย่างสม่ำเสมอ เพียงพอ. ในแง่หนึ่ง ความแม่นยำต่ำของการคำนวณได้รับการปฏิบัติโดยเครือข่ายในฐานะแหล่งกำเนิดสัญญาณรบกวนอีกแหล่งหนึ่ง และการคาดการณ์ยังคงสามารถใช้งานได้ นอกจากตัวอธิบายแบบฮิวริสติกแล้ว มีแนวโน้มว่าคุณจะได้รับโทษด้านความแม่นยำเมื่อคำนวณแบบจำลองอย่างน่ารังเกียจ โดยไม่คำนึงถึงข้อควรพิจารณาที่สำคัญบางประการ ซึ่งเป็นเหตุผลว่าทำไมจึงมีการวิจัยมากมายเกี่ยวกับ เรื่อง
กลับไปที่ชุดเครื่องมือ AI ของ Qualcomm: ชุดเครื่องมือ AI ของ Qualcomm การหาปริมาณแบบไม่มีข้อมูลช่วยให้สามารถหาปริมาณโมเดลได้โดยไม่ต้องปรับแต่งข้อมูลหรือพารามิเตอร์ ในขณะที่ยังคงบรรลุประสิทธิภาพของโมเดลที่ใกล้เคียงต้นฉบับในงานต่างๆ โดยพื้นฐานแล้วจะปรับพารามิเตอร์น้ำหนักสำหรับการหาปริมาณและแก้ไขข้อผิดพลาดอคติที่เกิดขึ้นเมื่อเปลี่ยนไปใช้ตุ้มน้ำหนักที่มีความแม่นยำต่ำลง เมื่อพิจารณาถึงประโยชน์ที่ได้รับจากการหาปริมาณ การทำขั้นตอนอัตโนมัติภายใต้การเรียก API จะทำให้การผลิตและการปรับใช้โมเดลง่ายขึ้น และ Qualcomm อ้างสิทธิ์ ประสิทธิภาพต่อวัตต์มากกว่าสี่เท่า เมื่อรันโมเดลเชิงปริมาณ
แต่อีกครั้ง นี่ไม่ใช่เรื่องน่าตกใจ: โมเดลเชิงปริมาณสามารถให้แบนด์วิธและประโยชน์ในการจัดเก็บข้อมูลมหาศาล การแปลงโมเดลเป็น INT8 ไม่เพียงช่วยให้คุณลดแบนด์วิดท์ได้ถึง 4 เท่า แต่ยังได้รับประโยชน์จากการคำนวณจำนวนเต็มที่เร็วขึ้น (ขึ้นอยู่กับฮาร์ดแวร์) จึงไม่ใช่เรื่องง่ายเลยที่วิธีการเร่งด้วยฮาร์ดแวร์ทั้งในด้านการหาปริมาณและการคำนวณเชิงตัวเลขจะให้ประสิทธิภาพที่เพิ่มขึ้นอย่างมาก ในบล็อกของเขาตัวอย่างเช่น Pete Warden จาก Google เขียนว่าการทำงานร่วมกันระหว่าง Qualcomm และทีม Tensorflow ช่วยให้โมเดล 8 บิตสามารถทำงานได้ถึง เร็วขึ้นเจ็ดเท่าบน HVX DSP มากกว่าบน CPU เป็นการยากที่จะกล่าวเกินจริงถึงศักยภาพของการวัดปริมาณที่ใช้งานง่าย โดยเฉพาะอย่างยิ่งเมื่อพิจารณาว่า Qualcomm มุ่งเน้นไปที่ประสิทธิภาพของ INT8 อย่างไร
Kryo CPU ที่ใช้ ARM ของ Snapdragon 865 ยังคงเป็นองค์ประกอบสำคัญของกลไก AI แม้ว่าการเร่งด้วยฮาร์ดแวร์ที่กล่าวถึงในย่อหน้าข้างต้นจะดีกว่า แต่บางครั้งเราก็ ไม่สามารถหลีกเลี่ยงแอปพลิเคชันที่ไม่ได้ใช้ประโยชน์จากบล็อกเหล่านี้อย่างเหมาะสม ส่งผลให้เกิด CPU รั้งท้าย. ในอดีต ARM ได้เปิดตัวชุดคำสั่งเฉพาะที่มุ่งเร่งการคำนวณโดยใช้เมทริกซ์และเวกเตอร์ ในโปรเซสเซอร์ ARMv7 เราเห็นการเปิดตัว ARM NEON ซึ่งเป็นส่วนขยายสถาปัตยกรรม SIMD ที่เปิดใช้งานคำสั่งแบบ DSP และด้วยสถาปัตยกรรมไมโคร ARMv8.4-A เราได้เห็นการแนะนำคำสั่งสำหรับ dot-product โดยเฉพาะ
ประสิทธิภาพที่เพิ่มขึ้นที่โพสต์ทั้งหมดนี้เกี่ยวข้องกับปริมาณงานหลายอย่างที่เราอธิบายไว้ในส่วนก่อนหน้า แต่ก็ควรคำนึงด้วยว่าการอัพเกรด Snapdragon 865 เหล่านี้ ล่าสุดเท่านั้น การปรับปรุงความสามารถ AI ของ Qualcomm ในปี 2017 เราได้บันทึกความสามารถ AI ที่เพิ่มขึ้นสามเท่าด้วย Hexagon 685 DSP และการอัพเดตชิปเซ็ตอื่นๆ เมื่อปีที่แล้ว พวกเขาได้เปิดตัวตัวเร่งความเร็วเทนเซอร์ และการสนับสนุนแบบรวมสำหรับฟังก์ชันที่ไม่เป็นเชิงเส้น (เช่น ReLU ที่กล่าวมาข้างต้น!) ในระดับฮาร์ดแวร์ พวกเขายังเพิ่มจำนวนตัวเร่งเวกเตอร์เป็นสองเท่าและปรับปรุงประสิทธิภาพของหน่วยประมวลผลสเกลาร์ถึง 20% การจับคู่ทั้งหมดนี้เข้ากับการปรับปรุงด้าน CPU เช่น การดำเนินการดอทโปรดักส์ที่เร็วขึ้นโดยได้รับความอนุเคราะห์จาก ARM และ ALU เพิ่มเติมใน GPU ในที่สุด Qualcomm สามเท่า ความสามารถดิบของ AI เช่นกัน
ประโยชน์ที่ได้รับในทางปฏิบัติและกรณีการใช้งานที่เพิ่มขึ้น
การอัพเกรดทั้งหมดนี้นำไปสู่ความสามารถ AI บน Snapdragon 865 ถึงห้าเท่าเมื่อเทียบกับเมื่อสองปีที่แล้ว แต่ สิ่งที่สำคัญที่สุดคือการปรับปรุงยังมาพร้อมกับประสิทธิภาพที่ดีขึ้นต่อมิลลิวัตต์ ซึ่งเป็นตัวชี้วัดที่สำคัญสำหรับมือถือ อุปกรณ์ ที่งาน Snapdragon Summit 2019 ทาง Qualcomm ได้ให้เกณฑ์มาตรฐานบางประการแก่เราโดยเปรียบเทียบ AI Engine กับคู่แข่งสองรายในเครือข่ายการจัดประเภทต่างๆ ตัวเลขเหล่านี้ดูเหมือนว่าจะรวบรวมโดยใช้ AIMark ซึ่งเป็นแอปพลิเคชันการเปรียบเทียบประสิทธิภาพข้ามแพลตฟอร์ม ซึ่งช่วยให้สามารถเปรียบเทียบกับโปรเซสเซอร์ A-series ของ Apple และโปรเซสเซอร์ HiSilicon ของ Huawei Qualcomm อ้างว่าผลลัพธ์เหล่านี้ใช้ประโยชน์จาก AI Engine ทั้งหมด และเราจะต้องรอจนกว่าจะมากกว่านี้ การวัดประสิทธิภาพอย่างละเอียดเพื่อแยกผลกระทบของแต่ละส่วนประกอบอย่างเหมาะสม และพิจารณาว่าการทดสอบเหล่านี้เป็นอย่างไร ดำเนินการ ตัวอย่างเช่น ผลลัพธ์จากบริษัท B บ่งชี้ว่า CPU สำรองหรือไม่ เท่าที่ฉันทราบ ปัจจุบัน AIMark ไม่ได้ใช้ประโยชน์จาก NPU ของ Kirin 990 บนเครื่อง Mate 30 Pro ของเรา เป็นต้น แต่มันรองรับ Snapdragon Neural Processing Engine ดังนั้นมันจะใช้ประโยชน์จาก Qualcomm AI Engine อย่างแน่นอน เนื่องจากเป็นการทดสอบภายใน จึงยังไม่ชัดเจนว่าเกณฑ์มาตรฐานใช้ไลบรารีหรือ SDK ที่เหมาะสมสำหรับคู่แข่งอย่างเหมาะสมหรือไม่
ต้องบอกด้วยว่า Qualcomm กำลังเปรียบเทียบความสามารถในการประมวลผล AI ของ Snapdragon 865 กับชิปเซ็ตที่ประกาศหรือเปิดตัวก่อนหน้านี้อย่างมีประสิทธิภาพ มีโอกาสมากที่คู่แข่งจะนำการปรับปรุงประสิทธิภาพที่ส่งผลกระทบในทำนองเดียวกันในรอบถัดไป และหากเป็นเช่นนั้น ในกรณีนี้ Qualcomm จะครองมงกุฎเพียงประมาณครึ่งปีนับจากวินาทีที่อุปกรณ์ Snapdragon 865 วางจำหน่าย ที่กล่าวว่าสิ่งเหล่านี้ยังคงบ่งบอกถึงการกระแทกที่เราคาดหวังได้จาก Snapdragon 865 โดยทั่วไปแล้ว Qualcomm มีความแม่นยำมากในการสื่อสารการปรับปรุงประสิทธิภาพและผลลัพธ์การวัดประสิทธิภาพมาตรฐานของการเปิดตัวที่กำลังจะมาถึง
เครือข่ายทั้งหมดที่นำเสนอในการวัดประสิทธิภาพเหล่านี้เป็นการจัดประเภทภาพจากฐานข้อมูลเช่น ImageNet โดยรับภาพเหล่านั้นเป็นอินพุตและเอาท์พุตหนึ่งในหลายร้อยหมวดหมู่ อีกครั้ง พวกเขาพึ่งพาการดำเนินการประเภทเดียวกับที่เราอธิบายไว้ในส่วนที่สอง แม้ว่าสถาปัตยกรรมของพวกเขาจะเยอะมากก็ตาม ซับซ้อนกว่าตัวอย่างเหล่านี้ และได้รับการยกย่องว่าเป็นโซลูชันที่ล้ำสมัย ณ เวลาที่เผยแพร่ ในกรณีที่ดีที่สุด คู่แข่งที่ใกล้เคียงที่สุดจะให้การอนุมานน้อยกว่าครึ่งหนึ่งต่อวินาที
ในแง่ของการใช้พลังงาน Qualcomm เสนอการอนุมานต่อตัวเลขวัตต์เพื่อแสดงปริมาณการประมวลผล AI ที่เป็นไปได้ในปริมาณพลังงานที่กำหนด ในกรณีที่ดีที่สุด (MobileNet SSD) Snapdragon AI Engine สามารถเสนอจำนวนการอนุมานได้เป็นสองเท่าภายใต้งบประมาณด้านพลังงานที่เท่ากัน
พลังงานเป็นสิ่งสำคัญอย่างยิ่งสำหรับอุปกรณ์พกพา ลองนึกถึงตัวกรอง Snapchat ที่ใช้เครือข่ายประสาทเทียม ตามความเป็นจริงแล้ว ระบบคอมพิวเตอร์วิทัศน์จะดึงข้อมูลใบหน้าและใช้หน้ากากหรืออินพุต การเปลี่ยนแปลงจะต้องดำเนินการในอัตรา 30 หรือ 60 ครั้งต่อวินาทีเท่านั้นเพื่อให้ได้ของเหลว ประสบการณ์. การเพิ่มประสิทธิภาพ AI แบบดิบจะช่วยให้คุณสามารถรับอินพุตที่มีความละเอียดสูงกว่าและเอาต์พุตตัวกรองที่ดูดีกว่าได้ แต่อาจเป็นไปได้ นอกจากนี้ยังควรใช้ความละเอียด HD เพื่อการอัปโหลดที่รวดเร็วยิ่งขึ้น และลดการใช้พลังงานและการควบคุมปริมาณความร้อน ในการใช้งานหลายๆ อย่าง "เร็วขึ้น" ไม่จำเป็นต้อง "ดีกว่า" เสมอไป และจากนั้นก็จะได้รับประโยชน์จากประสิทธิภาพการใช้พลังงานที่ดีขึ้น
ในช่วงวันที่ 2 ของการประชุมสุดยอด Snapdragon ผู้อำนวยการอาวุโสฝ่ายวิศวกรรมของ Snapchat Yurii Monastyrshyn ขึ้นเวทีเพื่อแสดงให้เห็นว่า ตัวกรองการเรียนรู้เชิงลึกล่าสุดได้รับการเร่งความเร็วอย่างมากโดย Hexagon Direct NN โดยใช้ Hexagon 695 DSP บน Snapdragon 865.
ยิ่งไปกว่านั้น, เนื่องจากนักพัฒนาสามารถเข้าถึงการใช้งานโครงข่ายประสาทเทียมได้ง่ายขึ้น และแอปพลิเคชั่นต่างๆ ก็เริ่มใช้เทคนิค AI เพิ่มมากขึ้น กรณีการใช้งานพร้อมกันจะได้รับความสนใจมากขึ้น เนื่องจากสมาร์ทโฟนจะต้องรองรับหลาย ๆ อย่าง ไปป์ไลน์ AI แบบขนานพร้อมกัน (ทั้งสำหรับแอปพลิเคชันเดียวที่ประมวลผลสัญญาณอินพุตจากแหล่งต่างๆ หรือในขณะที่แอปพลิเคชันจำนวนมากทำงานแยกกัน บนอุปกรณ์) แม้ว่าเราจะเห็นว่าประสิทธิภาพการใช้พลังงานเพิ่มขึ้นอย่างน่านับถือในการประมวลผล DSP, GPU และ CPU แต่ Qualcomm Sensing Hub จะจัดการกับกรณีการใช้งานที่เปิดตลอดเวลาเพื่อฟังคำกระตุ้นที่ใช้พลังงานต่ำมาก ช่วยให้สามารถตรวจสอบฟีดเสียง วิดีโอ และเซ็นเซอร์ที่กระแสไฟต่ำกว่า 1mA ช่วยให้อุปกรณ์ตรวจจับสัญญาณเสียงเฉพาะ (เช่น ทารกร้องไห้) นอกเหนือจากคำสำคัญผู้ช่วยดิจิทัลที่คุ้นเคย ในหมายเหตุดังกล่าว Snapdragon 865 ช่วยให้สามารถตรวจจับได้ไม่เพียงแค่คำหลักเท่านั้น แต่ยังรวมถึงผู้ที่พูดด้วย เพื่อระบุผู้ใช้ที่ได้รับอนุญาตและดำเนินการตามนั้น
AI เพิ่มเติมบนอุปกรณ์ Edge
การปรับปรุงเหล่านี้สามารถแปลเป็นผลประโยชน์ที่จับต้องได้สำหรับประสบการณ์ผู้ใช้ของคุณในที่สุด บริการที่เกี่ยวข้องกับการแปล การจดจำและการติดฉลากวัตถุ การคาดการณ์การใช้งานหรือการแนะนำรายการ การทำความเข้าใจภาษาธรรมชาติ การแยกวิเคราะห์คำพูด และอื่นๆ จะได้รับประโยชน์จากการทำงานที่รวดเร็วขึ้นและใช้เวลาน้อยลง พลัง. การมีงบประมาณในการประมวลผลที่สูงขึ้นยังช่วยให้สามารถสร้างกรณีการใช้งานและประสบการณ์ใหม่ๆ และย้ายกระบวนการที่เคยเกิดขึ้นในระบบคลาวด์ไปยังอุปกรณ์ของคุณ ในขณะที่ AI เป็นคำที่ใช้ในรูปแบบที่น่าสงสัย หลอกลวง และแม้กระทั่งผิดพลาดในอดีต (แม้แต่โดย OEM) บริการหลายอย่างที่คุณเพลิดเพลินในปัจจุบันท้ายที่สุดแล้วอาศัยอัลกอริธึมการเรียนรู้ของเครื่องในรูปแบบใดรูปแบบหนึ่งหรือ อื่น.
แต่นอกเหนือจาก Qualcomm แล้ว ผู้ผลิตชิปเซ็ตรายอื่นๆ ก็ได้ทำซ้ำและปรับปรุงในส่วนนี้อย่างรวดเร็วเช่นกัน ตัวอย่างเช่น 990 5G มีการออกแบบคอร์ 2+1 NPU ส่งผลให้ประสิทธิภาพของ Kirin 980 สูงถึง 2.5 เท่า และเร็วกว่า Apple A12 ถึงสองเท่า เมื่อมีการประกาศโปรเซสเซอร์ พบว่ามีเฟรม (การอนุมาน) สูงสุดสองเท่าต่อวินาที ของ Snapdragon 855 ที่ INT8 MobileNet ซึ่งยากที่จะเทียบเคียงกับผลลัพธ์จาก Qualcomm ในทางกลับกัน Apple A13 Bionic มีรายงานว่าเสนอการคูณเมทริกซ์ที่เร็วขึ้นหกเท่าจากรุ่นก่อนและปรับปรุงการออกแบบเอ็นจิ้นประสาทแปดคอร์ เราจะต้องรอจนกว่าเราจะสามารถทดสอบ Snapdragon 865 บนอุปกรณ์เชิงพาณิชย์ได้อย่างเหมาะสมกับคู่แข่งในปัจจุบันและอนาคต แต่มันก็เป็น ชัดเจนว่าการแข่งขันในพื้นที่นี้ไม่เคยหยุดนิ่ง เนื่องจากทั้งสามบริษัทได้ทุ่มเททรัพยากรมากมายในการพัฒนา AI ของตนให้ดีขึ้น ผลงาน.