Cortex X4, A720 และ A520 ใหม่ของ Arm เป็นคอร์ 64 บิตเท่านั้นที่เน้นไปที่ประสิทธิภาพเป็นหลัก

คอร์ใหม่ของ Arm ซึ่งเป็นส่วนหนึ่งของ Total Compute Solution สำหรับปี 2023 ได้รับการประกาศแล้ว และพวกมันก็ค่อนข้างน่าสนใจ

ลิงค์ด่วน

  • 64 บิตเท่านั้น: "ภารกิจสำเร็จ"
  • Arm Cortex-X4: ประสิทธิภาพและประสิทธิภาพที่ดียิ่งขึ้น
  • Arm Cortex-A720: ปรับสมดุลประสิทธิภาพและการใช้พลังงาน
  • Arm Cortex A520: ประสิทธิภาพเพิ่มขึ้นเป็นสองเท่า
  • DSU-120: ความสามารถในการคำนวณสูงถึง 14 คอร์
  • ประสิทธิภาพคือเป้าหมายใหม่

Arm เป็นบริษัทที่ออกแบบแกน CPU เกือบทั้งหมดซึ่งท้ายที่สุดจะถูกใช้ในสมาร์ทโฟน Android ของคุณ และทุกๆ ปี ประกาศการทำซ้ำใหม่ที่จะหาทางเข้าสู่ชิปเซ็ตเช่น Snapdragon เรือธงของปีนั้นหรือ MediaTek เรือธงถัดไป มิติข้อมูล ในปีนี้ จะเปิดตัวคอร์ประสิทธิภาพระดับเรือธง Cortex-X4, คอร์ประสิทธิภาพ Cortex-A720 และคอร์ประสิทธิภาพ Cortex-A520 แกนประมวลผลเหล่านี้เป็นพื้นฐานของการออกแบบที่เข้ากันได้กับ Arm v9.2 ใหม่ของบริษัท และ Total Compute Solution ของบริษัทสำหรับปี 2023 หรือ TCS23 ยิ่งไปกว่านั้น เรายังเห็น DynamIQ Shared Unit ใหม่และ Immortalis-G720 GPU ที่ได้รับการอัปเดตอีกด้วย ที่ใหญ่กว่านั้นคือการเปลี่ยนแปลงไปสู่การประมวลผลแบบ 64 บิตโดยสมบูรณ์ โดยไม่มีคอร์ใดเหล่านี้ที่รองรับ 32 บิต

คอร์ใหม่ทั้งสามคอร์เป็นผู้สืบทอดสถาปัตยกรรมไมโครจากปีที่แล้ว และมุ่งเน้นไปที่การแนะนำ IPC และประสิทธิภาพที่เพิ่มขึ้นเป็นหลัก

64 บิตเท่านั้น: "ภารกิจสำเร็จ"

การเปลี่ยนแปลงครั้งใหญ่ที่สุดอย่างหนึ่งใน Total Compute Solution จาก Arm ในปีนี้คือการเปลี่ยนไปใช้ 64 บิตเท่านั้น ในขณะที่ A510R1 ของปีที่แล้วรองรับโหมดการดำเนินการ AArch32 แบบ 32 บิต เช่นเดียวกับ A710 ที่เปิดตัวด้วย TCS22 เมื่อปีที่แล้ว แต่ในปีนี้ แกนประมวลผลของ Arm อยู่ที่ AArch64 เท่านั้น นาฬิกาได้ทำเครื่องหมายสำหรับแอปพลิเคชัน 32 บิตบน Android โดยเฉพาะอย่างยิ่งตั้งแต่นั้นเป็นต้นมา Google เองก็ได้รับคำสั่งให้อัปเดตแอปทั้งหมดตั้งแต่ปี 2019 ถูกอัพโหลดเป็นไบนารี 64 บิต

ตามที่ Arm กล่าวไว้ การเปลี่ยนผ่านแบบ 64 บิตถือเป็น "ภารกิจสำเร็จแล้ว" เหตุผลก็คือว่าตลาดแอปจีนเป็นอย่างไร ระงับส่วนที่เหลือของอุตสาหกรรมในช่วงการเปลี่ยนแปลง แต่แอปส่วนใหญ่ในร้านแอปของจีนตอนนี้เป็นไปตามมาตรฐาน 64 บิต ด้วย.

สาเหตุของความล่าช้าคือการไม่มีระบบนิเวศของแอปพลิเคชันที่เป็นเนื้อเดียวกัน ซึ่งหมายความว่า App Store ที่แตกต่างกันต้องการมาตรฐานของนักพัฒนาที่แตกต่างกัน เนื่องจาก Arm ได้ทำงานร่วมกับ App Store หลายแห่งในประเทศจีน พร้อมด้วยคำเตือนซ้ำๆ ว่าการเปลี่ยนแปลงจะเกิดขึ้น App Store เหล่านั้นจึงสนับสนุนให้นักพัฒนาเปลี่ยนเช่นกัน

ดูเหมือนว่าถึงเวลาแล้วที่การเปลี่ยนแปลงดังกล่าวจะเกิดขึ้นอย่างครบถ้วน และจะต้องใช้เวลาอีกสองสามเดือนจนกว่าเราจะเห็น Arm core เหล่านี้ในชิปเซ็ตใหม่

Arm Cortex-X4: ประสิทธิภาพและประสิทธิภาพที่ดียิ่งขึ้น

แกนซีรีส์ X ของ Arm แยกออกจากซีรีส์ A เมื่อหลายปีก่อน โดยมีปรัชญาอยู่ที่ว่ามันเป็นคอร์ที่ทรงพลังที่ได้รับอนุญาตให้กินพลังงานเพิ่มขึ้นอีกเล็กน้อยเมื่อต้องการ โดยทั่วไปแล้ว ผู้ผลิตชิปเซ็ตจะรวมเพียงหนึ่งหรือสองอย่างสูงสุดเท่านั้น เนื่องจากพวกเขาต้องการพลังงานมาก แม้ว่าพวกเขาจะมีความสามารถเช่นกันก็ตาม

ดังที่คุณเห็นจากกราฟด้านบน Cortex-X4 เป็น Arm core ที่ทรงพลังที่สุด แต่ความสามารถในการคำนวณเหล่านั้นต้องแลกมาด้วยการใช้พลังงาน Cortex-X4 นั้นคล้ายคลึงกับ X3 ของปีที่แล้ว และตามที่ Arm กล่าวไว้ สามารถทำงานได้ที่ความถี่เดียวกันกับคอร์ของปีที่แล้วและใช้พลังงานน้อยลงถึง 40% มีขนาดใหญ่ขึ้นน้อยกว่า 10% และเป็นคอร์ Cortex-X ที่มีประสิทธิภาพมากที่สุดเท่าที่เคยสร้างมา

สำหรับที่มาของการปรับปรุง IPC นั้น X4 มีการปรับปรุงส่วนหน้าและส่วนหลังหลายประการ ในการปรับปรุงส่วนหน้าเหล่านั้น มีการทำงานจำนวนมากในการเขียนใหม่และปรับปรุงการคาดการณ์สาขา เนื่องจากการทำนายสาขาที่ไม่ถูกต้องมีค่าใช้จ่ายสูงและคำนึงถึงประสิทธิภาพ Arm ยังให้คำมั่นว่าขนาดแคช L2 ที่ 2MB จะให้ประสิทธิภาพที่สูงกว่า ซึ่งไม่มากนักในการวัดประสิทธิภาพ แต่ในการใช้งานจริง

แกน Cortex-X4 ใหม่จะเพิ่มจำนวนหน่วยคำนวณลอจิก (ALU) จาก 6 เป็น 8 เพิ่มสาขาเพิ่มเติม หน่วย (รวมเป็น 3) เพิ่มหน่วยทวีคูณสะสมพิเศษ และจุดลอยตัวของไปป์ไลน์และรากที่สอง การดำเนินงาน

สำหรับส่วนหลังก็มีการปรับปรุงหลายอย่างเช่นกัน การสร้างที่อยู่ของร้านโหลดได้เปลี่ยนจากสามคำสั่งเป็นสี่คำสั่งต่อรอบ เนื่องจากไปป์ของร้านโหลดถูกแยกออก นอกจากนี้ยังมีบัฟเฟอร์ lookaside การแปลสองเท่าใน L1 พร้อมด้วยการปรับปรุงข้อขัดแย้งของธนาคาร

ทั้งหมดนี้มารวมกันเพื่อเพิ่มประสิทธิภาพที่น่าประทับใจใน Arm's Cortex-X4 โดยรวมแล้ว คุณสามารถคาดหวังการปรับปรุงประสิทธิภาพโดยเฉลี่ย 15% ด้วย Cortex-X4 ในกราฟกำลังและประสิทธิภาพที่ Arm แบ่งปัน X4 ขยายนำหน้า X3 ทั้งในด้านประสิทธิภาพและการใช้พลังงาน กล่าวอีกนัยหนึ่งการปรับปรุงประสิทธิภาพ 15% นั้นมาจากการดึงพลังงานที่ค่อนข้างสำคัญ แม้ว่าจะไม่ใช่การเปรียบเทียบระหว่างแอปเปิ้ลกับแอปเปิ้ลก็ตาม Cortex-X3 มาพร้อมกับแคช L2 ขนาด 1MB ในปีที่แล้ว ซึ่งหมายความว่าหากผู้ผลิตยังคงใช้แคช L2 ขนาดเท่าเดิมในปีนี้ ประสิทธิภาพอาจไม่จำเป็นที่จะต้องเพิ่มขึ้น 15%

อย่างไรก็ตาม สิ่งหนึ่งที่แน่นอนก็คือ หากคุณใช้ X4 ด้วยความเร็วสูงสุด ก็มีแนวโน้มว่าจะเป็นคนที่กินอย่างตะกละตะกลาม เราอาจเห็น OEM บางรายในปีนี้ยังคงทำสิ่งที่พวกเขาทำในปีที่แล้วและเร่งรัดชิปเซ็ตจำนวนมากของปีนี้ออกจากกล่อง ตัวอย่างเช่น OnePlus และ Oppo ต่างก็ทำเช่นนี้ และด้วยประสิทธิภาพด้านพลังงานที่เพิ่มขึ้นเมื่อทำงานพร้อมกัน คะแนนประสิทธิภาพเท่ากับ X3 ก็มีแนวโน้มว่าบริษัทเหล่านั้นจะได้รับประโยชน์ต่อไป ดังนั้น. เราอาจไม่เห็นการเพิ่มประสิทธิภาพ 15% ทั่วทั้งกระดาน แต่เราอาจเห็นการปรับปรุงประสิทธิภาพเพิ่มเติมแทนสำหรับชิปเซ็ตในปีหน้า

Arm Cortex-A720: ปรับสมดุลประสิทธิภาพและการใช้พลังงาน

แม้ว่าแกนซีรีส์ X ของ Arm มักจะปล่อยให้ทำงานอย่างดุเดือด แต่แกนซีรีส์ A โดยทั่วไปมีเป้าหมายเพื่อสร้างสมดุลระหว่างการใช้พลังงานกับประสิทธิภาพ ด้วย Cortex-A720 Arm สัญญาว่าจะมีคอร์ที่มีประสิทธิภาพมากขึ้น 20% พร้อมประสิทธิภาพที่เพิ่มขึ้นด้วยพลังเดียวกันกับ A715 จากปีที่แล้ว

การปรับปรุง A720 ในปีนี้มาจากไหน ส่วนใหญ่อยู่ที่ส่วนหน้า ไปป์ไลน์ถูกทำให้สั้นลงโดยนำหนึ่งรอบออกจากเอ็นจิ้นการทำนายที่ผิดพลาดของสาขา โดยที่การลดลงรอบเดียวนี้ถูกกล่าวถึงว่าทำให้การวัดประสิทธิภาพเพิ่มขึ้น 1% โดยทั่วไปเกณฑ์มาตรฐานจะส่งผลให้เกิดการคาดการณ์สาขาที่ผิดพลาดน้อยที่สุด ซึ่งหมายความว่าสิ่งนี้มีแนวโน้มที่จะปรับปรุงประสิทธิภาพโดยรวมในโลกแห่งความเป็นจริงด้วยจำนวนที่มีนัยสำคัญมากขึ้น (แต่ไม่สามารถวัดผลได้เป็นส่วนใหญ่)

ในแกนที่ไม่อยู่ในลำดับนั้น เราจะเห็นการปรับปรุงโครงสร้างจำนวนหนึ่งที่ช่วยปรับปรุงประสิทธิภาพโดยไม่ส่งผลกระทบต่อพื้นที่ที่แกนหลักหรือประสิทธิภาพของแกนใช้ สำหรับผู้เริ่มต้น เช่นเดียวกับใน X4 ตอนนี้การหารจุดทศนิยมและการดำเนินการสแควร์รูทได้ถูกไปป์ไลน์แล้ว นอกจากนี้ยังมีการถ่ายโอนที่เร็วขึ้นจากจุดลอยตัว, NEON และหมายเลข SVE2 ไปเป็นจำนวนเต็มและการปรับปรุงโดยรวมอื่น ๆ เพื่อเร่งการประมวลผล

Arm แบ่งปันกราฟด้านบนเพื่อแสดงให้เห็นว่า A720 เปรียบเทียบกับ A715 ปีที่แล้วในด้านประสิทธิภาพและประสิทธิผล โดยที่กระบวนการ ISO และความถี่ ISO ถูกนำมาใช้ใน SPECint_base2006 ขนาดแคชยังคงเท่าเดิม ดังนั้นจึงเป็นการเปรียบเทียบระหว่างแอปเปิ้ลกับแอปเปิ้ลเป็นอย่างมาก

ในแง่ของการใช้พลังงาน A720 ยังคงสอดคล้องกับรุ่นปีที่แล้วอยู่มาก แม้ว่าจะมีประสิทธิภาพเพิ่มขึ้นเล็กน้อยในระดับพลังงานเท่าเดิมก็ตาม ด้วย A720 เช่นเดียวกับ X4 ดูเหมือนว่า Arm จะเน้นไปที่การเน้นย้ำว่าจะดีขึ้นอย่างไร ประสิทธิภาพการทำงานนอกข้อจำกัดด้านพลังงานของปีที่แล้ว แทนที่จะเพิ่มพลังของคอร์เหล่านี้อย่างต่อเนื่อง สามารถ.

Arm Cortex A520: ประสิทธิภาพเพิ่มขึ้นเป็นสองเท่า

แน่นอนว่า เมื่อพูดถึงแกนกลางของ Arm มันไม่ได้เป็นเพียงประสิทธิภาพเท่านั้น ด้วยซีรีส์ X ที่ใส่ทุกสิ่งทุกอย่างลงในพลังการคำนวณดิบ และ A7xx ที่สร้างสมดุลระหว่างความต้องการในการคำนวณและการดึงพลังงาน ซีรีส์ A5xx จึงมุ่งเน้นไปที่การประมวลผลที่มีประสิทธิภาพเพียงอย่างเดียว เป็นคอร์ Arm v9.2 ที่ใช้พลังงานต่ำที่สุดต่อพื้นที่ และสร้างบนสถาปัตยกรรมแบบผสานคอร์แบบเดียวกับที่เราเห็นใน A510

สถาปัตยกรรมหลักที่ผสานรวมนี้หมายถึงว่าทรัพยากรบางส่วนสามารถใช้ร่วมกันระหว่างสองคอร์ โดยที่สามารถใช้สองคอร์ได้ รวมกันเป็น "คอมเพล็กซ์" แคช L2, บัฟเฟอร์ lookaside การแปล L2 และพาธข้อมูลเวกเตอร์ถูกแชร์ภายในสิ่งนี้ ซับซ้อน. เพื่อความชัดเจนนี่ไม่ได้หมายความว่ามัน มี ที่จะรวมเป็นสองคอร์ และสามารถประกอบคอมเพล็กซ์แบบคอร์เดียวเพื่อประสิทธิภาพสูงสุดได้ อันที่จริง หนึ่งในเค้าโครงหลัก TCS2023 ของ Arm ที่พวกเขาแสดงให้เราเห็นนั้นเกี่ยวข้องกับ X4 คอร์เดียว, A720 คอร์ห้าคอร์ และ A520 สามคอร์ ซึ่งหมายความว่ามีคอร์ A520 อย่างน้อยหนึ่งคอร์แยกกัน

A520 เป็นการออกแบบที่เน้นประสิทธิภาพเป็นหลัก และเช่นเดียวกับคอร์อื่นๆ Arm มุ่งเน้นไปที่การปรับปรุงประสิทธิภาพนั้นที่จุดพลังงานเดียวกันกับรุ่นที่แล้วเป็นหลัก ซึ่งรวมถึงการปรับปรุงการคาดการณ์สาขาในขณะเดียวกันก็ลบหรือลดขนาดฟีเจอร์ประสิทธิภาพบางอย่างลง ประสิทธิภาพนี้ได้รับการกู้คืนด้วยประสิทธิภาพที่มากขึ้น สิ่งที่น่าสนใจเช่นกัน Arm ได้ลบ ALU ตัวที่สามที่อยู่ใน A510 ออก ซึ่งช่วยประหยัดพลังงานในการออกตรรกะและการส่งต่อผลลัพธ์

จากผลลัพธ์ในโลกแห่งความเป็นจริง ดูเหมือนว่า A520 จะไม่ก้าวกระโดดจากรุ่นก่อนมากเท่ากับ A720 และ X4 ความสามารถส่วนใหญ่ในช่วงพลังงานที่ต่ำกว่าซ้อนทับกับ A510 จากกราฟด้านบน และเราจะเห็นว่าประสิทธิภาพเพิ่มขึ้นที่ระดับบนเท่านั้น ความแตกต่างในด้านประสิทธิภาพและพลังงานระหว่างคอร์ทั้งสองนั้นมีแนวโน้มที่ดี แต่ก็ไม่ชัดเจนว่าเราจะเห็นประโยชน์ที่แท้จริงในโลกแห่งความเป็นจริงหรือไม่เมื่อเปรียบเทียบ A520 กับ A510 ท้ายที่สุดแล้ว เป็นการยากที่จะวัดประสิทธิภาพและความแตกต่างด้านประสิทธิภาพระหว่างทั้งสองในโลกแห่งความเป็นจริงได้อย่างเหมาะสม

DSU-120: ความสามารถในการคำนวณสูงถึง 14 คอร์

DynamIQ Shared Unit หรือ DSU เป็นการผสานรวมหนึ่งคอร์ขึ้นไปเข้ากับระบบหน่วยความจำ L3 ตรรกะการควบคุม และอินเทอร์เฟซภายนอกเพื่อสร้างคลัสเตอร์แบบมัลติคอร์ โดยพื้นฐานแล้วมันคือโครงสร้างของ Arm ที่ช่วยให้คอร์เหล่านี้ทั้งหมดสามารถสื่อสารระหว่างกันและแบ่งปันทรัพยากรและเป็นได้ เช่นนี้เป็นส่วนสำคัญของปริศนาสำหรับผู้ผลิตชิปเซ็ตที่ต้องการสร้างชิปด้วยการออกแบบหลักของ Arm

Arm ได้ทำการปรับปรุง DSU-120 ด้วย DSU-110 หลายประการ ซึ่งจะเป็นประโยชน์ต่อชิปทั้งหมดที่ติดตั้งมาด้วย สำหรับผู้เริ่มต้น ขณะนี้มีสูงสุด 14 คอร์ต่อคลัสเตอร์ (เพิ่มขึ้นจาก 12) และรองรับแคช L3 สูงสุด 32MB นอกจากนี้ยังปรับปรุงประสิทธิภาพอย่างมากในด้านสำคัญหลายประการ รวมถึงในกรณีที่แคชหายไป ขณะเดียวกันก็ลดการรั่วไหลของพลังงานด้วย

ในทางหนึ่ง DSU ของ Arm คือกระดูกสันหลังของ TCS23 เนื่องจากเป็นพื้นฐานของวิธีที่แต่ละคอร์เหล่านี้โต้ตอบกันและแบ่งปันข้อมูล การปรับปรุงใดๆ ที่นี่จะเป็นประโยชน์ต่อทั้งคลัสเตอร์ แต่ดูเหมือนว่าการเปลี่ยนแปลงส่วนใหญ่จะเกี่ยวข้องกับการใช้พลังงานและประสิทธิภาพ

ประสิทธิภาพคือเป้าหมายใหม่

ดูเหมือนว่าอุตสาหกรรมจะมีการเปลี่ยนแปลงมาระยะหนึ่งแล้ว แต่ความประทับใจแรกที่ฉันได้รับจากคอร์เหล่านี้ก็คือประสิทธิภาพกลายเป็นชื่อของเกมไปแล้ว ในขณะที่เราได้รับแจ้งว่า X4 core นั้นเร็วแค่ไหนและเป็นคอร์ที่เร็วที่สุดของบริษัทได้อย่างไร พวกเขาทราบอย่างรวดเร็วถึงการปรับปรุงประสิทธิภาพของการรันที่ประสิทธิภาพสูงสุดของปีที่แล้ว แทน.

โดยรวมแล้ว ประสิทธิภาพที่เพิ่มขึ้นทุกอย่างได้รับการสนับสนุนจากส่วนประกอบนั้นมีประสิทธิภาพมากขึ้นเช่นกัน และการเปลี่ยนแปลงทั้งหมดของ DSU ไม่มากก็น้อยอยู่ที่ประสิทธิภาพและการรั่วไหลของพลังงาน ประสิทธิภาพเป็นสิ่งสำคัญ แต่ก็ให้ความรู้สึกเหมือนว่าอุตสาหกรรมโดยรวมกำลังพยายามสร้างกระแส ระดับการคำนวณมีประสิทธิภาพมากกว่าการใช้ประสิทธิภาพมหาศาลเพิ่มขึ้นทุกปี

เราคาดหวังว่าคอร์เหล่านี้จะกำหนดพื้นฐานของ MediaTek Dimensity 9400 และ Qualcomm Snapdragon 8 Gen 3 แต่ในรูปแบบใดที่ยังคงต้องรอให้เห็น ตามที่กล่าวไว้ก่อนหน้านี้ Arm พูดคุยเกี่ยวกับการใช้เลย์เอาต์คอร์ 1+5+3 ในการทดสอบภายในของตัวเอง แต่นั่นไม่ได้หมายความว่าพันธมิตรอย่าง MediaTek และ Qualcomm กำลังมองหาวิธีดำเนินการด้วยตนเอง