إن Cortex X4 وA720 وA520 الجديدة من Arm هي أنوية 64 بت فقط مع تركيز كبير على الكفاءة

تم الإعلان عن نوى Arm الجديدة كجزء من Total Compute Solution لعام 2023، وهي مثيرة للاهتمام للغاية.

روابط سريعة

  • 64 بت فقط: "تم إنجاز المهمة"
  • Arm Cortex-X4: أداء أكثر وكفاءة أفضل
  • Arm Cortex-A720: تحقيق التوازن بين الأداء واستهلاك الطاقة
  • Arm Cortex A520: مضاعفة الكفاءة
  • DSU-120: ما يصل إلى 14 مركزًا من الجودة الحسابية
  • الكفاءة هي الهدف الجديد

Arm هي الشركة التي تصمم تقريبًا جميع نوى وحدة المعالجة المركزية (CPU) التي يتم استخدامها في نهاية المطاف في هاتفك الذكي الذي يعمل بنظام Android، وفي كل عام تقوم تعلن عن تكرارات جديدة ستجد طريقها لاحقًا إلى شرائح مثل Snapdragon الرائد لذلك العام أو MediaTek الرائد التالي البعد. هذا العام، ستطلق نواة Cortex-X4 الرائدة، ونواة الأداء Cortex-A720، ونواة الكفاءة Cortex-A520. تشكل هذه النوى أساس التصميمات الجديدة المتوافقة مع Arm v9.2 للشركة وحل الحوسبة الإجمالي للشركة لعام 2023، أو TCS23. علاوة على ذلك، نشهد أيضًا وحدة DynamIQ المشتركة الجديدة ووحدة معالجة الرسوميات Immortalis-G720 المحدثة. والأمر الأكبر هو الانتقال الكامل نحو حوسبة 64 بت، مع عدم دعم أي من هذه النوى لـ 32 بت.

جميع النوى الثلاثة الجديدة هي خلفاء معمارية دقيقة للعام الماضي وتركز بشكل أساسي على تقديم IPC ومكاسب الكفاءة.

64 بت فقط: "تم إنجاز المهمة"

أحد أكبر التغييرات في Total Compute Solution لهذا العام من Arm هو الانتقال إلى 64 بت فقط. بينما دعم A510R1 العام الماضي وضع التنفيذ AArch32 32 بت، كما فعل A710 الذي تم إطلاقه مع TCS22 العام الماضي، فإن نوى Arm هذا العام هي AArch64 فقط. لقد بدأ الوقت يدق بالنسبة لتطبيقات 32 بت على Android، خاصة منذ ذلك الحين لقد فرضت Google نفسها تحديث جميع التطبيقات منذ عام 2019 يتم تحميلها كثنائيات 64 بت.

وكما يقول آرم، يعتبر الانتقال إلى 64 بت بمثابة "إنجاز المهمة". والسبب في ذلك هو أن سوق التطبيقات الصيني هو ما أعاقت بقية الصناعة في المرحلة الانتقالية، ولكن الغالبية العظمى من التطبيقات في متاجر التطبيقات الصينية أصبحت الآن متوافقة مع 64 بت، أيضاً.

كان سبب التأخير هو عدم وجود نظام بيئي متجانس للتطبيقات، مما يعني أن متاجر التطبيقات المختلفة تتطلب معايير مختلفة من المطورين. نظرًا لأن Arm عملت مع العديد من متاجر التطبيقات في الصين، إلى جانب التحذيرات المتكررة من حدوث تحول، فقد شجعت متاجر التطبيقات هذه المطورين على التبديل أيضًا.

يبدو أن الوقت قد حان الآن لحدوث هذا التحول بالكامل، وسيكون هناك بضعة أشهر أخرى حتى نرى نوى الذراع هذه في شرائح جديدة، على أي حال.

Arm Cortex-X4: أداء أكثر وكفاءة أفضل

لقد انحرفت سلسلة نوى Arm's X عن سلسلتها A منذ عدة سنوات، وكانت الفلسفة هي أنها نواة قوية يُسمح لها بإسراف المزيد من الطاقة عندما تحتاج إليها. عادةً ما يقوم صانعو الشرائح بتضمين واحدة أو اثنتين منها كحد أقصى، لأنهم متعطشون للطاقة، حتى على الرغم من القدرات التي لديهم أيضًا.

كما ترون من الرسم البياني أعلاه، فإن Cortex-X4 هو أقوى نواة للذراع حتى الآن، ولكن قدرات الحساب هذه تأتي على حساب استهلاك الطاقة. يشبه Cortex-X4 جهاز X3 العام الماضي، وكما يقول Arm، يمكن تشغيله بنفس الترددات مثل نواة العام الماضي واستخدام طاقة أقل بنسبة تصل إلى 40٪. إنه أكبر بنسبة 10% من حيث الحجم الفعلي وهو أكثر نواة Cortex-X كفاءة على الإطلاق.

أما بالنسبة للمصدر الذي تأتي منه تحسينات IPC، فهناك عدد من التحسينات الأمامية والخلفية لجهاز X4. في هذه التحسينات الأمامية، تم بذل قدر كبير من العمل لإعادة كتابة وتحسين تنبؤات الفروع، حيث أن تنبؤات الفروع غير الصحيحة مكلفة من حيث الأداء. تعد شركة Arm أيضًا بأن حجم ذاكرة التخزين المؤقت L2 الذي يبلغ 2 ميجابايت يؤدي إلى أداء أعلى، ليس كثيرًا في المعايير ولكن في الاستخدام الواقعي.

تعمل نواة Cortex-X4 الجديدة على زيادة عدد وحدات المنطق الحسابي (ALUs) من 6 إلى 8، وإضافة فرع إضافي وحدة (إجمالي 3)، تضيف وحدة تراكم إضافية، والنقطة العائمة لخطوط الأنابيب والجذر التربيعي عمليات.

أما بالنسبة للواجهة الخلفية، فهناك عدد من التحسينات أيضًا. لقد انتقل إنشاء عنوان مخزن التحميل من ثلاثة تعليمات إلى أربعة في كل دورة، حيث تم أخذ أنبوب مخزن التحميل وتقسيمه. يوجد أيضًا مخزن مؤقت مضاعف للترجمة في اللغة الأولى، إلى جانب تحسينات الصراع البنكي.

يأتي كل هذا معًا لتحقيق بعض الارتقاء المذهل في الأداء في Arm's Cortex-X4. بشكل عام، يمكنك أن تتوقع تحسنًا في الأداء بنسبة 15% في المتوسط ​​مع Cortex-X4. في منحنى القوة والأداء الذي تتقاسمه شركة Arm، يتفوق X4 على X3 في كل من الأداء واستهلاك الطاقة. بمعنى آخر، يأتي التحسن في الأداء بنسبة 15% مع استهلاك كبير جدًا للطاقة. ومع ذلك، تجدر الإشارة إلى أنها ليست مقارنة بين تفاحتين؛ جاء Cortex-X3 مزودًا بسعة 1 ميجابايت من ذاكرة التخزين المؤقت L2 في العام الماضي، مما يعني أنه إذا التزمت الشركة المصنعة بنفس حجم ذاكرة التخزين المؤقت L2 هذا العام، فقد لا يكون هناك بالضرورة زيادة في الأداء بنسبة 15٪.

هناك شيء واحد مؤكد، وهو أنه إذا كنت تقوم بتشغيل X4 بأقصى سرعة، فمن المحتمل أن يكون مستهلكًا للطاقة بشكل كبير. قد نرى بعض مصنعي المعدات الأصلية هذا العام يواصلون القيام بما فعلوه في العام الماضي ويخنقون العديد من شرائح هذا العام خارج الصندوق. على سبيل المثال، يقوم كل من OnePlus وOppo بذلك، ومع مكاسب كفاءة الطاقة هذه عند التشغيل في نفس الوقت نقاط الأداء مثل X3، فمن المحتمل أنه ستكون هناك فوائد لتلك الشركات لمواصلة القيام بذلك لذا. قد لا نرى زيادة في الأداء بنسبة 15% في جميع المجالات، ولكننا قد نرى المزيد من التحسينات في الكفاءة بدلاً من ذلك بالنسبة لشرائح العام المقبل.

Arm Cortex-A720: تحقيق التوازن بين الأداء واستهلاك الطاقة

على الرغم من أن سلسلة نوى Arm's X يتم تشغيلها بشكل جامح بعض الشيء، إلا أن سلسلة النوى A تهدف عادةً إلى تحقيق التوازن بين استهلاك الطاقة والأداء. مع Cortex-A720، يعد Arm بنواة أكثر كفاءة بنسبة 20%، مع أداء متزايد بنفس قوة A715 من العام الماضي.

أما من أين تأتي تحسينات A720 هذا العام، فمعظمها في الواجهة الأمامية. تم تقصير خطوط الأنابيب مع إزالة دورة واحدة من محرك التنبؤ الخاطئ للفرع، ويقال إن انخفاض الدورة الواحدة هذا يمثل زيادة بنسبة 1٪ في المعايير. تؤدي المعايير عادة إلى أقل عدد من التوقعات الخاطئة للفروع، مما يعني أن هذا من المرجح أن يؤدي إلى تحسين الأداء العام في العالم الحقيقي بمقدار أكبر (ولكن لا يمكن قياسه إلى حد كبير).

في المركز خارج الترتيب، نرى عددًا من التحسينات الهيكلية التي تساعد على تحسين الأداء دون التأثير على المساحة التي يشغلها المركز أو كفاءته. بالنسبة للمبتدئين، تمامًا كما هو الحال في X4، يتم الآن توصيل عمليات تقسيم الفاصلة العائمة والجذر التربيعي. هناك أيضًا عمليات نقل أسرع من أرقام النقطة العائمة وNEON وSVE2 إلى الأعداد الصحيحة وتحسينات عامة أخرى لتسريع المعالجة.

شارك Arm الرسم البياني أعلاه لتوضيح كيفية مقارنة A720 مع A715 العام الماضي من حيث الأداء والكفاءة، حيث يتم استخدام عملية ISO وتردد ISO في SPECint_base2006. تظل أحجام ذاكرة التخزين المؤقت كما هي أيضًا، لذا فهي مقارنة من التفاح إلى التفاح إلى حد كبير.

فيما يتعلق باستهلاك الطاقة، يظل الطراز A720 متوافقًا إلى حد كبير مع طراز العام الماضي، على الرغم من أنه يحقق أداءً أكبر قليلاً عند نفس مستويات الطاقة. مع A720، كما هو الحال مع X4، يبدو أن Arm تركز أكثر على تسليط الضوء على كيفية تحسنها الأداء خارج قيود الطاقة في العام الماضي بدلاً من زيادة قوة هذه النوى بشكل مستمر قادر على.

Arm Cortex A520: مضاعفة الكفاءة

بالطبع، عندما يتعلق الأمر بنوى الذراع، فالأمر لا يتعلق بالأداء فقط. مع قيام سلسلة X بوضع كل شيء في قوة حسابية أولية وموازنة A7xx بين الاحتياجات الحسابية واستهلاك الطاقة، تركز سلسلة A5xx بشكل كامل على المعالجة الفعالة. إنها أقل طاقة لكل منطقة من نواة Arm v9.2 وتعتمد على نفس بنية النواة المدمجة التي رأيناها مقدمة مع A510.

ما تعنيه هذه البنية الأساسية المدمجة هو أنه يمكن مشاركة بعض الموارد بين مركزين، حيث يمكن أن يكون هناك مركزان مجمعة في "معقدة". تتم مشاركة ذاكرة التخزين المؤقت L2 والمخزن المؤقت لترجمة L2 ومسارات بيانات المتجهات ضمن هذا معقد. لكي نكون واضحين، هذا لا يعني ذلك لديه ليتم تجميعها في نواتين، ويمكن تجميع مجمع أحادي النواة لتحقيق أعلى أداء. في الواقع، أحد تخطيطات Arm's TCS2023 الأساسية التي أظهروها لنا يتضمن نواة X4 واحدة، وخمسة نوى A720، وثلاثة نوى A520، مما يعني أن نواة A520 واحدة على الأقل معزولة.

يعد A520 تصميمًا يركز على الكفاءة أولاً، ومثل النوى الأخرى، ركزت Arm بشكل كبير على تحسين تلك الكفاءة في نفس نقاط الطاقة مثل الجيل الأخير. يتضمن ذلك تحسين تنبؤات الفروع مع إزالة بعض ميزات الأداء أو تقليصها أيضًا. ونتيجة لذلك، تم استعادة هذا الأداء من خلال زيادة الكفاءة. ومن المثير للاهتمام أيضًا أن Arm قامت بإزالة وحدة ALU الثالثة التي كانت موجودة في A510، مما يوفر الطاقة في إصدار النتائج المنطقية وإعادة توجيهها.

في النتائج الواقعية، يبدو أن الطراز A520 لا يمثل قفزة كبيرة عن سابقاته مثل الطرازين A720 وX4. تتداخل الكثير من قدراتها في فترات الطاقة المنخفضة مع A510 من الرسم البياني أعلاه، ولا نرى مكاسب في الكفاءة إلا في المستويات العليا من الأداء. يعد الاختلاف في الأداء والقوة بين النواتين واعدًا، لكن من غير الواضح ما إذا كنا سنرى أي فوائد فعلية في العالم الحقيقي عند مقارنة A520 بـ A510. ففي نهاية المطاف، من الصعب قياس الاختلافات في الأداء والكفاءة بين الاثنين بشكل صحيح في العالم الحقيقي.

DSU-120: ما يصل إلى 14 مركزًا من الجودة الحسابية

وحدة DynamIQ المشتركة، أو DSU، عبارة عن وحدة تدمج نواة واحدة أو أكثر مع نظام ذاكرة L3 ومنطق التحكم والواجهات الخارجية من أجل تشكيل مجموعة متعددة النواة. إنه في الأساس نسيج Arm الذي يسمح لجميع هذه النوى بالتواصل مع بعضها البعض ومشاركة الموارد على هذا النحو، إنها قطعة مهمة إلى حد ما من اللغز لأي صانع شرائح يتطلع إلى بناء شريحة ذات تصميمات Arm الأساسية.

بناءً على DSU-110، قامت شركة Arm بعدد من التحسينات على DSU-120 والتي من شأنها أن تفيد الشريحة بأكملها المضمنة فيها. بالنسبة للمبتدئين، يوجد الآن ما يصل إلى 14 مركزًا لكل مجموعة (مقارنة بـ 12 مركزًا) ودعم ما يصل إلى 32 ميجابايت من ذاكرة التخزين المؤقت L3. كما أنه يعمل على تحسين الكفاءة بشكل كبير في عدد من المجالات الرئيسية، بما في ذلك حالة فقدان ذاكرة التخزين المؤقت، مع تقليل تسرب الطاقة أيضًا.

بطريقة ما، تعد وحدة DSU الخاصة بـ Arm هي العمود الفقري لـ TCS23، لأنها تشكل الأساس لكيفية تفاعل كل من هذه النوى مع بعضها البعض ومشاركة البيانات. أي تحسينات هنا ستفيد المجموعة بأكملها، ولكن يبدو أن معظم التغييرات تتعلق باستهلاك الطاقة والكفاءة.

الكفاءة هي الهدف الجديد

يبدو أن الصناعة تشهد تحولًا منذ فترة، لكن الانطباع الأول الرئيسي الذي أحصل عليه من هذه النوى هو أن الكفاءة هي الآن اسم اللعبة. بينما تم إخبارنا عن مدى سرعة نواة X4 وكيف أنها أسرع نواة للشركة على الإطلاق، لقد سارعوا إلى ملاحظة تحسينات الكفاءة في تشغيله في ذروة الأداء العام الماضي بدلاً من.

في جميع المجالات، كان كل مكاسب الأداء مدعومة بمدى كفاءة هذا المكون أيضًا، وبشكل أو بآخر، كانت جميع التغييرات في وحدة DSU في الكفاءة وتسرب الطاقة. الأداء مهم، ولكن يبدو أن الصناعة ككل تحاول أن تجعلها حديثة المستويات الحسابية أكثر كفاءة بدلاً من زيادة الأداء الهائل عامًا بعد عام.

نتوقع أن تشكل هذه النوى أساس MediaTek Dimensity 9400 وQualcomm Snapdragon 8 Gen 3، ولكن في أي تشكيل يبقى أن نرى. كما ذكرنا سابقًا، تحدثت شركة Arm عن استخدام التصميم الأساسي 1+5+3 في اختباراتها الداخلية، لكن هذا لا يعني أن هذا ما يتطلع شركاء مثل MediaTek وQualcomm إلى القيام به بأنفسهم.