आर्म के नए कॉर्टेक्स

2023 के लिए टोटल कंप्यूट सॉल्यूशन के हिस्से के रूप में आर्म के नए कोर की घोषणा की गई है, और वे काफी दिलचस्प हैं।

त्वरित सम्पक

केवल 64-बिट: "मिशन पूरा हुआ"

आर्म कॉर्टेक्स-एक्स4: और भी अधिक प्रदर्शन और बेहतर दक्षता

आर्म कॉर्टेक्स-ए720: प्रदर्शन और बिजली की खपत को संतुलित करना

आर्म कॉर्टेक्स ए520: दक्षता दोगुनी हो रही है

डीएसयू-120: कम्प्यूटेशनल अच्छाई के 14 कोर तक

दक्षता नया लक्ष्य है

आर्म वह कंपनी है जो आपके एंड्रॉइड स्मार्टफ़ोन में उपयोग किए जाने वाले सभी सीपीयू कोर को डिज़ाइन करती है, और हर साल यह नए पुनरावृत्तियों की घोषणा करता है जो बाद में उस वर्ष के फ्लैगशिप स्नैपड्रैगन या अगले फ्लैगशिप मीडियाटेक जैसे चिपसेट में अपना रास्ता खोज लेंगे आयाम. इस वर्ष, यह एक फ्लैगशिप Cortex-X4 कोर, एक Cortex-A720 प्रदर्शन कोर और एक Cortex-A520 दक्षता कोर जारी कर रहा है। ये कोर कंपनी के नए आर्म v9.2 संगत डिज़ाइन और 2023 के लिए कंपनी के टोटल कंप्यूट सॉल्यूशन या TCS23 का आधार बनाते हैं। इसके अलावा, हम एक नई DynamIQ साझा इकाई और एक अद्यतन Immortalis-G720 GPU भी देख रहे हैं। इससे भी बड़ा अभी भी 64-बिट कंप्यूटिंग की ओर एक पूर्ण संक्रमण है, इनमें से कोई भी कोर 32-बिट का समर्थन नहीं करता है।

सभी तीन नए कोर पिछले साल के माइक्रोआर्किटेक्चरल उत्तराधिकारी हैं और मुख्य रूप से आईपीसी और दक्षता लाभ शुरू करने पर केंद्रित हैं।

केवल 64-बिट: "मिशन पूरा हुआ"

आर्म से इस साल के टोटल कंप्यूट सॉल्यूशन में सबसे बड़े बदलावों में से एक केवल 64-बिट में परिवर्तन है। जबकि पिछले साल के A510R1 ने 32-बिट AArch32 निष्पादन मोड का समर्थन किया था, जैसा कि पिछले साल TCS22 के साथ लॉन्च हुए A710 ने किया था, इस साल, Arm के कोर केवल AArch64 हैं। एंड्रॉइड पर 32-बिट अनुप्रयोगों के लिए घड़ी टिक-टिक कर रही है, खासकर तब से Google ने स्वयं यह अनिवार्य कर दिया है कि 2019 से सभी ऐप्स अपडेट हों 64-बिट बायनेरिज़ के रूप में अपलोड किए जाते हैं।

जैसा कि आर्म कहते हैं, 64-बिट संक्रमण को "मिशन पूरा हुआ" माना जाता है। इसकी वजह ये है कि चाइनीज ऐप मार्केट क्या है परिवर्तन में शेष उद्योग पीछे रह गया, लेकिन चीनी ऐप स्टोर पर अधिकांश ऐप अब 64-बिट के अनुरूप हैं, बहुत।

देरी का कारण एक समरूप एप्लिकेशन पारिस्थितिकी तंत्र की कमी थी, जिसका अर्थ है कि विभिन्न ऐप स्टोरों को डेवलपर्स के विभिन्न मानकों की आवश्यकता होती है। चूंकि आर्म ने चीन में विभिन्न ऐप स्टोरों के साथ काम किया है, हालांकि, बदलाव की बार-बार चेतावनी के साथ, वे ऐप स्टोर डेवलपर्स को भी स्विच करने के लिए प्रोत्साहित कर रहे हैं।

ऐसा लगता है कि अब उस परिवर्तन को पूरी तरह से करने का समय आ गया है, और जब तक हम इन आर्म कोर को नए चिपसेट में नहीं देखेंगे तब तक कुछ और महीने लगेंगे।

आर्म कॉर्टेक्स-एक्स4: और भी अधिक प्रदर्शन और बेहतर दक्षता

आर्म की एक्स श्रृंखला के कोर कई साल पहले इसकी ए श्रृंखला से अलग हो गए थे, दर्शन यह है कि यह एक शक्तिशाली कोर है जिसे जरूरत पड़ने पर थोड़ी अधिक शक्ति का उपभोग करने की अनुमति है। आमतौर पर, चिपसेट निर्माता इनमें से अधिकतम एक या दो को ही शामिल करेंगे, क्योंकि वे बिजली के भूखे हैं, भले ही उनके पास इतनी क्षमताएं हों।

जैसा कि आप उपरोक्त ग्राफ़ से देख सकते हैं, कॉर्टेक्स-एक्स4 अब तक का सबसे शक्तिशाली आर्म कोर है, लेकिन ये गणना क्षमताएं बिजली की खपत की कीमत पर आती हैं। कॉर्टेक्स-एक्स4 पिछले साल के एक्स3 के समान है, और जैसा कि आर्म कहते हैं, इसे पिछले साल के कोर के समान आवृत्तियों पर भी चलाया जा सकता है और 40% कम बिजली का उपयोग किया जा सकता है। यह भौतिक आकार में 10% से भी कम बड़ा है और अब तक निर्मित सबसे कुशल कॉर्टेक्स-एक्स कोर है।

जहाँ तक यह बात है कि वे आईपीसी सुधार कहाँ से आते हैं, तो X4 में कई फ्रंट-एंड और बैक-एंड सुधार हैं। उन फ्रंट-एंड सुधारों में, शाखा भविष्यवाणियों को फिर से लिखने और सुधारने में बड़ी मात्रा में काम किया गया था, क्योंकि गलत शाखा भविष्यवाणियां प्रदर्शन के लिहाज से महंगी होती हैं। आर्म यह भी वादा करता है कि 2एमबी का एल2 कैश आकार उच्च प्रदर्शन देता है, बेंचमार्क में उतना नहीं बल्कि वास्तविक दुनिया में उपयोग में।

नया कॉर्टेक्स-एक्स4 कोर अंकगणित तर्क इकाइयों (एएलयू) की संख्या 6 से बढ़ाकर 8 कर देता है, एक अतिरिक्त शाखा जोड़ता है इकाई (कुल 3 के लिए), एक अतिरिक्त मल्टीप्लाई-एक्युमुलेटर इकाई, और पाइपलाइन फ्लोटिंग पॉइंट और वर्गमूल जोड़ती है परिचालन.

जहां तक बैकएंड की बात है, इसमें भी कई सुधार हैं। लोड-स्टोर एड्रेस जनरेशन प्रति चक्र तीन निर्देशों से बढ़कर चार हो गया है, क्योंकि लोड-स्टोर पाइप लिया गया और विभाजित किया गया। बैंक संघर्ष सुधारों के साथ, L1 में दोगुना अनुवाद लुकसाइड बफ़र भी है।

यह सब मिलकर आर्म के कॉर्टेक्स-एक्स4 में कुछ प्रभावशाली प्रदर्शन सुधार लाते हैं। कुल मिलाकर, आप Cortex-X4 के साथ औसतन 15% प्रदर्शन सुधार की उम्मीद कर सकते हैं। आर्म द्वारा साझा की गई शक्ति और प्रदर्शन वक्र में, X4 प्रदर्शन और बिजली की खपत दोनों में X3 से आगे है। दूसरे शब्दों में, वह 15% प्रदर्शन सुधार एक बहुत ही महत्वपूर्ण पावर ड्रॉ पर आता है। हालाँकि, यह भी उल्लेख करने योग्य है कि यह बिल्कुल सेब-से-सेब की तुलना नहीं है; Cortex-X3 पिछले साल 1MB L2 कैश के साथ आया था, जिसका मतलब है कि अगर निर्माता इस साल उसी L2 कैश आकार पर कायम रहता है, तो जरूरी नहीं कि प्रदर्शन में 15% की बढ़ोतरी हो।

हालाँकि, एक बात निश्चित है, और वह यह है कि यदि आप X4 को अधिकतम गति पर चला रहे हैं, तो यह संभवतः एक प्रमुख पावर गज़लर होगा। हम देख सकते हैं कि इस साल कुछ ओईएम वही करना जारी रखेंगे जो उन्होंने पिछले साल किया था और इस साल के कई चिपसेट को बॉक्स से बाहर कर देंगे। उदाहरण के लिए, वनप्लस और ओप्पो दोनों ऐसा करते हैं, और उसी पर चलने पर बिजली दक्षता में वृद्धि होती है प्रदर्शन बिंदु X3 के समान है, संभावना है कि ऐसा करना जारी रखने से उन कंपनियों को लाभ होगा इसलिए। हम पूरे बोर्ड में प्रदर्शन में 15% की बढ़ोतरी नहीं देख सकते हैं, लेकिन हम अगले साल के चिपसेट के लिए इसके बजाय और अधिक दक्षता में सुधार देख सकते हैं।

आर्म कॉर्टेक्स-ए720: प्रदर्शन और बिजली की खपत को संतुलित करना

जबकि आर्म की एक्स श्रृंखला के कोर को आम तौर पर थोड़ा जंगली चलने दिया जाता है, कोर की ए श्रृंखला का उद्देश्य आमतौर पर प्रदर्शन के मुकाबले बिजली की खपत को संतुलित करना होता है। कॉर्टेक्स-ए720 के साथ, आर्म 20% अधिक कुशल कोर का वादा करता है, जिसमें पिछले साल के ए715 की समान शक्ति पर बेहतर प्रदर्शन होगा।

जहां तक इस बात का सवाल है कि इस वर्ष के A720 सुधार कहां से आए, उनमें से अधिकांश अग्रिम मोर्चे पर हैं। शाखा गलत भविष्यवाणी इंजन से एक चक्र हटाकर पाइपलाइनों को छोटा कर दिया गया है, इस एकल चक्र की गिरावट को बेंचमार्क में 1% की वृद्धि के लिए जिम्मेदार माना जा रहा है। बेंचमार्क के परिणामस्वरूप आम तौर पर सबसे कम शाखा गलत भविष्यवाणियां होती हैं, जिसका अर्थ है कि इससे समग्र वास्तविक दुनिया के प्रदर्शन में अधिक महत्वपूर्ण (लेकिन काफी हद तक अथाह) सुधार होने की संभावना है।

आउट-ऑफ-ऑर्डर कोर में, हम कई संरचनात्मक सुधार देखते हैं जो कोर द्वारा उठाए गए क्षेत्र या इसकी दक्षता को प्रभावित किए बिना प्रदर्शन को बेहतर बनाने में मदद करते हैं। शुरुआत के लिए, X4 की तरह, फ़्लोटिंग पॉइंट डिवाइड और स्क्वायर रूट ऑपरेशंस अब पाइपलाइन में हैं। प्रसंस्करण में तेजी लाने के लिए फ्लोटिंग पॉइंट, NEON और SVE2 नंबरों से पूर्णांकों में तेजी से स्थानांतरण और अन्य समग्र सुधार भी हैं।

आर्म ने उपरोक्त ग्राफ को यह बताने के लिए साझा किया कि A720 प्रदर्शन और दक्षता में पिछले साल के A715 की तुलना कैसे करता है, जहां SPECint_base2006 में ISO प्रक्रिया और ISO आवृत्ति का उपयोग किया जाता है। कैश का आकार भी वही रहता है, इसलिए यह बहुत हद तक सेब-से-सेब की तुलना है।

बिजली की खपत के मामले में, A720 पिछले साल के मॉडल के अनुरूप है, हालांकि यह समान बिजली स्तरों पर थोड़ा अधिक प्रदर्शन करता है। A720 के साथ, X4 की तरह, आर्म इस बात पर अधिक ध्यान केंद्रित कर रहा है कि यह कैसे बेहतर हो रहा है इन कोर की शक्ति में लगातार वृद्धि के बजाय पिछले साल की बिजली बाधाओं से बाहर प्रदर्शन करने में सक्षम।

आर्म कॉर्टेक्स ए520: दक्षता दोगुनी हो रही है

बेशक, जब आर्म के कोर की बात आती है, तो यह केवल प्रदर्शन के बारे में नहीं है। एक्स सीरीज़ में सब कुछ कच्ची कम्प्यूटेशनल पावर में डालने और ए7एक्सएक्स कम्प्यूटेशनल जरूरतों और पावर ड्रॉ को संतुलित करने के साथ, ए5एक्सएक्स सीरीज़ पूरी तरह से कुशल प्रसंस्करण पर केंद्रित है। यह प्रति क्षेत्र सबसे कम शक्ति वाला आर्म v9.2 कोर है और यह उसी मर्ज-कोर आर्किटेक्चर पर आधारित है जिसे हमने A510 के साथ पेश किया था।

इस मर्ज किए गए कोर आर्किटेक्चर का मतलब यह है कि कुछ संसाधनों को दो कोर के बीच साझा किया जा सकता है, जहां दो कोर हो सकते हैं एक "कॉम्प्लेक्स" में समूहीकृत। L2 कैश, L2 ट्रांसलेशन लुकसाइड बफ़र और वेक्टर डेटापथ इसके भीतर साझा किए जाते हैं जटिल। स्पष्ट होने के लिए, इसका यह मतलब नहीं है है दो कोर में बंडल किया जा सकता है, और चरम प्रदर्शन के लिए एक-कोर कॉम्प्लेक्स को इकट्ठा किया जा सकता है। वास्तव में, आर्म के TCS2023 कोर लेआउट में से एक जो उन्होंने हमें दिखाया था उसमें एक एकल X4 कोर, पांच A720 कोर और तीन A520 कोर शामिल थे, जिसका अर्थ है कि कम से कम एक A520 कोर अलगाव में है।

A520 एक दक्षता-प्रथम डिज़ाइन है, और अन्य कोर की तरह, आर्म ने पिछली पीढ़ी के समान पावर पॉइंट पर उस दक्षता में सुधार करने पर काफी हद तक ध्यान केंद्रित किया है। इसमें कुछ प्रदर्शन सुविधाओं को हटाने या कम करने के साथ-साथ शाखा पूर्वानुमानों में सुधार करना भी शामिल है। परिणामस्वरूप यह प्रदर्शन अधिक दक्षता के माध्यम से पुनः प्राप्त किया गया। दिलचस्प बात यह भी है कि आर्म ने तीसरे ALU को हटा दिया है जो A510 में था, जिससे तर्क जारी करने और परिणाम अग्रेषित करने में शक्ति की बचत हुई।

वास्तविक दुनिया के परिणामों में, ऐसा लगता है कि A520 अपने पूर्ववर्तियों से उतना बड़ा नहीं है जितना कि A720 और X4 हैं। निम्न पावर अंतराल पर इसकी अधिकांश क्षमताएं उपरोक्त ग्राफ़ से A510 के साथ ओवरलैप होती हैं, और केवल प्रदर्शन के ऊपरी क्षेत्रों में ही हम दक्षता में वृद्धि देखते हैं। दो कोर के बीच प्रदर्शन और शक्ति में अंतर आशाजनक है, लेकिन यह स्पष्ट नहीं है कि A520 की A510 से तुलना करने पर हमें कोई वास्तविक वास्तविक लाभ दिखाई देगा या नहीं। आख़िरकार, वास्तविक दुनिया में दोनों के बीच प्रदर्शन और दक्षता के अंतर को सही ढंग से मापना कठिन है।

डीएसयू-120: कम्प्यूटेशनल अच्छाई के 14 कोर तक

DynamIQ शेयर्ड यूनिट, या DSU, एक मल्टीकोर क्लस्टर बनाने के लिए L3 मेमोरी सिस्टम, कंट्रोल लॉजिक और बाहरी इंटरफेस के साथ एक या अधिक कोर को एकीकृत करता है। यह अनिवार्य रूप से आर्म का कपड़ा है जो इन सभी कोर को एक दूसरे के साथ संवाद करने और संसाधनों को साझा करने की अनुमति देता है, और इसी तरह ऐसे में, यह किसी भी चिपसेट निर्माता के लिए पहेली का एक महत्वपूर्ण हिस्सा है जो आर्म के मुख्य डिजाइनों के साथ एक चिप बनाना चाहता है।

डीएसयू-110 पर निर्माण करते हुए, आर्म ने डीएसयू-120 में कई सुधार किए हैं जो इसमें शामिल पूरी चिप को लाभ पहुंचाने का काम करेंगे। शुरुआत के लिए, अब प्रति क्लस्टर 14 कोर (12 से ऊपर) और 32एमबी तक एल3 कैश के लिए समर्थन है। यह कई प्रमुख क्षेत्रों में दक्षता में सुधार करता है, जिसमें कैश मिस होने की स्थिति भी शामिल है, साथ ही बिजली रिसाव को भी कम करता है।

एक तरह से, आर्म का DSU TCS23 की रीढ़ है, क्योंकि यह इस बात का आधार बनता है कि इनमें से प्रत्येक कोर एक दूसरे के साथ कैसे इंटरैक्ट करते हैं और डेटा साझा करते हैं। यहां किसी भी सुधार से पूरे क्लस्टर को लाभ होगा, लेकिन ऐसा लगता है कि अधिकांश बदलाव बिजली की खपत और दक्षता से संबंधित हैं।

दक्षता नया लक्ष्य है

ऐसा प्रतीत होता है कि उद्योग कुछ समय से बदल रहा है, लेकिन इन कोर से मुझे जो मुख्य पहली धारणा मिलती है वह यह है कि दक्षता अब खेल का नाम है। जबकि हमें बताया गया था कि X4 कोर कितना तेज़ है और यह कंपनी का अब तक का सबसे तेज़ कोर कैसे है, उन्हें पिछले साल के चरम प्रदर्शन पर इसे चलाने की दक्षता में सुधार देखने में बहुत जल्दी थी बजाय।

पूरे बोर्ड में, प्रत्येक प्रदर्शन लाभ को इस बात पर आधारित किया गया था कि वह घटक कितना अधिक कुशल था, और कमोबेश, डीएसयू के सभी परिवर्तन दक्षता और बिजली रिसाव में थे। प्रदर्शन महत्वपूर्ण है, लेकिन वास्तव में ऐसा महसूस होता है कि संपूर्ण उद्योग वर्तमान बनाने की कोशिश कर रहा है बड़े पैमाने पर प्रदर्शन के बजाय कम्प्यूटेशनल स्तर अधिक कुशल है और साल-दर-साल बढ़ता है।

हम उम्मीद करते हैं कि ये कोर मीडियाटेक डाइमेंशन 9400 और क्वालकॉम स्नैपड्रैगन 8 जेन 3 का आधार तैयार करेंगे, लेकिन किस रूप में यह देखा जाना बाकी है। जैसा कि पहले उल्लेख किया गया है, आर्म ने अपने आंतरिक परीक्षण में 1+5+3 कोर लेआउट का उपयोग करने के बारे में बात की है, लेकिन इसका मतलब यह नहीं है कि मीडियाटेक और क्वालकॉम जैसे भागीदार स्वयं ऐसा करना चाह रहे हैं।