Cortex X4, A720 ו-A520 החדשים של Arm הם ליבות של 64 סיביות בלבד עם התמקדות גדולה ביעילות

הליבות החדשות של Arm כחלק מה-Total Compute Solution שלה לשנת 2023 הוכרזו, והן די מעניינות.

קישורים מהירים

64 סיביות בלבד: "המשימה הושלמה"

Arm Cortex-X4: אפילו יותר ביצועים ויעילות טובה יותר

Arm Cortex-A720: איזון בין ביצועים וצריכת חשמל

Arm Cortex A520: הכפלת היעילות

DSU-120: עד 14 ליבות של טוב חישוב

יעילות היא המטרה החדשה

Arm היא החברה שמעצבת כמעט את כל ליבות המעבד שבסופו של דבר נמצאות בשימוש בסמארטפון האנדרואיד שלך, ומדי שנה היא מכריזה על איטרציות חדשות שימצאו את דרכן מאוחר יותר לתוך ערכות שבבים כמו ספינת הדגל Snapdragon של אותה שנה או ספינת הדגל הבאה MediaTek מימד. השנה היא משחררת ליבת דגל Cortex-X4, ליבת ביצועים Cortex-A720 וליבה יעילות Cortex-A520. ליבות אלו מהוות את הבסיס לעיצובים החדשים של החברה תואמים Arm v9.2 ול-Total Compute Solution של החברה לשנת 2023, או TCS23. נוסף על כך, אנו רואים גם יחידה משותפת חדשה של DynamIQ ו-GPU מעודכן Immortalis-G720. גדול יותר הוא מעבר שלם לעבר מחשוב 64 סיביות, כאשר אף אחת מהליבות הללו לא תומכת ב-32 סיביות.

כל שלוש הליבות החדשות הן ממשיכות מיקרו-ארכיטקטוניות של השנה שעברה ומתמקדות בעיקר בהחדרת IPC ושיפורי יעילות.

64 סיביות בלבד: "המשימה הושלמה"

אחד השינויים הגדולים ביותר ב-Total Compute Solution של השנה מ-Arm הוא המעבר ל-64 סיביות בלבד. בעוד שה-A510R1 של שנה שעברה תמך במצב ביצוע AArch32 של 32 סיביות, וכך גם ה-A710 שהושק עם TCS22 בשנה שעברה, השנה, הליבות של Arm הן AArch64 בלבד. השעון מתקתק עבור יישומי 32 סיביות באנדרואיד, במיוחד מאז גוגל עצמה קבעה שכל האפליקציות יעודכנו מאז 2019 מועלים כקבצים בינאריים של 64 סיביות.

כדברי Arm, המעבר של 64 סיביות נחשב ל"משימה הושלמה". הסיבה לכך היא ששוק האפליקציות הסיני הוא מה עיכב את שאר התעשייה במעבר, אבל הרוב המכריע של האפליקציות בחנויות האפליקציות הסיניות תואמות כעת ל-64 סיביות, גַם.

הסיבה לעיכוב הייתה היעדר מערכת אקולוגית של יישומים הומוגנית, כלומר, חנויות אפליקציות שונות דרשו סטנדרטים שונים של מפתחים. בעוד Arm עבדה עם חנויות אפליקציות שונות בסין, יחד עם אזהרות חוזרות ונשנות על כך שיתרחש שינוי, חנויות האפליקציות הללו עודדו מפתחים לעבור גם.

כעת, לכאורה, הגיע הזמן שהמעבר הזה יתרחש בשלמותו, ובכל מקרה יעברו עוד כמה חודשים עד שנראה את ליבות הזרוע האלה בערכות שבבים חדשות.

Arm Cortex-X4: אפילו יותר ביצועים ויעילות טובה יותר

סדרת הליבות X של Arm התפצלה מסדרת ה-A שלה לפני מספר שנים, כשהפילוסופיה היא שמדובר בליבה עוצמתית שמותר לזלוף קצת יותר כוח כשהיא זקוקה לה. בדרך כלל, יצרני ערכות השבבים יכללו רק אחד או שניים כאלה לכל היותר, מכיוון שהם רעבים לכוח, אפילו למרות היכולות שיש להם.

כפי שניתן לראות מהגרף שלמעלה, ה-Cortex-X4 הוא ליבת Arm החזקה ביותר עד כה, אך יכולות החישוב הללו באות במחיר של צריכת חשמל. ה-Cortex-X4 דומה ל-X3 של השנה שעברה, וכפי שארם מנסחת זאת, ניתן אפילו להפעיל אותם באותם תדרים כמו הליבה של השנה שעברה ולהשתמש בכוח של עד 40% פחות. גודלה הפיזי גדול בפחות מ-10% וליבת Cortex-X היעילה ביותר שנבנתה אי פעם.

לגבי מאיפה מגיעים שיפורים אלה ב-IPC, ישנם מספר שיפורים קדמיים ואחוריים ל-X4. באותם שיפורים חזיתיים, הושקעה כמות גדולה של עבודה בכתיבה מחדש ושיפור של תחזיות ענפים, שכן תחזיות ענפים שגויות הן יקרות מבחינת ביצועים. Arm גם מבטיחה שגודל מטמון L2 של 2MB מניב ביצועים גבוהים יותר, לא כל כך במדדים אלא בשימוש בעולם האמיתי.

הליבה החדשה של Cortex-X4 מגדילה את מספר יחידות הלוגיקה האריתמטית (ALU) מ-6 ל-8, מוסיפה ענף נוסף יחידה (סה"כ 3), מוסיף יחידת צבר כפל נוסף, וצינורות נקודה צפה ושורש ריבועי פעולות.

באשר לחלק האחורי, ישנם גם מספר שיפורים. יצירת כתובות בחנות העומס הפכה משלוש הוראות לארבע בכל מחזור, כאשר הצינור של חנות העומס נלקח ופוצל. יש גם חיץ תרגום כפול הצידה ב-L1, יחד עם שיפורים בקונפליקט בנקים.

כל זה בא יחד כדי להביא לשיפור ביצועים מרשים ב-Cortex-X4 של Arm. בסך הכל, אתה יכול לצפות לשיפור ביצועים של 15% בממוצע עם ה-Cortex-X4. בעקומת ההספק והביצועים המשותפת ל-Arm, ה-X4 משתרע לפני ה-X3 הן בביצועים והן בצריכת החשמל. במילים אחרות, שיפור הביצועים של 15% מגיע בצריכת חשמל די משמעותית. עם זאת, ראוי להזכיר שזו לא ממש השוואה בין תפוחים לתפוחים; ה-Cortex-X3 הגיע עם 1MB של מטמון L2 בשנה שעברה, מה שאומר שאם יצרן ייצמד לאותו גודל מטמון L2 השנה, לא בהכרח תהיה העלאת ביצועים של 15%.

עם זאת, דבר אחד בטוח, והוא שאם אתה מריץ את ה-X4 במהירות מרבית, סביר להניח שהוא יהיה זולל כוח גדול. אנו עשויים לראות כמה יצרני OEM השנה ממשיכים לעשות את מה שהם עשו בשנה שעברה ולהוציא הרבה מערכות השבבים של השנה מהקופסה. לדוגמה, OnePlus ו-Oppo עושים זאת, ועם הרווחים הללו ביעילות החשמל כאשר פועלים במקביל נקודות ביצועים כמו X3, סביר להניח שיהיו יתרונות עבור אותן חברות להמשיך לעשות כך. אולי לא נראה את העלאת הביצועים של 15% בכל הלוח, אבל אולי נראה שיפורי יעילות נוספים עבור ערכות השבבים של השנה הבאה.

Arm Cortex-A720: איזון בין ביצועים וצריכת חשמל

בעוד שסדרת הליבות X של Arm בדרך כלל נותנת להשתולל מעט, סדרת הליבות A שואפת בדרך כלל לאזן בין צריכת החשמל לביצועים. עם ה-Cortex-A720, Arm מבטיחה ליבה יעילה יותר ב-20%, עם ביצועים מוגברים באותה הספק כמו ה-A715 מהשנה שעברה.

באשר מהיכן מגיעים השיפורים של ה-A720 השנה, רובם נמצאים בחלק הקדמי. צינורות התקצרו עם מחזור אחד שהוסר ממנוע החזוי השגוי של הענף, כאשר ירידה זו במחזור בודד נחשבת לעלייה של 1% במדדים. מדדי ביצוע בדרך כלל מביאים לפחות חיזויים שגויים של הענפים, כלומר זה ישפר ככל הנראה את הביצועים הכלליים בעולם האמיתי בכמות משמעותית יותר (אך במידה רבה בלתי ניתנת למדידה).

בליבה היוצאת מהסדר, אנו רואים מספר שיפורים מבניים שעוזרים לשפר את הביצועים מבלי להשפיע על האזור שתופסת הליבה או על היעילות שלה. בתור התחלה, בדיוק כמו ב-X4, חלוקת נקודה צפה ופעולות שורש ריבועיות מתבצעות כעת בצנרת. יש גם העברות מהירות יותר ממספרי נקודה צפה, NEON ו-SVE2 למספרים שלמים ושיפורים כלליים אחרים כדי להאיץ את העיבוד.

Arm שיתפה את הגרף שלמעלה כדי להמחיש כיצד ה-A720 משווה ל-A715 של השנה שעברה בביצועים וביעילות, כאשר תהליך ISO ותדר ISO משמשים ב-SPECint_base2006. גדלי המטמון נשארים זהים, כך שזוהי מאוד השוואה בין תפוחים לתפוחים.

מבחינת צריכת החשמל, ה-A720 נשאר בקנה אחד עם הדגם של השנה שעברה, אם כי הוא מוציא קצת יותר ביצועים באותן רמות הספק. עם ה-A720, כמו עם ה-X4, נראה ש-Arm מתמקדת יותר בלהדגיש כיצד הוא משתפר ביצועים מתוך אילוצי הכוח של השנה שעברה במקום להגדיל את ההספק שהן הליבות הללו מסוגל.

Arm Cortex A520: הכפלת היעילות

כמובן, כשזה מגיע לליבות של Arm, זה לא הכל עניין של ביצועים. עם סדרת X שמכניסה הכל לכוח חישוב גולמי וה-A7xx מאזנת צרכי חישוב וצריכת כוח, סדרת A5xx מתמקדת אך ורק בעיבוד יעיל. זוהי ההספק הנמוך ביותר לאזור Arm v9.2 ליבה, והוא מבוסס על אותה ארכיטקטורת ליבה ממוזגת שראינו שהוצגה עם ה-A510.

המשמעות של ארכיטקטורת הליבה הממוזגת הזו היא שניתן לחלוק משאבים מסוימים בין שתי ליבות, כאשר שתי ליבות יכולות להיות מקובצים ל"מתחם". המטמון L2, מאגר התרגום L2 הצידה, ונתיבי נתונים וקטוריים משותפים בתוך זה מורכב. שיהיה ברור, זה לא אומר את זה יש ל לצרור לשתי ליבות, וניתן להרכיב קומפלקס בעל ליבה אחת לביצועי שיא. למעשה, אחת מפריסות הליבה TCS2023 של Arm שהראו לנו כללה ליבת X4 בודדת, חמש ליבות A720 ושלוש ליבות A520, כלומר לפחות ליבת A520 אחת נמצאת בבידוד.

ה-A520 הוא עיצוב ראשון ביעילות, וכמו הליבות האחרות, Arm התמקדה בעיקר בשיפור היעילות באותן נקודות חשמל כמו הדור האחרון. זה כולל שיפור תחזיות ענפים תוך הסרה או הקטנה של חלק מתכונות הביצועים. ביצועים אלה הוחזרו באמצעות יעילות רבה יותר כתוצאה מכך. מעניין שגם Arm הסירה את ה-ALU השלישי שהיה ב-A510, וחיסכו בכוח בהנפקת לוגיקה והעברה של תוצאות.

בתוצאות בעולם האמיתי, נראה שה-A520 אינו קפיצה גדולה מקודמיו כמו ה-A720 וה-X4. חלק גדול מהיכולות שלו במרווחי הספק נמוכים יותר חופפים ל-A510 מהגרף שלמעלה, ורק בדרגים העליונים של ביצועים אנחנו רואים שיפור ביעילות. השוני בביצועים ובכוח בין שתי הליבות מבטיח, אך לא ברור אם נראה יתרונות ממשיים בעולם האמיתי בהשוואה בין ה-A520 ל-A510. אחרי הכל, קשה למדוד נכון את הבדלי הביצועים והיעילות בין השניים בעולם האמיתי.

DSU-120: עד 14 ליבות של טוב חישוב

ה-DynamIQ Shared Unit, או DSU, היא משלבת ליבה אחת או יותר עם מערכת זיכרון L3, לוגיקה בקרה וממשקים חיצוניים על מנת ליצור אשכול רב ליבות. זה בעצם המרקם של Arm שמאפשר לכל הליבות הללו לתקשר זו עם זו ולחלוק משאבים, וכפי כזה, זה חלק די חשוב בפאזל עבור כל יצרנית ערכות שבבים שמחפשת לבנות שבב עם עיצובי הליבה של Arm.

בהתבסס על DSU-110, Arm ביצעה מספר שיפורים ב-DSU-120 שישמשו לטובת כל השבב שהוא כלול בו. בתור התחלה, יש כעת עד 14 ליבות לכל אשכול (מעל 12) ותמיכה בעד 32MB של מטמון L3. זה גם משפר מאוד את היעילות במספר תחומים מרכזיים, כולל במקרה של החמצות מטמון, תוך הפחתת דליפת חשמל.

במובן מסוים, ה-DSU של Arm הוא עמוד השדרה של TCS23, מכיוון שהוא מהווה את הבסיס לאופן שבו כל אחת מהליבות הללו מתקשרת זו עם זו ומשתפת נתונים. כל שיפורים כאן יועילו לכלל האשכול, אבל נראה שרוב השינויים קשורים לצריכת חשמל ויעילות.

יעילות היא המטרה החדשה

נראה שהתעשייה השתנתה במשך זמן מה, אבל הרושם הראשוני העיקרי שאני מקבל מהליבות האלה הוא שיעילות היא עכשיו שם המשחק. בעוד שסיפרו לנו כמה מהיר יותר הליבה X4 וכיצד היא הליבה המהירה ביותר של החברה אי פעם, הם מיהרו מאוד לציין את שיפורי היעילות של הפעלתו בביצועי השיא של השנה שעברה במקום זאת.

בכל רחבי הלוח, כל רווח ביצועים התבסס על מידת היעילות של הרכיב הזה, ופחות או יותר, כל השינויים ב-DSU היו ביעילות ובדליפת חשמל. ביצועים חשובים, אבל זה באמת מרגיש כאילו התעשייה כולה מנסה להתעדכן רמות חישוביות יותר יעילות במקום ללכת על עליות ביצועים מסיביות משנה לשנה.

אנו מצפים כי הליבות הללו יגבשו את הבסיס של MediaTek Dimensity 9400 ושל Qualcomm Snapdragon 8 Gen 3, אך באיזה מבנה נותר לראות. כפי שהוזכר קודם לכן, Arm דיבר על שימוש בפריסת ליבה של 1+5+3 בבדיקות פנימיות משלה, אבל זה לא אומר שזה מה ששותפים כמו MediaTek ו-Qualcomm מחפשים לעשות בעצמם.