רמאות בנצ'מארק חוזרת: איך OnePlus ואחרים נתפסו על ידיהם, ומה הם עשו בנידון

OnePlus ומייזו נתפסו בוגדים במדדים. XDA חוקר כיצד זה קרה, ומה ניתן לעשות כדי למנוע את זה לקרות שוב.

לפני כמה שנים הייתה מהומה לא מבוטלת, כאשר מספר רב של יצרנים גדולים נתפסו בוגדים במדדים. יצרני OEM בכל הגדלים (כולל סמסונג, HTC, סוני, ו-LG) השתתפו במירוץ החימוש הזה של ניסיון לרמות משתמשים מבלי להיתפס, אבל למרבה המזל הם הפסיקו לבסוף את רמאות המבחן שלהם לאחר כמה דיונים גלויים עם מומחים בתעשייה ועיתונאים.

עוד ב-2013, זה היה גילה שסמסונג מגבירה באופן מלאכותי את מהירויות השעון של ה-GPU שלה ביישומים מסוימים, מה שעורר סדרה של חקירות לתוך רמאות בנצ'מרק בכל מגוון היצרנים. בזמנו, החקירה מצאה שכמעט כל יצרן מלבד גוגל/מוטורולה עסקו ברמאות בנצ'מרק. כולם השקיעו זמן וכסף בניסיונות להפיק מעט ביצועים נוספים מהטלפונים שלהם במדדים, בדרכים ש לא תהיה השפעה חיובית על השימוש היומיומי, בניסיון להטעות את המשתמשים לחשוב שהטלפונים שלהם מהירים יותר ממה שהם באמת היו. מאמצי הפיתוח הללו רצו את כל הסולם, החל מהגדרת רצפות של מהירות שעון, לאלץ את מהירויות השעון להגדרות המקסימליות שלהן, ועד ליצירת מיוחדות גבוהות יותר. מצבי הספק ומהירויות שעון מיוחדות שהיו זמינות רק בעת מידוד, כאשר מאמצים אלו הביאו לרוב לעלייה של כמה אחוזים בלבד ב אמת מידה.

היה זעם משמעותי כאשר זה התגלה, שכן ניסיונות אלה של רמאות בנצ'מרק עמדו בניגוד לעצם המדדים עצמם. רוב המדדים אינם שם כדי לומר לך את הביצועים המקסימליים התיאורטיים של טלפון בתנאי מעבדה שאינם ניתן לשחזור בשימוש יומיומי, אבל הם שם כדי לתת לך נקודת התייחסות להשוואות בעולם האמיתי בין טלפונים. אחרי קצת התבוננות פומבית (וכמה שיחות פרטיות) מפרסומים טכנולוגיים, ממנהיגי התעשייה והחברה לציבור הרחב, רוב היצרנים קיבלו את המסר שרמאות בנצ'מרק פשוט לא מקובלת, והפסיקו בתור א תוֹצָאָה. רוב הבודדים שלא הפסיקו בשלב זה הפסיקו זמן קצר לאחר מכן, מכיוון שבוצעו שינויים מהותיים לכמה מדדי ביצוע פועלים, בניסיון למנוע רמאות בנצ'מרק (על ידי הפחתת התועלת מ זה). אמות מידה רבות נעשו ארוכות יותר כך שההצערה התרמית ממיקסום מהירויות השעון תתברר מיד.

כאשר אנו התראיין ג'ון פול, היוצר של Geekbench, הנושא של רמאות בנצ'מרק ומה חברות כמו Primate Labs יכולות לעשות כדי למנוע את זה עלה. Primate Labs במיוחד הפכה את Geekbench 4 לא מעט ארוך יותר מ-Geekbench 3, בין השאר כדי להפחית את ההשפעות של רמאות בנצ'מרק. צמצום ההטבות על מנת להבטיח כי הפיתוח העלויות של רמאות בנצ'מרק אינן שוות את זה.

"הבעיה היא שברגע שיש לנו את זמני הריצה הגדולים האלה, אם אתה מתחיל לשחק דברים על ידי הגדלת השעון שלך מהירויות או השבתת מושלים או משהו כזה, אתה תתחיל לשים סכנה ממשית ב טלפון... אם אתה הולך לשחק את זה... לא תפיק מזה הרבה. אולי עדיין תקבל כמה אחוזים, אבל האם זה באמת שווה את זה?" - ג'ון פול

מה קרה

למרבה הצער, עלינו לדווח שחלק מיצרני ה-OEM החלו שוב לרמות, כלומר עלינו להיות על המשמר שוב. למרבה המזל, היצרנים הפכו יותר ויותר מגיבים לנושאים כאלה, ועם תשומת הלב הנכונה שנמשכת אליו, ניתן לתקן זאת במהירות. זה קצת מזעזע לראות יצרנים מיישמים רמאות בנצ'מרק לאור עד כמה גרועה הייתה תגובה הנגדית בפעם הקודמת זה נוסה (עם כמה מדדים שוללים לחלוטין מכשירי רמאות מהביצועים שלהם רשימות). עם תגובת הנגד הזה בניגוד לכמה זעירים הרווחים בביצועים מרמאות בנצ'מרק הם בדרך כלל (עם רוב מהניסיונות שהביאו לעלייה של פחות מ-5% בפעם הקודמת), קיווינו באמת שהכל יהיה מאחורי לָנוּ.

העיתוי של ניסיון זה אינו מתאים במיוחד, שכן לפני מספר חודשים רמאות בנצ'מרק השאירה את העולם של להיות אך ורק דאגה נלהבים, ונכנסה למרחב הציבורי כאשר פולקסווגן ופיאט קרייזלר נתפסו שניהם בוגדים בפליטות שלהם אמות מידה. שתי החברות הטמיעו תוכנה כדי לזהות מתי מכוניות הדיזל שלהן עוברות בדיקות פליטות, וגרמו להן לעבור למצב פליטת פליטה נמוכה שראה את צריכת הדלק שלהם ירדה, בניסיון להתחרות עם מכוניות בנזין ביעילות הדלק, תוך שמירה על מגבלות רגולטוריות של פליטות מבחנים. עד כה השערורייה הביאה לקנסות של מיליארדי מיליארדי דולרים, לעשרות מיליארדי עלויות ריקול והגשת כתבי אישום -- בוודאי לא מסוג הפיצויים יצרני OEM יראו אי פעם לנפח את ציוני המדד שלהם, שהם אך ורק להשוואת משתמשים ואינם משמשים למדידת רגולציה כלשהי דרישות.

בזמן חוקרים כיצד קוואלקום משיגה מהירויות פתיחה מהירות יותר של אפליקציות ב-Qualcomm Snapdragon 821 החדש דאז, שמנו לב למשהו מוזר במכשיר OnePlus 3T שלא יכולנו להתרבות על Xiaomi Mi Note 2 או ה גוגל פיקסל XL, בין שאר מכשירי Snapdragon 821. העורך הראשי שלנו, מריו סראפירו, השתמש בקוואלקום טרפן וב-Snapdragon Performance Visualizer כדי לעקוב אחר האופן שבו קוואלקום "משפרת" את המעבד מהירות שעון בעת פתיחת אפליקציות, ושם לב שאפליקציות מסוימות ב-OnePlus 3T לא ירדו חזרה למהירויות הסרק הרגילות שלהן לאחר פְּתִיחָה. ככלל אצבע, אנו נמנעים מבדיקת אמות מידה עם כלי ניטור ביצועים פתוחים במידת האפשר, עקב עלות הביצועים הנוספת שהם מביאים (במיוחד במכשירים שאינם Snapdragon שבהם אין כלי שולחן עבודה רשמיים), אולם באירוע זה הם עזרו לנו להבחין בהתנהגות מוזרה שכנראה היינו מפספסים אחרת.

כאשר נכנסים לאפליקציות מידוד מסוימות, הליבות של ה-OnePlus 3T יישארו מעל 0.98 גיגה-הרץ לליבות הקטנות ו-1.29 גיגה-הרץ לליבות הגדולות, גם כאשר עומס המעבד ירד ל-0%. זה די מוזר, מכיוון שבדרך כלל שתי קבוצות הליבות יורדות ל-0.31 GHz ב-OnePlus 3T כאשר אין עומס. כשראינו את זה לראשונה חששנו שקנה המידה של המעבד של OnePlus פשוט מוגדר בצורה קצת מוזרה, אולם לאחר בדיקות נוספות הגענו למסקנה ש-OnePlus חייב להיות ממוקד ספציפי יישומים. ההשערה שלנו הייתה ש-OnePlus מתמקדת במדדים האלה לפי השם, ונכנסה למצב קנה מידה חלופי של מעבד כדי להעלות את ציוני המדדים שלהם. אחד החששות העיקריים שלנו היה ש-OnePlus עשוי להגדיר מגבלות תרמיות רופפות יותר במצב זה כדי למנוע את הבעיות שהיו להם עם ה-OnePlus אחד, OnePlus X ו-OnePlus 2, שבהם הטלפונים טיפלו בצורה גרועה בליבות הנוספות שנכנסו לאינטרנט עבור החלק מרובת הליבות של Geekbench, ו מצטמצם מדי פעם באופן משמעותי כתוצאה מכך (עד לנקודה שבה ה-OnePlus X השיג לפעמים ציון נמוך יותר בחלק מרובת הליבות מאשר בסינגל סעיף הליבה). אתה יכול למצוא מצערת כבדה אצלנו סקירת OnePlus 2, שם מצאנו שהמכשיר יכול להשיל עד 50% מהציון הרב ליבות Geekbench 3 שלו. מאוחר יותר, כשהתחלנו להשוות מצערת ותרמיות בין מכשירים, ה OnePlus 2 הפך להיות דוגמה לספר לימוד ממה יצרני OEM צריכים להימנע.

פנינו לצוות בשעה Primate Labs (היוצרים של Geekbench), שהיו מרכזיים בחשיפת הגל הראשון של רמאות בנצ'מרק, ושותפו איתם לבדיקות נוספות. הבאנו OnePlus 3T למשרד של Primate Labs בטורונטו לניתוח ראשוני. הבדיקה הראשונית כללה dump ROM שמצאה שה-OnePlus 3T חיפש ישירות לא מעט אפליקציות בשם. במיוחד, ה-OnePlus 3T חיפש את Geekbench, AnTuTu, Androbench, Quadrant, Vellamo ו- GFXBench. מכיוון שבשלב זה היו לנו הוכחות ברורות למדי לכך ש-OnePlus עוסקת ברמאות בנצ'מרק, Primate Labs בנתה "פוט מיני גולף של בוב" גרסה של Geekbench 4 עבורנו. הודות ל שינויים מהותיים בין Geekbench 3 ו-4, ה "מיני גולף" היה צורך לבנות מחדש את הגרסה מהיסוד במיוחד עבור בדיקה זו. גרסה זו של Geekbench 4 נועדה להימנע מכל זיהוי בנצ'מרק, על מנת לאפשר ל-Geekbench לפעול כרגיל יישום בטלפונים בוגדים (מעבר לשינוי שם החבילה שמטעה את רוב ניסיונות ההשוואה רַמָאוּת).

דוגמה מפתיעה

מיד עם פתיחת האפליקציה, ההבדל היה ברור. ה-OnePlus 3T עמד במצב סרק במהירות של 0.31 גיגה-הרץ, כפי שהוא עושה ברוב האפליקציות, ולא במהירות של 1.29 גיגה-הרץ לליבות הגדולות ו-0.98 גיגה-הרץ לליבות הקטנות, כפי שהוא עושה באפליקציית Geekbench הרגילה. OnePlus הפכה אותו למושל ה-CPU לאגרסיבי יותר, מה שהביא לרצפת מהירות שעון מלאכותית מעשית ב-Geekbench שלא הייתה שם במבנה ה-Geekbench הנסתר. זה לא התבסס על עומס העבודה של המעבד, אלא על שם החבילה של האפליקציה, שהמבנה החבוי יכול היה להטעות. בעוד שההבדל בריצות בודדות היה מינימלי, הרפיות המצערת התרמית זוהרות במבחן הביצועים המתמשך שלנו, המוצג להלן.

מהבדיקות שלנו, נראה שזו הייתה "תכונה" של מערכת ההפעלה Hydrogen כבר די הרבה זמן, ולא נוספה למערכת ההפעלה Oxygen עד שהקהילה נבנתה לקראת מהדורת נוגט (לאחר שני ROMs אוחדו). קצת מאכזב לראות, במיוחד לאור בעיות התוכנה שהיו ל-OnePlus החודש בעקבות מיזוג ה-ROMs, מ פגיעויות של טוען האתחול ל בעיות תאימות של GPL. אנו מקווים שככל שהאבק ישקע בעקבות המיזוג של שתי הקבוצות, OnePlus יחזור לצורה, וימשיך למצב את עצמם כאופציה ידידותית למפתחים.

עם ה "מיני גולף" גרסה של Geekbench ביד, יצאנו והתחלנו לבדוק גם טלפונים אחרים עבור רמאות בנצ'מרק. למרבה המזל, הבדיקה שלנו לא מראה שום רמאות מצד החברות שהיו מעורבות בשערורייה לפני חצי עשור. נראה כי HTC, Xiaomi, Huawei, Honor, Google, Sony ואחרים בעלי ציונים עקביים בין המבנה הרגיל של Geekbench לבין "מיני גולף" לבנות על מכשירי הבדיקה שלנו.

למרבה הצער, מצאנו ראיות אפשריות לרמאות בנצ'מרק שעדיין לא הצלחנו לאשר מכמה חברות אחרות, אותן נחקור עוד. הדוגמה הגרועה ביותר לכך הייתה ב-Meizu Pro 6 Plus המופעל על ידי Exynos 8890, שלקח את רמאות המבחן לקיצוניות אחרת.

דוגמה נוראית

Meizu קבעה באופן היסטורי את קנה המידה של המעבד שלהם באופן שמרני ביותר. יש לציין, לעתים קרובות הם מגדירים את הטלפונים שלהם כך שהליבות הגדולות כמעט ואינן מגיעות לאינטרנט, אפילו כשהן ב"מצב הביצועים" שלהן, מה שהופך את מעבדי הדגל (כמו המצוינים Exynos 8890) שהם מכניסים למכשירי הדגל שלהם פועלים כמו מעבדי טווח בינוני. זה הגיע לראש בשנה שעברה כאשר אננדטק קראו ל-Meizu בגלל הביצועים הגרועים שלהם על מדדי ה-JavaScript של Anandtech ב-Meizu Pro 6 מבוסס Mediatek Helio X25, ו ציין כי הליבות הגדולות נשארו במצב לא מקוון במשך רוב הבדיקה (כאשר הבדיקה הייתה אמורה לפעול כמעט אך ורק בגדול ליבות). Anandtech הבחינה בשבוע שעבר שעדכון תוכנה נדחף ל-Meizu Pro 6 שסוף סוף אפשר ל-Meizu להשתמש בליבות הללו במלואן. עורך הסמארטפונים הבכיר של אננדטק, מאט הומריק, העיר זֶה "לאחר עדכון ל-Flyme OS 5.2.5.0G, ה-PRO 6 מתפקד טוב יותר באופן משמעותי. ציוני Kraken, WebXPRT 2015 ו-JetStream משתפרים בכ-2x-2.5x. Meizu כנראה התאימה את ערך סף העומס, ואיפשרה לשרשורים לעבור לליבות A72 בתדירות גבוהה יותר לביצועים טובים יותר."

למרבה הצער, נראה שבמקום לשפר את קנה המידה של המעבד עבור המכשירים החדשים שלהם כדי להשיג טוב יותר ציוני ההשוואה, נראה שהם קבעו את הטלפון לעבור לשימוש בליבות הגדולות כאשר אפליקציות מסוימות כן רץ.

עם פתיחת אפליקציית השוואת ביצועים, ה-Meizu Pro 6 Plus שלנו ממליץ לך לעבור ל"מצב ביצועים" (שרק זה מספיק כדי לאשר שהם מחפשים שמות חבילות ספציפיות), ונראה שזה עושה הבדל מהותי. כאשר הוא נמצא במצב "איזון" הסטנדרטי, הטלפון מקבל ציונים עקביים בסביבות 604 ו-2220 במקטעי ליבה אחת ומרובת ליבות של Geekbench, אבל ב "מצב ביצועים" הוא מקבל ציונים של 1473 ו-3906, בעיקר הודות לליבות הגדולות שנשארו כבויות במשך רוב המבחן ב"מצב איזון", ונדלקו ב "מצב הופעה". נראה כי Meizu נועל את הליבות הקטנות למהירות המרבית שלהן של 1.48 גיגה-הרץ, ומגדיר רצפה קשה עבור שתיים מהליבות הגדולות שלהן של 1.46 גיגה-הרץ בעת ריצה Geekbench בזמן "מצב ביצועים" (כאשר לשתי הליבות הגדולות האחרות מותר לשנות קנה מידה חופשי, ודי אגרסיבי), דבר שאיננו רואים כאשר מפעיל את "מיני גולף" לִבנוֹת.

למרות שהיכולת לבחור בין מצב צריכת חשמל גבוהה למצב צריכת חשמל נמוכה יכולה להיות תכונה נחמדה, במקרה זה נראה שזה לא יותר מאשר טריק בסלון. ה-Meizu Pro 6 Plus רואה ציונים הגונים ב"מצב ביצועים" עבור אפליקציית Geekbench הרגילה, אך בעת שימוש ב- "מיני גולף" המבנה של Geekbench, הוא יורד מיד בחזרה באותה רמת ביצועים כמו שיש לו כאשר הוא מוגדר ל-"Balance Mode". מצב הביצועים הגבוהים יותר ב-Meizu Pro 6 Plus מיועד רק למבחן, לא לשימוש יומיומי בפועל.

דבר אחד ראוי לציין הוא שכאשר בדקנו את ה-Meizu Pro 6 Plus ב"מצב ביצועים" עם הסוד מבנה של Geekbench, הליבות הגדולות נכנסו לאינטרנט אם היינו מתעדים את מהירויות השעון עם קוואלקום טרפן. עדיין לא קבענו אם המייזו מזהה שטרפן פועל ומפעיל את הליבות הגדולות ב חלק בגלל זה, או אם זה פשוט מפעיל את הליבות הגדולות בגלל עומס המעבד הנוסף שהוא יוצר. אמנם זה אולי נשמע מנוגד לאינטואיציה שעומס נוסף ברקע (כגון כאשר שמרנו על גרפי ביצועים במהלך הבדיקה) להגביר התוצאות של אמת מידה, קנה המידה השמרני של Meizu יכול לומר שהיתורה הנוספת הייתה מספיק כדי לדחוף אותו מעבר לקצה, ולהפעיל את הליבות הגדולות, ובכך לשפר את הביצועים לכולם משימות.

כאשר יצרני OEM קליטים פונים למשוב...

בעקבות הבדיקות שלנו, פנינו ל-OnePlus לגבי הבעיות שמצאנו. בתגובה, OnePlus הבטיחה במהירות להפסיק למקד לאפליקציות השוואת ביצועים עם רמאות המדדים שלה, אך עדיין מתכוונת לשמור את זה למשחקים (שגם זוכים להשוואה). בבנייה עתידית של OxygenOS, מנגנון זה לא יופעל על ידי מדדים. OnePlus קיבל את ההצעה שלנו להוסיף גם מתג, כדי שמשתמשים ידעו מה קורה מתחת למכסה המנוע, ולפחות היתרון הבלתי הוגן והמטעה במדדים צריך להיות מְתוּקָן. עם זאת, בשל חג ראש השנה הסיני וצבר התכונות שלהם, ייתכן שיחלוף זמן מה עד שנראה אפשרויות התאמה אישית של תכונת ביצועים זו מול המשתמש. למרות שתיקון ההתנהגות לבדו הוא שיפור, זה עדיין קצת מאכזב לראות ברגיל יישומים (כמו משחקים), מכיוון שזהו קב למקד אפליקציות ספציפיות, במקום לשפר את הביצועים בפועל דֵרוּג. על ידי חיזוק מלאכותי של האגרסיביות של המעבד, ובכך את מהירויות השעון עבור אפליקציות ספציפיות במקום לשפר את יכולת הטלפונים שלהם לזהות מתי הוא באמת צריך גבוה יותר במהירויות שעון, OnePlus יוצר ביצועים לא עקביים עבור הטלפונים שלהם, שרק יתבררו יותר ככל שהטלפון יתבגר ויותר משחקים ש-OnePlus לא כיוון אליהם מְשׁוּחרָר. עם זאת, היישום מאפשר כרגע למשחקים לבצע ביצועים טובים יותר. OnePlus גם סיפקה הצהרה למאמר זה, שתוכל לקרוא להלן:

"על מנת להעניק למשתמשים חווית משתמש טובה יותר באפליקציות ומשחקים עתירי משאבים, במיוחד אינטנסיביים מבחינה גרפית אלה, הטמענו מנגנונים מסוימים בקהילה ובונה נוגט כדי להפעיל את המעבד לפעול יותר באגרסיביות. תהליך ההפעלה של אפליקציות השוואת ביצועים לא יהיה קיים במערכות ה-OxygenOS הקרובות על ה-OnePlus 3 ו-OnePlus 3T.'

אנו שמחים לשמוע ש-OnePlus תסיר את רמאות המבחן מהטלפונים שלה. בהמשך, נמשיך לנסות ללחוץ על יצרני OEM להיות ידידותיים יותר לצרכן במידת האפשר, ונפקח עין על רמאות עתידית.

למרבה הצער, התשובה האמיתית היחידה לסוג זה של הונאה היא ערנות מתמדת. כקהילת חובבי הסמארטפונים, עלינו לפקוח עיניים על ניסיונות להונות משתמשים כמו זה. לא את ציוני המדדים עצמם אנו מתעניינים בהם, אלא מה המדדים אומרים על ביצועי הטלפון. בעוד רמאות המבחן עדיין לא הייתה פעילה ב- OnePlus 3 כשסקרנו אותו, עדכון תוכנה פשוט היה מספיק כדי להוסיף את ה"תכונה" המטעה הזו ממחיש בבירור שבדיקת המכשירים לאיתור רמאות בנצ'מרק כשהם מושקים לראשונה, לא מספיק. ניתן להוסיף בעיות כמו זו ימים, שבועות, חודשים או אפילו שנים לאחר השקת המכשיר, באופן מלאכותי ניפוח הממוצעים הגלובליים שנאספו לפי מדדים חודשים בהמשך הקו, והשפיע על מסד הנתונים הסופי תוֹצָאָה. יש לציין שגם עם השינויים האלה שהיצרנים היו צריכים להשקיע זמן וכסף כדי לפתח, בדרך כלל אנו רואים עלייה של כמה נקודות אחוז בלבד בציוני ההשוואה (לא כולל מקרים שוליים זוגיים כמו Meizu, שבהם הבגידה מחפה על בעיות הרבה יותר גדולות). כמה נקודות אחוז, שזה הרבה יותר קטן מהפער בין המכשירים בעלי הביצועים הטובים ביותר לביצועים הגרועים ביותר. עם זאת, היינו טוענים שעם התקנים שמריצים חומרה יותר ויותר דומות, נקודות האחוז הנוספות הללו עשויות להיות הגורם המכריע בטבלאות הדירוג שבסופו של דבר משתמשים מחפשים. אופטימיזציה טובה יותר של מנהלי התקנים וקנה מידה חכם יותר של המעבד יכולים להשפיע באופן מסיבי על ביצועי המכשיר, עם ההבדל בין הניקוד של המכשיר מבוסס Qualcomm Snapdragon 820 בעל הביצועים הטובים ביותר והמכשיר בעל הביצועים הגרועים ביותר (ממקור OEM גדול) העולה על 20% Geekbench. עשרים אחוז מאופטימיזציה של נהגים, במקום כמה נקודות אחוז מהוצאות זמן וכסף כדי להונות את המשתמשים שלך. וזה רק מדבר על מאמצי הפיתוח שיכולים להשפיע על ציוני הבנצ'מרק. רבים מהיתרונות הגדולים ביותר של השקעה בשיפור תוכנת המכשיר לא תמיד מופיעים במדדים, כאשר OnePlus מציע ביצועים מצוינים בעולם האמיתי במכשירים שלהם. באמת צריך להיות ברור היכן צריך למקד את מאמצי הפיתוח של החברה במקרה זה. אנו פונים לחברות נוספות שבוגדות במדדים כפי שאנו מוצאים אותם, ואנו מקווים שהן פתוחות באותה מידה כמו OnePlus.

ברצוננו להודות שוב לצוות של Primate Labs על שעבד איתנו כדי לחשוף את הנושא הזה. זה היה הרבה יותר קשה לבחון כראוי רמות בנצ'מרק ללא מהדורת "מיני גולף" של Geekbench.