A benchmark csalás visszavág: Hogyan kapták el a OnePlus-t és másokat, és mit tettek ellene

A OnePlus és a Meizu csaláson kapták a benchmarkokat. Az XDA megvizsgálja, hogyan történt ez, és mit lehet tenni annak érdekében, hogy ne ismétlődhessen meg.

Néhány évvel ezelőtt nagy felzúdulás volt, amikor számos nagy gyártót kaptak a benchmarkok csalásán. Minden méretű OEM (beleértve Samsung, HTC, Sony, és LG) részt vettek ebben a fegyverkezési versenyben, amelynek során megpróbálták becsapni a felhasználókat anélkül, hogy elkapták volna őket, de szerencsére végül felhagytak a benchmark csalással, miután néhány őszinte megbeszélést folytattak iparági szakértők és újságírók.

2013-ban még az volt felfedezték hogy a Samsung bizonyos alkalmazásokban mesterségesen megnövelte a GPU órajelét, ami egy sor olyan vizsgálatok a benchmark csalásba a gyártók teljes körében. Akkoriban a vizsgálat megállapította, hogy a Google/Motorola kivételével szinte minden gyártó részt vett a benchmark csalásban. Mindannyian időt és pénzt fektettek abba, hogy megpróbáljanak egy kis extra teljesítményt kihozni telefonjaikból a benchmarkokban, oly módon, hogy nem gyakorolna pozitív hatást a mindennapi használatra, ezzel megpróbálva becsapni a felhasználókat, és azt hitetni, hogy telefonjaik gyorsabbak, mint valójában voltak. Ezek a fejlesztési erőfeszítések a teljes skálát lefedték, az alsó órajel beállításától az órajelek maximálisra kényszerítéséig, egészen a speciális magasabb beállításig. teljesítményállapotok és speciális órajelek, amelyek csak a benchmarking során voltak elérhetők, és ezek az erőfeszítések gyakran csak néhány százalékpontos növekedést eredményeztek viszonyítási alap.

Amikor felfedezték, jelentős felháborodást keltett, mivel ezek a benchmark-csalási kísérletek maguknak a referenciaértékeknek a lényegével ellentétesek voltak. A legtöbb referenciaérték nem arra szolgál, hogy megmondja a telefon elméleti maximális teljesítményét olyan laboratóriumi körülmények között, amelyek nem reprodukálhatók a napi használat során, de inkább arra szolgálnak, hogy referenciapontot adjanak a valós összehasonlításhoz telefonok. A technológiai publikációktól, az iparág vezetőitől és az iparági vezetőktől származó nyilvános berzenkedés (és néhány privát beszélgetés) után A nagyközönség számára a legtöbb gyártó azt az üzenetet kapta, hogy a benchmark csalás egyszerűen elfogadhatatlan, és abbahagyták a eredmény. Azon kevesek többsége, amelyek ekkor nem álltak meg, hamarosan leálltak, mivel jelentős változások történtek hány benchmark fut, hogy megkísérelje elriasztani a benchmark csalást (azáltal, hogy csökkenti a azt). Sok benchmarkot meghosszabbítottak, hogy az órajelek maximalizálásából eredő hőszabályozás azonnal nyilvánvalóvá váljon.

Amikor interjút készített John Poole, a Geekbench megalkotója felvetődött a benchmark csalás témája és az, hogy mit tehetnek a Primate Labshoz hasonló cégek ennek megakadályozására. Különösen a Primate Labs készítette a Geekbench 4-et valamivel hosszabbra, mint a Geekbench 3-at, részben azért, hogy csökkentsék a benchmark csalás hatásait. Az előnyök csökkentése annak érdekében, hogy a fejlesztés a benchmark csalás költségei nem érik meg.

"A probléma az, hogy ha egyszer meglesz ez a nagy futásidő, ha úgy kezdesz játszani, hogy felpörgeted az órát sebességgel, vagy a kormányzók letiltásával, vagy valami hasonlóval, akkor tényleges veszélyt fog jelenteni a telefon... Ha játszani akarsz... nem fogsz annyit kihozni belőle. Lehet, hogy még kap egy pár százalékot, de tényleg megéri?" - John Poole

Mi történt

Sajnos be kell jelentenünk, hogy egyes OEM-ek ismét csalni kezdtek, vagyis ismét résen kell lennünk. Szerencsére a gyártók egyre jobban reagálnak az ehhez hasonló problémákra, és megfelelő figyelem felhívásával ez gyorsan orvosolható. Kicsit megdöbbentő látni, hogy a gyártók benchmark csalást alkalmaznak annak fényében, hogy milyen rossz volt a visszahatás utoljára megkísérelték (egyes benchmarkokkal teljesen kizárva a csaló eszközöket a teljesítményükből listák). Ezzel a visszavágással ellentétben, hogy milyen csekély a teljesítménynövekedés a benchmark csalásból (a legtöbbnél a legutóbbi kísérletek közül, amelyek kevesebb mint 5%-os pontszámemelkedést eredményeztek), nagyon reméltük, hogy mindez elmarad. minket.

Ennek a kísérletnek az időzítése különösen alkalmatlan, mivel néhány hónappal ezelőtt a benchmark csalás pusztán egy lelkes aggodalomra ad okot, és bekerült a nyilvánosság elé, amikor a Volkswagent és a Fiat Chryslert is rajtakapták, amikor csaltak a károsanyag-kibocsátásaival kapcsolatban. benchmarkok. Mindkét vállalat szoftvert vezetett be annak észlelésére, amikor dízelautójukat emissziós tesztnek vetik alá, és alacsony károsanyag-kibocsátású üzemmódba kapcsolta őket. amelyeknél csökkent az üzemanyag-fogyasztásuk, hogy megkíséreljék felvenni a versenyt a benzines autókkal az üzemanyag-hatékonyságban, miközben továbbra is a szabályozási határértékeken belül maradtak a károsanyag-kibocsátásra vonatkozóan. tesztek. A botrány eddig milliárdos pénzbírságot, több tízmilliárdos visszahívási költséget és vádemelést eredményezett – természetesen nem az a fajta megtorlás. Az OEM-ek valaha is fel kellene emelniük referenciapontjaikat, amelyek pusztán felhasználói összehasonlításra szolgálnak, és nem használják semmilyen szabályozási mérésre. követelményeknek.

Míg annak vizsgálata, hogy a Qualcomm hogyan ér el gyorsabb alkalmazásmegnyitási sebességet az akkor még új Qualcomm Snapdragon 821-en valami furcsa dolgot vettünk észre a OnePlus 3T hogy nem tudtuk reprodukálni a Xiaomi Mi Note 2 vagy a Google Pixel XL, többek között a Snapdragon 821 eszközökön. Főszerkesztőnk, Mario Serrafero a Qualcomm Trepn és a Snapdragon Performance Visualizer segítségével figyelte, hogyan „növeli” a Qualcomm a CPU-t. órajel az alkalmazások megnyitásakor, és észrevette, hogy a OnePlus 3T egyes alkalmazásai nem esnek vissza normál alapjárati sebességükre. Nyítás. Általános ökölszabály, hogy lehetőség szerint kerüljük a teljesítménymérési eszközök nyitott teljesítményű tesztelését az általuk jelentett többletteljesítmény miatt. (különösen a nem Snapdragon eszközökön, ahol ezek nem hivatalos asztali eszközök), de ebben az incidensben segítettek észrevenni néhány furcsa viselkedést, amelyet valószínűleg kihagytunk volna másképp.

Bizonyos benchmarking alkalmazásokba való belépéskor a OnePlus 3T magjai 0,98 GHz felett maradnak a kis magok és 1,29 GHz felett a nagy magok esetében, még akkor is, ha a CPU terhelése 0%-ra csökken. Ez meglehetősen furcsa, mivel általában mindkét magkészlet 0,31 GHz-re esik le a OnePlus 3T-n, ha nincs terhelés. Amikor ezt először láttuk, aggódtunk, hogy a OnePlus CPU-skálázása egyszerűen kissé furcsán van beállítva, A további tesztelés során azonban arra a következtetésre jutottunk, hogy a OnePlusnak célzottnak kell lennie alkalmazások. Hipotézisünk az volt, hogy a OnePlus név szerint célozta meg ezeket a benchmarkokat, és egy alternatív CPU-skálázási módba lépett, hogy növelje a benchmark pontszámait. Az egyik fő aggodalmunk az volt, hogy a OnePlus esetleg lazább hőkorlátozást állított be ebben az üzemmódban, hogy elkerülje a OnePlusszal kapcsolatos problémákat. One, OnePlus X és OnePlus 2, ahol a telefonok rosszul kezelték a Geekbench többmagos részéhez online érkező további magokat, és ennek eredményeként időnként jelentősen lelassul (odáig, hogy a OnePlus X néha alacsonyabb pontszámot ért el a többmagos szekcióban, mint az egymagos szekcióban magszakasz). Erős fojtást találhat nálunk OnePlus 2 értékelés, ahol azt találtuk, hogy az eszköz a Geekbench 3 többmagos pontszámának akár 50%-át is leadhatja. Később, amikor elkezdtük összehasonlítani a fojtást és a hőt az eszközök között, a OnePlus 2 tankönyvpéldája lett annak, amit az OEM-eknek kerülniük kell.

Megkerestük a csapatot a Primate Labs (a Geekbench alkotói), akik nagy szerepet játszottak a benchmark csalás első hullámának leleplezésében, és együttműködtek velük a további tesztelés során. Egy OnePlus 3T-t vittünk a Primate Labs torontói irodájába kezdeti elemzés céljából. A kezdeti tesztelés egy ROM-kiíratást is tartalmazott, amely megállapította, hogy a OnePlus 3T közvetlenül keresett jó néhány alkalmazást név szerint. A OnePlus 3T leginkább a Geekbench-et, az AnTuTu-t, az Androbench-et, a Quadrant-ot, a Vellamo-t és a GFXBench-et kereste. Mivel ekkorra már elég egyértelmű bizonyítékunk volt arra, hogy a OnePlus benchmark csalásban vesz részt, a Primate Labs kiépített egy “Bob’s Mini Golf Putt” nekünk a Geekbench 4 verziója. Köszönhetően a lényeges változások a Geekbench 3 és 4 között, a “Mini Golf” verziót az alapoktól kezdve újjá kellett építeni kifejezetten erre a tesztelésre. A Geekbench 4 ezen verzióját úgy tervezték, hogy elkerülje a benchmark észlelését, hogy lehetővé tegye a Geekbench normál működését. alkalmazás azokon a telefonokon, amelyek csaló csalás).

Meglepő példa

Azonnal az alkalmazás megnyitásakor egyértelmű volt a különbség. A OnePlus 3T 0,31 GHz-en járt alapjáraton, ahogy a legtöbb alkalmazásban, nem pedig 1,29 GHz-en a nagy magok és 0,98 GHz-en a kis magok esetében, mint a hagyományos Geekbench alkalmazásban. A OnePlus agresszívebbé tette a CPU-szabályzót, ami praktikus mesterséges órajel-szintet eredményezett a Geekbenchben, amely nem volt ott a rejtett Geekbench összeállításban. Ez nem a CPU terhelésén alapult, hanem az alkalmazás csomagnevén, amelyet a rejtett build megtéveszthet. Míg az egyes futások között minimális volt a különbség, a hőfojtó relaxációk ragyognak a tartós teljesítménytesztünkben, amelyet alább mutatunk be.

Tesztelésünkből úgy tűnik, hogy ez a Hydrogen OS „funkciója” már jó ideje, és nem adták hozzá az Oxygen OS-hez, amíg a közösség fel nem épült a Nougat kiadásáig (a két ROM-ot egyesítettek). Kissé kiábrándító látni, különösen a szoftverproblémák fényében, amelyek a OnePlus-t ebben a hónapban a ROM-ok egyesítését követően tapasztalták. bootloader sebezhetőségei nak nek GPL megfelelőségi problémák. Bízunk benne, hogy ahogy a két csapat egyesülését követően elül a por, a OnePlus visszatér a formába, és továbbra is fejlesztőbarát lehetőségként pozicionálja magát.

A... val “Mini Golf” A Geekbench verzióját a kezünkben kimentünk, és elkezdtünk tesztelni más telefonokat is a benchmark csalás szempontjából. Szerencsére tesztünk nem mutatott csalást a fél évtizeddel ezelőtti botrányban érintett cégek részéről. Úgy tűnik, hogy a HTC, a Xiaomi, a Huawei, a Honor, a Google, a Sony és mások konzisztens pontszámokat értek el a szokásos Geekbench build és a “Mini Golf” tesztelőeszközeinkre épít.

Sajnos találtunk olyan lehetséges bizonyítékot a benchmark csalásra, amelyet még nem tudtunk megerősíteni néhány másik cégtől, amelyeket tovább fogunk vizsgálni. A legrosszabb példa erre az Exynos 8890-es Meizu Pro 6 Plus volt, amely egy másik végletbe vitte a csalást.

Szörnyű példa

A Meizu történelmileg rendkívül konzervatívan állította be a CPU-skálázást. Nevezetesen, gyakran úgy állítják be telefonjaikat, hogy a nagy magok ritkán jönnek online, még akkor is, ha „teljesítmény üzemmódban” vannak, így a csúcsprocesszorok (például a kiváló Exynos 8890), amelyeket zászlóshajójukba helyeznek, középkategóriás processzorokként működnek. Ez tavaly derült ki, amikor Anandtech A Meizu a Mediatek Helio X25 alapú Meizu Pro 6-on mutatott gyenge teljesítménye miatt szólította fel az Anandtech JavaScript-benchmarkjait, és megjegyezte, hogy a nagy magok offline állapotban maradtak a teszt nagy részében (amikor a tesztnek szinte kizárólag a nagyban kellett volna futnia magok). Az Anandtech a múlt héten vette észre, hogy egy szoftverfrissítést tettek a Meizu Pro 6-ba, amely végre lehetővé tette, hogy a Meizu a lehető legteljesebb mértékben használja ezeket a magokat. Az Anandtech Smartphone vezető szerkesztője, Matt Humrick, jegyezte meg hogy "A Flyme OS 5.2.5.0G verzióra történő frissítés után a PRO 6 lényegesen jobban teljesít. A Kraken, a WebXPRT 2015 és a JetStream pontszámai körülbelül 2-2,5-szeresére javulnak. A Meizu láthatóan módosította a terhelési küszöbértéket, lehetővé téve, hogy a szálak gyakrabban vándoroljanak az A72 magokhoz a jobb teljesítmény érdekében."

Sajnos úgy tűnik, hogy ahelyett, hogy javítanák az új eszközök CPU-méretezését, jobbá váljanak benchmark pontszámok, úgy tűnik, hogy beállították a telefont a nagy magok használatára, amikor bizonyos alkalmazások futás.

A benchmarking alkalmazás megnyitásakor a Meizu Pro 6 Plus azt javasolja, hogy váltson „Teljesítmény módba” (ez egyedül elegendő annak megerősítésére, hogy konkrét csomagneveket keresnek), és úgy tűnik, ez lényeges különbséget jelent. Normál „Balance Mode” üzemmódban a telefon folyamatosan 604 és 2220 körüli pontszámot ér el a Geekbench egymagos és többmagos szakaszán, de A „Teljesítmény mód” 1473 és 3906 pontot ér el, főként annak köszönhetően, hogy a nagy magok a „Balance Mode” teszt nagy részében kikapcsolva maradtak, és bekapcsolva „Teljesítmény mód”. Úgy tűnik, hogy a Meizu a kis magokat a maximális 1,48 GHz-es sebességükre zárja, és kemény padlót állít be két nagy, 1,46 GHz-es magjuk számára futás közben. A Geekbench „Teljesítmény módban” (a másik két nagy mag szabadon és meglehetősen agresszíven méretezhető), amit nem látunk, amikor fut a “Mini Golf” épít.

Bár a nagy fogyasztású és az alacsony fogyasztású üzemmód közötti választás jó tulajdonság lehet, ebben az esetben ez nem más, mint egy szalontrükk. A Meizu Pro 6 Plus tisztességes pontszámokat lát „Teljesítmény módban” a szokásos Geekbench alkalmazásban, de amikor a “Mini Golf” A Geekbench építésével azonnal visszaesik arra a teljesítményszintre, mint amikor „Balance Mode”-ra van állítva. A Meizu Pro 6 Plus nagyobb teljesítményű állapota csak a teljesítményértékelésre szolgál, nem pedig a napi használathoz.

Meg kell jegyezni, hogy amikor a Meizu Pro 6 Plus-t „Teljesítmény módban” teszteltük a titokkal A Geekbench építésével a nagy magok online lettek, ha Qualcommmal rögzítettük az órajeleket Trepn. Még nem határoztuk meg, hogy a Meizu felismeri-e, hogy a Trepn fut, és bekapcsolja a nagy magokat részben miatta, vagy ha egyszerűen csak bekapcsolja a nagy magokat az extra CPU terhelés miatt létrehozza. Bár az intuitív módon ellentmondónak hangozhat, hogy egy további terhelés a háttérben (például amikor a teljesítménydiagramokat bekapcsolva tartottuk a teszt során) növekedés egy benchmark eredményei szerint a Meizu konzervatív skálázása azt jelentheti, hogy az extra rezsi elég ahhoz, hogy túllépje a szélén, és működésbe hozza a nagy magokat, így mindenki számára javítva a teljesítményt feladatokat.

Amikor a fogékony OEM-ek visszajelzést küldenek...

A tesztelést követően megkerestük a OnePlus-t a talált problémákkal kapcsolatban. Válaszul, A OnePlus gyorsan megígérte, hogy felhagy a benchmark-alkalmazások benchmark-csalásokkal való megcélzásával, de továbbra is meg kívánja tartani a játékokhoz (amelyekre szintén benchmarkot tesznek). Az OxygenOS jövőbeni buildjében ezt a mechanizmust nem fogják kiváltani a benchmarkok. A OnePlus elfogadta javaslatunkat, hogy adjunk hozzá egy kapcsolót is, hogy a felhasználók tudják, mi történik a motorháztető alatt, és legalább a méltánytalan és félrevezető előnyt a benchmarkokban javítva. A kínai újév ünnepe és a funkciók hátraléka miatt azonban eltarthat egy ideig, amíg meglátjuk a felhasználó számára elérhető testreszabási lehetőségeket ehhez a teljesítményfunkcióhoz. Noha a viselkedés korrekciója önmagában is javulás, mégis kissé csalódást okoz a rendszeres használatban alkalmazások (például játékok), mivel a tényleges teljesítmény javítása helyett bizonyos alkalmazásokat céloz meg méretezés. Mesterségesen növelve a processzor agresszivitását, és ezáltal az egyes alkalmazások órajelét, ahelyett, hogy javítanák a telefonok azon képességét, hogy felismerjék, mikor van szükség magasabbra. órajel-sebességgel, a OnePlus inkonzisztens teljesítményt hoz létre a telefonjaik számára, ami csak egyre nyilvánvalóbbá válik, ahogy a telefon öregszik, és egyre több olyan játék jelenik meg, amelyet a OnePlus nem célzott meg. kiadták. A megvalósítás azonban jelenleg lehetővé teszi a játékok jobb teljesítményét. A OnePlus nyilatkozatot is adott ehhez a cikkhez, amelyet alább olvashat:

„Annak érdekében, hogy a felhasználók jobb felhasználói élményt nyújtsanak az erőforrás-igényes alkalmazásokban és játékokban, különösen a grafikailag intenzív alkalmazásokban az egyik, bizonyos mechanizmusokat implementáltunk a közösségben és a Nougat buildeket, hogy a processzort több futásra indítsák agresszívan. Az alkalmazások benchmarkingjának aktiválási folyamata nem lesz jelen a OnePlus 3-ra és OnePlus 3T-re épülő OxygenOS-ben.

Örömmel halljuk, hogy a OnePlus eltávolítja a benchmark csalást a telefonjaikról. A jövőben továbbra is megpróbálunk nyomást gyakorolni az OEM-ekre, hogy legyenek fogyasztóbarátabbak, amikor csak lehetséges, és figyelemmel kísérjük a jövőbeni benchmark csalást.

Sajnos az egyetlen valódi válasz az ilyen típusú megtévesztésre az állandó éberség. Okostelefon-rajongó közösségként figyelnünk kell a felhasználók ilyen megtévesztésére irányuló kísérletekre. Nem maguk a benchmark pontszámok érdekelnek minket, hanem az, amit a benchmarkok mondanak a telefon teljesítményéről. Míg a benchmark csalás még nem volt aktív a OnePlus 3 Amikor átnéztük, egy egyszerű szoftverfrissítés elég volt ahhoz, hogy hozzáadjuk ezt a félrevezető „funkciót”, és világosan szemlélteti, hogy az eszközök első indításkor történő ellenőrzése a benchmark csalás szempontjából nem az elég. Az ehhez hasonló problémák napokkal, hetekkel, hónapokkal vagy akár évekkel az eszköz elindítása után mesterségesen hozzáadhatók a benchmarkok által gyűjtött globális átlagok felfújása hónapokon keresztül, befolyásolva a végső adatbázist eredmény. Meg kell jegyezni, hogy még ezekkel a változtatásokkal is, amelyeket a gyártóknak időt és pénzt kellett fektetni a fejlesztésbe, jellemzően csak néhány százalékpontos növekedést tapasztalunk a benchmark pontszámokban (kivéve néhány olyan esetet, mint a Meizu, ahol a csalás sokkal nagyobb problémákat takar). Néhány százalékponttal, ami sokkal kisebb, mint a legjobban teljesítő és a legrosszabbul teljesítő eszközök közötti különbség. Mindazonáltal azzal érvelnénk, hogy az egyre inkább hasonló hardvert futtató eszközökkel ezek az extra százalékpontok döntőek lehetnek a ranglistán, amelyet a felhasználók végül felkeresnek. A jobb illesztőprogram-optimalizálás és az intelligensebb CPU-méretezés rendkívül nagy hatással lehet az eszköz teljesítményére, a a legjobban teljesítő Qualcomm Snapdragon 820 alapú eszköz és a legrosszabbul teljesítő (egy nagy OEM-től származó) pontszáma meghaladja a 20%-ot Geekbench. Húsz százalék az illesztőprogram-optimalizálásból, nem pedig néhány százalékpont a felhasználók megtévesztésére fordított idő és pénz. És ez csak azokról a fejlesztési erőfeszítésekről beszél, amelyek befolyásolhatják a benchmark pontszámokat. Az eszköz szoftverének fejlesztésébe való befektetés számos legnagyobb előnye ne mindig jelenjenek meg a benchmarkokon, a OnePlus pedig kiváló valós teljesítményt kínál eszközeikben. Valójában egyértelműnek kell lennie, hogy ebben az esetben hova kell összpontosítania a vállalat fejlesztési erőfeszítéseit. Több olyan vállalathoz fordulunk, akik csalnak a benchmarkokkal, ahogy megtaláljuk őket, és reméljük, hogy ők is olyan fogékonyak, mint a OnePlus.

Szeretnénk még egyszer köszönetet mondani a Primate Labs csapatának, hogy együttműködtek velünk a probléma feltárásában. Lényegesen nehezebb lett volna megfelelően tesztelni a Benchmark Cheating-et a Geekbench „Mini Golf” kiadása nélkül.