Primerjalno goljufanje vrača udarec: kako so OnePlus in druge ujeli pri delu in kaj so glede tega storili

OnePlus in Meizu so ujeli pri goljufanju pri merilih uspešnosti. XDA raziskuje, kako se je to zgodilo in kaj je mogoče storiti, da preprečimo, da bi se to ponovilo.

Pred nekaj leti je prišlo do precejšnjega razburjenja, ko so bili številni veliki proizvajalci ujeti pri goljufanju pri merilih uspešnosti. OEM vseh velikosti (vključno z Samsung, HTC, Sony, in LG) so sodelovali v tej oboroževalni tekmi, ko so poskušali preslepiti uporabnike, ne da bi jih ujeli, a na srečo so po nekaj odkritih pogovorih z strokovnjaki iz industrije in novinarji.

Davnega leta 2013 je bilo odkriti da je Samsung v določenih aplikacijah umetno zvišal takt GPE-ja, kar je sprožilo vrsto preiskave v goljufanje meril uspešnosti v celotnem nizu proizvajalcev. Takrat je preiskava pokazala, da so skoraj vsi proizvajalci, razen Googla/Motorole, goljufali z merili uspešnosti. Vsi so vlagali čas in denar v poskuse, da bi iz svojih telefonov pridobili nekoliko večjo zmogljivost pri merilih uspešnosti, na načine, ne bi imelo nobenega pozitivnega učinka na vsakodnevno uporabo, da bi uporabnike zavedli, da so njihovi telefoni hitrejši, kot so v resnici bili. Ta razvojna prizadevanja so zajemala celoten razpon, od nastavljanja najnižjih hitrosti ure do prisile hitrosti ure na najvišje nastavitve, do celo ustvarjanja posebnih višjih stanja moči in posebne hitrosti ure, ki so bili na voljo le pri primerjalnem testiranju, pri čemer so ta prizadevanja pogosto povzročila le nekaj odstotnih točk povečanja merilo uspešnosti.

Ko je bilo odkrito, je prišlo do velikega ogorčenja, saj so ti poskusi goljufanja meril uspešnosti bili v nasprotju s samimi merili uspešnosti. Večina meril uspešnosti ni tam, da bi vam povedala teoretično največjo zmogljivost telefona v laboratorijskih pogojih, ki niso ponovljivi v vsakodnevni uporabi, temveč so tam, da vam dajo referenčno točko za primerjave v resničnem svetu med telefoni. Po nekaj javnega grajanja (in nekaj zasebnih pogovorov) tehnoloških publikacij, vodilnih v industriji in širši javnosti je večina proizvajalcev dobila sporočilo, da goljufanje pri merilih uspešnosti preprosto ni sprejemljivo, in se je ustavilo kot a rezultat. Večina redkih, ki se na tej točki niso ustavila, se je ustavila kmalu zatem, saj je prišlo do bistvenih sprememb koliko primerjalnih vrednosti se izvaja, da bi preprečili goljufanje (z zmanjšanjem koristi od to). Številna merila uspešnosti so bila podaljšana, tako da je toplotno dušenje zaradi maksimiranja takta postalo takoj očitno.

Ko smo intervjuvan John Poole, ustvarjalec Geekbench, se je pojavila tema goljufanja pri merilih uspešnosti in kaj lahko podjetja, kot je Primate Labs, storijo, da to preprečijo. Zlasti Primate Labs je naredil Geekbench 4 precej daljši od Geekbench 3, delno za zmanjšanje učinkov goljufanja pri merilih uspešnosti. Zmanjšanje ugodnosti, da se zagotovi razvoj stroški goljufanja meril uspešnosti niso vredni tega.

"Težava je v tem, da ko imamo te velike čase izvajanja, če začnete igrati stvari tako, da povečate svojo uro hitrosti ali onemogočanje regulatorjev ali kaj podobnega, boste začeli postavljati dejansko resnično nevarnost v telefon... Če se boš igral... od tega ne boš imel toliko. Morda boste še vedno dobili nekaj odstotkov, toda ali je res vredno?" - John Poole

Kaj se je zgodilo

Na žalost moramo poročati, da so nekateri proizvajalci originalne opreme spet začeli goljufati, kar pomeni, da bi morali biti znova pozorni. K sreči so se proizvajalci vedno bolj odzivali na takšne težave in če se temu pritegne prava pozornost, je to mogoče hitro popraviti. Malce šokantno je videti proizvajalce, ki izvajajo goljufanje meril glede na to, kako močan je bil povratni učinek zadnjič, ko je bil poskus (z nekaterimi primerjalnimi testi, ki popolnoma izključujejo naprave za goljufanje iz njihove zmogljivosti seznami). S tem povratnim učinkom je v nasprotju s tem, kako majhne so navadno povečane zmogljivosti zaradi goljufanja pri merilih uspešnosti (z večino poskusov, ki so zadnjič povzročili manj kot 5-odstotno povečanje rezultata), smo resnično upali, da bo vse to zaostalo nas.

Čas tega poskusa je še posebej neprimeren, saj je pred nekaj meseci goljufanje pri merilih uspešnosti zapustilo svet zgolj zaskrbljenost navdušencev, v javno sfero pa je vstopil, ko sta bila Volkswagen in Fiat Chrysler ujeta pri goljufanju pri svojih emisijah merila uspešnosti. Obe podjetji sta uvedli programsko opremo za zaznavanje, kdaj so bili njihovi dizelski avtomobili podvrženi testiranju emisij, in jih preklopili v način z nizkimi emisijami pri katerih se je zmanjšala ekonomičnost porabe goriva v poskusu tekmovanja z bencinskimi avtomobili glede učinkovitosti porabe goriva, medtem ko so še vedno ostali v predpisanih mejah emisij testi. Doslej je škandal prinesel milijarde denarnih kazni, desetine milijard stroškov odpoklica in obtožb -- vsekakor ne takšne vrste povračila Proizvajalci originalne opreme si bodo kdaj prizadevali za napihovanje svojih primerjalnih rezultatov, ki so zgolj za primerjavo uporabnikov in se ne uporabljajo za merjenje kakršnih koli regulativnih zahteve.

Medtem preiskovanje, kako Qualcomm dosega hitrejše odpiranje aplikacij na takrat novem Qualcomm Snapdragon 821 smo opazili nekaj čudnega na OnePlus 3T ki jih nismo mogli reproducirati na Xiaomi Mi Note 2 ali Google Pixel XL, med drugimi napravami Snapdragon 821. Naš glavni urednik, Mario Serrafero, je uporabljal Qualcomm Trepn in Snapdragon Performance Visualizer, da bi spremljal, kako Qualcomm "okrepi" CPE hitrost pri odpiranju aplikacij in opazil, da se nekatere aplikacije na OnePlus 3T po tem, ko odpiranje. Splošno pravilo je, da se izogibamo preizkušanju primerjalnih vrednosti z odprtimi orodji za spremljanje zmogljivosti, kadar koli je to mogoče, zaradi dodatnih stroškov delovanja, ki jih povzročajo (zlasti v napravah, ki niso Snapdragon, kjer ni uradnih namiznih orodij), vendar so nam v tem incidentu pomagali opaziti nekaj nenavadnega vedenja, ki bi ga verjetno spregledali drugače.

Pri vstopu v nekatere primerjalne aplikacije bi jedra OnePlus 3T ostala nad 0,98 GHz za majhna jedra in 1,29 GHz za velika jedra, tudi ko bi obremenitev procesorja padla na 0 %. To je precej nenavadno, saj se običajno oba sklopa jeder znižata na 0,31 GHz na OnePlus 3T, ko ni obremenitve. Ko smo to prvič videli, nas je skrbelo, da je skaliranje procesorja OnePlus preprosto nastavljeno nekoliko nenavadno, vendar smo po nadaljnjem testiranju prišli do zaključka, da mora OnePlus ciljati specifično aplikacije. Naša hipoteza je bila, da je OnePlus ciljal na ta merila uspešnosti po imenu in je vstopal v nadomestni način skaliranja procesorja, da bi povečal svoje rezultate meril uspešnosti. Eden naših glavnih pomislekov je bil, da je OnePlus v tem načinu morda nastavil ohlapnejše toplotne omejitve, da bi se izognil težavam, ki so jih imeli z OnePlusom. One, OnePlus X in OnePlus 2, kjer so telefoni slabo obvladovali dodatna jedra, ki so prihajala na splet za večjedrni del Geekbencha, in posledično občasno občutno upočasnitev (do točke, ko je OnePlus X včasih dosegel nižje rezultate v večjedrnem delu kot v enojnem jedrni del). Močno dušenje lahko najdete v našem Pregled OnePlus 2, kjer smo ugotovili, da lahko naprava zmanjša do 50 % svojega večjedrnega rezultata Geekbench 3. Kasneje, ko smo začeli primerjati dušenje in toploto med napravami, je OnePlus 2 postal šolski primer, čemu se morajo proizvajalci originalne opreme izogibati.

Obrnili smo se na ekipo na Primate Labs (ustvarjalci Geekbench), ki so bili ključnega pomena pri razkrivanju prvega vala goljufanja pri merilih uspešnosti, in z njimi sodelovali pri nadaljnjem testiranju. OnePlus 3T smo prinesli v pisarno Primate Labs v Torontu na nekaj začetnih analiz. Začetno testiranje je vključevalo izpis ROM-a, ki je pokazal, da je OnePlus 3T neposredno iskal kar nekaj aplikacij po imenu. Predvsem je OnePlus 3T iskal Geekbench, AnTuTu, Androbench, Quadrant, Vellamo in GFXBench. Ker smo do te točke imeli dokaj jasne dokaze, da je OnePlus sodeloval pri goljufanju meril uspešnosti, je Primate Labs zgradil "Bob's Mini Golf Putt" različica Geekbench 4 za nas. Hvala za bistvene spremembe med Geekbench 3 in 4, the “Mini golf” Različico je bilo treba posebej za to testiranje znova zgraditi. Ta različica Geekbench 4 je zasnovana tako, da se izogne kakršnemu koli primerjalnemu zaznavanju in tako omogoči, da Geekbench deluje kot običajno aplikacija na telefonih, ki goljufajo (presežejo preimenovanje paketov, ki zavede večino poskusov primerjalnih testov goljufanje).

Presenetljiv primer

Takoj po odprtju aplikacije je bila razlika očitna. OnePlus 3T je bil v prostem teku pri 0,31 GHz, tako kot v večini aplikacij, namesto pri 1,29 GHz za velika jedra in 0,98 GHz za majhna jedra, kot je v običajni aplikaciji Geekbench. OnePlus je naredil regulator procesorja bolj agresiven, kar je povzročilo praktično umetno nižjo hitrost takta v Geekbenchu, ki ga ni bilo v skriti zgradbi Geekbench. Ni temeljil na delovni obremenitvi procesorja, temveč na imenu paketa aplikacije, ki bi ga skrita zgradba lahko preslepila. Medtem ko je bila razlika v posameznih zagonih minimalna, so sprostitve toplotnega dušenja blestele v našem preskusu trajnega delovanja, prikazanem spodaj.

Iz našega testiranja se zdi, da je to že nekaj časa »funkcija« operacijskega sistema Hydrogen OS in ni bilo dodano v OS Oxygen, dokler skupnost ne zgradi gradnje, ki vodijo do izdaje Nougata (po dva ROM-a sta bila združena). To je nekoliko razočaranje, zlasti glede na težave s programsko opremo, ki jih je imel OnePlus ta mesec po združitvi ROM-ov, od ranljivosti zagonskega nalagalnika do Težave s skladnostjo z GPL. Upamo, da se bo OnePlus, ko se bo prah po združitvi obeh ekip polegel, vrnil v svojo formo in se še naprej postavljal kot razvijalcem prijazna možnost.

z “Mini golf” različico Geekbench v roki, smo šli ven in začeli preizkušati tudi druge telefone glede goljufanja pri merilih uspešnosti. Na srečo naše testiranje ne kaže goljufanja s strani podjetij, ki so bila vpletena v škandal pred pol desetletja. Zdi se, da imajo HTC, Xiaomi, Huawei, Honor, Google, Sony in drugi enake rezultate med običajno zgradbo Geekbench in “Mini golf” gradijo na naših testnih napravah.

Na žalost smo našli možne dokaze o goljufanju meril uspešnosti, ki jih še nismo mogli potrditi pri nekaj drugih podjetjih, ki jih bomo še raziskali. Najslabši primer tega je bil Meizu Pro 6 Plus s procesorjem Exynos 8890, ki je goljufanje meril v drugo skrajnost.

Grozen primer

Meizu je zgodovinsko nastavil skaliranje svojega procesorja izjemno konzervativno. Predvsem svoje telefone pogosto nastavijo tako, da velika jedra le redko pridejo na splet, tudi ko so v svojem »zmogljivem načinu«, zaradi česar so vodilni procesorji (kot je odličen Exynos 8890), ki jih vgradijo v svoje vodilne telefone, delujejo kot procesorji srednjega razreda. To je prišlo do vrhunca lani, ko Anandtech je Meizu kritiziral zaradi njihove slabe uspešnosti na Anandtechovih merilih JavaScript na Meizu Pro 6, ki temelji na Mediatek Helio X25, in ugotovil, da so velika jedra večino testa ostala brez povezave (ko bi se moral izvajati skoraj izključno na velikem jedra). Anandtech je prejšnji teden opazil, da je bila na Meizu Pro 6 potisnjena posodobitev programske opreme, ki je Meizuju končno omogočila, da v celoti izkoristi ta jedra. Anandtechov višji urednik Smartphone, Matt Humrick, pripomnil to "Po posodobitvi na Flyme OS 5.2.5.0G PRO 6 deluje bistveno bolje. Rezultati Kraken, WebXPRT 2015 in JetStream se izboljšajo za približno 2-2,5-krat. Meizu je očitno prilagodil vrednost praga obremenitve, kar je omogočilo, da se niti pogosteje selijo na jedra A72 za boljšo zmogljivost."

Na žalost se zdi, da namesto izboljšanja skaliranja CPE za njihove nove naprave, da bi dosegli boljše primerjalne rezultate, se zdi, da so telefon nastavili tako, da preklopi na uporabo velikih jeder, ko so nekatere aplikacije teče.

Ko odprete aplikacijo za primerjalno analizo, naš Meizu Pro 6 Plus priporoča, da preklopite v »Performance Mode« (ki je samo je dovolj za potrditev, da iščejo določena imena paketov), in zdi se, da je to precejšnja razlika. V standardnem »Balance Mode« telefon dosledno dosega približno 604 in 2220 na enojedrnih in večjedrnih delih Geekbencha, vendar v »Performance Mode« doseže 1473 in 3906, predvsem po zaslugi velikih jeder, ki ostanejo izklopljena večino preizkusa v »Balance Mode« in se vklopijo v "Način delovanja". Zdi se, da Meizu zaklene majhna jedra na njihovo največjo hitrost 1,48 GHz in nastavi trda tla za dve veliki jedri 1,46 GHz med delovanjem Geekbench v »načinu zmogljivosti« (pri čemer imata drugi dve veliki jedri dovoljeno prosto in precej agresivno spreminjanje velikosti), ki ga ne vidimo, ko vodenje “Mini golf” graditi.

Medtem ko je možnost izbire med načinom visoke porabe in načinom nizke porabe lahko dobra funkcija, se v tem primeru zdi, da ni nič drugega kot salonski trik. Meizu Pro 6 Plus ima spodobne rezultate v »Performance Mode« za običajno aplikacijo Geekbench, vendar pri uporabi “Mini golf” Geekbench, pade nazaj na isto raven zmogljivosti, kot jo ima, ko je nastavljen na »Balance Mode«. Višje stanje zmogljivosti na Meizu Pro 6 Plus je samo za primerjalno analizo in ne za dejansko vsakodnevno uporabo.

Ena stvar, ki jo je treba opozoriti, je, da ko smo testirali Meizu Pro 6 Plus v »Performance Mode« s skrivnostjo Geekbench, velika jedra so prišla na splet, če smo beležili takte s Qualcommom Trepn. Nismo še ugotovili, ali Meizu prepozna, da Trepn deluje in vklopi velika jedra v deloma zaradi tega ali če preprosto vklopi velika jedra zaradi dodatne obremenitve CPE-ja ustvarja. Čeprav se morda sliši protiintuitivno, da bi dodatna obremenitev v ozadju (na primer, ko smo med preskusom ohranili vklopljene grafe zmogljivosti) porast glede na rezultate merila uspešnosti bi Meizujevo konzervativno skaliranje lahko pomenilo, da so bili dodatni režijski stroški dovolj, da ga potisnete čez rob in prikličete velika jedra v akcijo ter tako izboljšate zmogljivost za vse naloge.

Ko sprejemljivi proizvajalci originalne opreme obravnavajo povratne informacije...

Po našem testiranju smo se o težavah, ki smo jih našli, obrnili na OnePlus. V odgovor, OnePlus je hitro obljubil, da bo prenehal ciljati na primerjalne aplikacije s svojim primerjalnim goljufanjem, vendar ga še vedno namerava obdržati za igre (ki se prav tako primerjajo). V prihodnji različici OxygenOS tega mehanizma ne bodo sprožila merila uspešnosti. OnePlus je bil dovzeten za naš predlog, da dodamo tudi stikalo, tako da bodo uporabniki vedeli, kaj se dogaja pod pokrovom, vsaj nepoštena in zavajajoča prednost v merilih uspešnosti pa bi morala biti popravljeno. Zaradi kitajskih novoletnih praznikov in njihovega zaostanka funkcij pa bo morda minilo nekaj časa, preden bomo videli uporabniške možnosti prilagajanja za to funkcijo delovanja. Medtem ko je samo popravljanje vedenja izboljšava, je še vedno nekoliko razočaranje, če ga vidimo v rednih primerih aplikacij (kot so igre), saj je bergla za ciljanje na določene aplikacije, namesto da bi izboljšala dejansko zmogljivost skaliranje. Z umetnim povečanjem agresivnosti procesorja in s tem hitrosti ure za določene aplikacije, namesto da bi izboljšali sposobnost svojih telefonov, da prepoznajo, kdaj dejansko potrebuje višje OnePlus ustvarja nedosledno zmogljivost za svoje telefone, kar bo postalo bolj očitno, ko bo telefon starejši in bo vedno več iger, na katere OnePlus ni ciljal. izpuščen. Vendar pa izvedba trenutno omogoča boljše delovanje iger. OnePlus je za ta članek podal tudi izjavo, ki jo lahko preberete spodaj:

„Da bi uporabnikom omogočili boljšo uporabniško izkušnjo v aplikacijah in igrah, ki zahtevajo veliko virov, zlasti grafično smo uvedli določene mehanizme v skupnosti in gradnje Nougata, da bi procesor začel delovati bolj agresivno. Proces sprožitve za primerjalno analizo aplikacij ne bo prisoten v prihajajočih različicah OxygenOS na OnePlus 3 in OnePlus 3T.'

Z veseljem slišimo, da bo OnePlus iz svojih telefonov odstranil goljufanje meril uspešnosti. V prihodnje bomo še naprej poskušali pritiskati na proizvajalce originalne opreme, da bodo bolj prijazni do potrošnikov, kadar koli bo to mogoče, in bomo pozorni na goljufanje v prihodnjih merilih.

Na žalost je edini pravi odgovor na tovrstno prevaro nenehna pazljivost. Kot skupnost navdušencev nad pametnimi telefoni moramo biti pozorni na poskuse goljufanja uporabnikov, kot je ta. Ne zanimajo nas sami rezultati meril uspešnosti, ampak kaj povedo merila o zmogljivosti telefona. Medtem ko merilo goljufanja še ni bilo aktivno na OnePlus 3 ko smo ga pregledali, je za dodajanje te zavajajoče »funkcije« zadostovala preprosta posodobitev programske opreme in jasno ponazarja, da preverjanje primerjalnega goljufanja naprav ob prvem zagonu ni dovolj. Težave, kot je ta, se lahko dodajo dneve, tedne, mesece ali celo leta po zagonu naprave, umetno napihovanje globalnih povprečij, zbranih z referenčnimi vrednostmi več mesecev, kar vpliva na končno bazo podatkov rezultat. Opozoriti je treba, da so morali proizvajalci tudi s temi prilagoditvami v razvoj vložiti čas in denar, običajno vidimo samo nekaj odstotnih točk povečanja primerjalnih rezultatov (razen nekaj obrobnih primerov, kot je Meizu, kjer goljufanje prikrije veliko večje težave). Nekaj odstotnih točk, kar je veliko manj kot razlika med najbolj zmogljivimi in najslabšimi napravami. Trdimo pa, da so lahko te dodatne odstotne točke pri napravah, ki poganjajo vse bolj podobno strojno opremo, odločilni dejavnik na lestvicah, ki jih uporabniki na koncu poiščejo. Boljša optimizacija gonilnikov in pametnejše skaliranje CPE imata lahko izjemno velik učinek na delovanje naprave, pri čemer je razlika med rezultat najzmogljivejše naprave, ki temelji na procesorju Qualcomm Snapdragon 820, in najslabše zmogljive naprave (od glavnega proizvajalca originalne opreme), ki presega 20 % na Geekbench. Dvajset odstotkov od optimizacije gonilnikov, namesto nekaj odstotnih točk od porabe časa in denarja za zavajanje uporabnikov. In to je samo govor o razvojnih prizadevanjih, ki lahko vplivajo na primerjalne rezultate. Številne največje prednosti vlaganja v izboljšavo programske opreme naprave se ne prikažejo vedno na merilih uspešnosti, pri čemer OnePlus v svojih napravah ponuja odlično zmogljivost v resničnem svetu. Res bi moralo biti jasno začrtano, kam naj se v tem primeru usmeri razvojna prizadevanja podjetja. Obrnemo se na več podjetij, ki goljufajo pri merilih uspešnosti, ko jih najdemo, in upamo, da so tako dojemljiva kot OnePlus.

Še enkrat bi se radi zahvalili ekipi Primate Labs za sodelovanje z nami pri odkrivanju te težave. Bistveno težje bi bilo pravilno testirati primerjalno goljufanje brez izdaje »Mini Golf« Geekbench.