Võrdlusalane petmine lööb tagasi: kuidas OnePlus ja teised tabati ja mida nad on sellega ette võtnud

OnePlus ja Meizu on tabatud võrdlusnäitajate petmisega. XDA uurib, kuidas see juhtus ja mida saab teha selle kordumise vältimiseks.

Paar aastat tagasi oli märkimisväärne kära, kui arvukad suurtootjad jäid võrdlusindeksite petmisega vahele. Igas suuruses originaalseadmete tootjad (sh Samsung, HTC, Sony, ja LG) osalesid võidurelvastumises, püüdes kasutajaid petta, ilma et nad vahele jäid, kuid õnneks lõpetasid nad lõpuks oma etalonpetmise pärast mõnda avameelset arutelu tööstuse eksperdid ja ajakirjanikud.

Aastal 2013 oli see nii avastatud et Samsung suurendas teatud rakendustes kunstlikult oma GPU taktsagedust, tekitades mitmeid uurimised etalonpettuste vastu kõigis tootjates. Sel ajal tuvastas uurimine, et peaaegu kõik tootjad, välja arvatud Google/Motorola, tegelesid võrdlusaluste petmisega. Nad kõik investeerisid aega ja raha katsetesse, et saavutada oma telefonidelt võrdlusnäitajatega veidi lisajõudlust viisil, mis ei avaldaks positiivset mõju igapäevasele kasutamisele, püüdes petta kasutajaid arvama, et nende telefonid on tegelikust kiiremad olid. Need arendustööd hõlmasid kogu ulatust, alates kella kiiruse alammäärade määramisest kuni kella kiiruste sundimiseni maksimaalsetele seadistustele kuni isegi spetsiaalsete kõrgemate seadistusteni. võimsuse olekud ja spetsiaalsed taktsagedused, mis olid saadaval ainult võrdlusuuringu ajal, kusjuures need jõupingutused viisid sageli vaid paari protsendipunkti võrra etalon.

Selle avastamine oli märkimisväärne nördimus, kuna need katsed etalonide petmiseks olid vastuolus võrdlusnäitajate endi mõttega. Enamik võrdlusaluseid pole selleks, et öelda teile telefoni teoreetilist maksimaalset jõudlust laboritingimustes, mis ei ole reprodutseeritavad igapäevases kasutuses, kuid pigem on need selleks, et anda teile võrdluspunkt reaalses maailmas telefonid. Pärast mõningast avalikku sõimamist (ja mõningaid eravestlusi) tehnoloogiaväljaannetelt, valdkonna liidritelt ja teistelt avalikkusele, enamik tootjaid sai sõnumi, et võrdlusaluse petmine ei ole lihtsalt vastuvõetav, ja lõpetas a tulemus. Enamik vähestest, mis sel hetkel ei peatunud, peatusid varsti pärast seda, kuna tehti olulisi muudatusi sellele, kui palju võrdlusaluseid jooksevad, et takistada võrdlusaluste petmist (vähendades sellest saadavat kasu see). Paljud võrdlusalused muudeti pikemaks, et taktsageduste maksimeerimisest tulenev termiline drossel oleks kohe nähtav.

Kui me intervjueeritud Geekbenchi looja John Poole jutuks tuli võrdluspettuste teema ja see, mida ettevõtted nagu Primate Labs saavad selle vältimiseks teha. Eelkõige muutis Primate Labs Geekbench 4 Geekbench 3-st pisut pikemaks, osaliselt selleks, et vähendada etalonpettuste mõju. Kasu vähendamine, et tagada areng etalonpetmise kulud ei ole seda väärt.

"Probleem on selles, et kui meil on sellised suured käitusajad, kui hakkate mängima kella tõstes kiirused või kuberneride keelamine või midagi sellist, hakkate te tegelikku ohtu seadma telefon... Kui kavatsete seda mängida... sa ei saa sellest nii palju kasu. Võite siiski saada paar protsenti, kuid kas see on tõesti seda väärt?" - John Poole

Mis juhtus

Kahjuks peame teatama, et mõned originaalseadmete tootjad on hakanud uuesti petma, mis tähendab, et peaksime taas valvel olema. Õnneks on tootjad sellistele probleemidele üha reageerivamad ja kui sellele õige tähelepanu juhitakse, saab selle kiiresti parandada. On pisut šokeeriv näha, kuidas tootjad rakendavad võrdlusaluste petmist, pidades silmas, kui halb tagasilöök oli viimane kord, kui seda prooviti (mõned võrdlusalused jätsid petmisseadmed nende toimivusest täielikult välja nimekirjad). Selle vastureaktsiooniga on vastuolus sellega, kui väike on etalonpettuste tulemuslikkuse kasv (enamikuga katsetest, mille tulemuseks oli eelmisel korral vähem kui 5% skoori kasv), lootsime tõesti, et see kõik jääb maha meie.

Selle katse ajastus on eriti ebasobiv, kuna paar kuud tagasi muutis etalonpetmise maailmas puhtalt entusiastlik mure ja sattus avalikku sfääri, kui Volkswagen ja Fiat Chrysler jäid mõlemad vahele heitgaaside petmisega. võrdlusalused. Mõlemad ettevõtted rakendasid tarkvara, et tuvastada, millal nende diiselautodele tehti heitgaaside testimine, ja lasi neil lülituda madala heitgaasiga režiimile. mille kütusesäästlikkus vähenes, püüdes konkureerida bensiiniautodega kütusesäästlikkuses, jäädes samas siiski regulatiivsete heitkoguste piiridesse testid. Seni on skandaal kaasa toonud miljardeid trahve, kümneid miljardeid tagasikutsumiskulusid ja süüdistusi – kindlasti mitte sellist kättemaksu. OEM-id peaksid kunagi suurendama oma võrdlusaluste skoore, mis on mõeldud üksnes kasutajate võrdlemiseks ja mida ei kasutata ühegi regulatiivse mõõtmiseks. nõuded.

Kuigi uurides, kuidas Qualcomm saavutab rakenduste kiirema avamise kiiruse toona uuel Qualcomm Snapdragon 821-l märkasime sellel midagi kummalist OnePlus 3T mida me ei saanud sellel paljundada Xiaomi Mi Note 2 või Google Pixel XL, teiste Snapdragon 821 seadmete hulgas. Meie peatoimetaja Mario Serrafero kasutas Qualcomm Trepni ja Snapdragon Performance Visualizerit, et jälgida, kuidas Qualcomm protsessorit "võimendab" kella kiirus rakenduste avamisel ja märkasin, et teatud OnePlus 3T rakendused ei langenud pärast tavapärast tühikäigukiirust. avamine. Üldine rusikareegel on, et me väldime etalonide testimist toimivuse jälgimise tööriistadega, mis on võimalusel avatud, kuna need toovad kaasa täiendava jõudluse kulu. (eriti mitte-Snapdragoni seadmetes, kus need pole ametlikud töölauatööriistad), kuid selle juhtumi puhul aitasid need meil märgata kummalist käitumist, millest oleksime tõenäoliselt märkamata jäänud muidu.

Teatud võrdlusuuringute rakendustesse sisenemisel jäävad OnePlus 3T tuumad üle 0,98 GHz väikeste tuumade ja 1,29 GHz suurte tuumade puhul isegi siis, kui protsessori koormus langes 0% -ni. See on üsna kummaline, kuna tavaliselt langevad mõlemad tuumade komplektid OnePlus 3T-s 0,31 GHz-ni, kui koormust pole. Seda esimest korda nähes olime mures, et OnePlusi protsessori skaleerimine oli lihtsalt pisut kummaliselt seadistatud, edasisel testimisel jõudsime siiski järeldusele, et OnePlus peab olema sihtimisspetsiifiline rakendusi. Meie hüpotees oli, et OnePlus sihis neid võrdlusaluseid nime järgi ja sisenes võrdlusaluste skooride suurendamiseks alternatiivsesse CPU skaleerimisrežiimi. Üks meie peamisi muresid oli see, et OnePlus seadis selles režiimis tõenäoliselt leebemad termilised piirangud, et vältida probleeme, mis neil OnePlusiga tekkisid. One, OnePlus X ja OnePlus 2, kus telefonid käsitlesid Geekbenchi mitmetuumalise osa jaoks võrku tulevaid täiendavaid tuumasid halvasti ja aeg-ajalt selle tulemusel oluliselt allapoole (nii, et OnePlus X saavutas mõnikord mitmetuumalises osas madalama tulemuse kui üksiku põhiosa). Meie lehelt leiate tugevat drosselit OnePlus 2 ülevaade, kus leidsime, et seade võib kaotada kuni 50% oma Geekbench 3 mitmetuumalisest skoorist. Hiljem, kui hakkasime drosselit ja termosid seadmete lõikes võrdlema, OnePlus 2 sai õpikunäide sellest, mida originaalseadmete tootjad peaksid vältima.

Jõudsime meeskonnaga kell Primaatide laborid (Geekbenchi loojad), kes aitasid paljastada esimese etalonpettuste laine ja tegid nendega koostööd edasiseks testimiseks. Tõime OnePlus 3T Torontos asuvasse Primate Labsi kontorisse esialgseks analüüsiks. Esialgne testimine hõlmas ROM-i prügimäge, mis leidis, et OnePlus 3T otsis otse nime järgi üsna palju rakendusi. Eelkõige otsis OnePlus 3T Geekbenchi, AnTuTu, Androbenchi, Quadrant, Vellamo ja GFXBenchi. Kuna selleks hetkeks oli meil juba üsna selgeid tõendeid selle kohta, et OnePlus tegeles etalonpettustega, lõi Primate Labs "Bobi minigolfi putt" Geekbench 4 versioon meile. Tänu sellele, olulisi muudatusi Geekbench 3 ja 4 vahel, "Minigolf" versioon tuli spetsiaalselt selle testimise jaoks algusest peale ümber ehitada. See Geekbench 4 versioon on loodud selleks, et vältida mis tahes võrdlusaluse tuvastamist, et Geekbench saaks normaalselt töötada rakendus telefonides, mis pettavad (mis ulatub kaugemale paketi ümbernimetamisest, mis lollitab enamiku võrdluskatseid petmine).

Üllatav näide

Kohe rakenduse avamisel oli erinevus selge. OnePlus 3T töötas tühikäigul 0,31 GHz, nagu enamiku rakenduste puhul, mitte 1,29 GHz suurte tuumade ja 0,98 GHz väikeste tuumade puhul, nagu see on tavalises Geekbenchi rakenduses. OnePlus muutis selle CPU juhi agressiivsemaks, mille tulemuseks oli praktiline kunstlik taktsageduse alumine Geekbenchis, mida peidetud Geekbenchi konstruktsioonis ei olnud. See ei põhinenud protsessori töökoormusel, vaid pigem rakenduse paketinimel, mida peidetud ehitus võib petta. Kuigi erinevus üksikute jooksude vahel oli minimaalne, paistavad termilised drosselõdvestused meie püsiva jõudluse testis, mis on näidatud allpool.

Meie testimise põhjal ilmneb, et see on olnud Hydrogen OS-i "funktsioon" juba mõnda aega ja seda ei lisatud Oxygen OS-i enne, kui kogukond on üles ehitatud enne Nougati väljalaskmist (pärast kaks ROM-i liideti). See on natuke pettumus, eriti kui arvestada tarkvaraprobleeme, mis OnePlusil sel kuul pärast ROM-ide ühendamist tekkisid. alglaaduri haavatavused juurde GPL-i järgimisega seotud probleemid. Loodame, et kui tolm pärast kahe meeskonna ühinemist vaibub, naaseb OnePlus oma vormi ja jätkab end arendajasõbraliku valikuna.

Koos "Minigolf" Geekbenchi versiooni käes, läksime välja ja hakkasime katsetama ka teisi telefone etalonpettuste osas. Õnneks ei näita meie testid, et poole kümne aasta taguses skandaalis osalenud ettevõtted ei petnud. Tundub, et HTC, Xiaomi, Huawei, Honor, Google, Sony ja teistel on tavalise Geekbenchi ehituse ja "Minigolf" tugineda meie testimisseadmetele.

Kahjuks leidsime võimalikke tõendeid etalonpettuste kohta, mida me pole veel paarilt teiselt ettevõttelt veel kinnitanud, ja mida me hakkame edasi uurima. Halvim näide sellest oli Exynos 8890 toitega Meizu Pro 6 Plus, mis viis etalonpetmise teise äärmusesse.

Kohutav näide

Meizu on ajalooliselt määranud oma protsessori skaleerimise äärmiselt konservatiivselt. Nimelt seadistavad nad sageli oma telefonid nii, et suured tuumad satuvad harva võrku, isegi kui nad on jõudlusrežiimis, muutes lipulaevad protsessorid (nagu suurepärased Exynos 8890), mille nad oma tipptelefonidesse panevad, toimivad nagu keskklassi protsessorid. See sai selgeks eelmisel aastal, kui Anandtech kutsus Meizu välja nende kehva jõudluse pärast Anandtechi JavaScripti võrdlusalustel Mediatek Helio X25-l põhineval Meizu Pro 6-l ja märkis, et suured tuumad jäid suurema osa testist võrguühenduseta (kui test oleks pidanud töötama peaaegu ainult suurel südamikud). Anandtech märkas eelmisel nädalal, et Meizu Pro 6-le on lükatud tarkvaravärskendus, mis lõpuks võimaldas Meizul neid tuumasid täiel määral kasutada. Anandtechi nutitelefoni vanemtoimetaja Matt Humrick, märkis et "Pärast Flyme OS 5.2.5.0G versioonile värskendamist töötab PRO 6 oluliselt paremini. Krakeni, WebXPRT 2015 ja JetStreami skoorid paranevad umbes 2x-2,5x. Ilmselt kohandas Meizu koormuse läviväärtust, võimaldades parema jõudluse huvides lõimedel A72 tuumadele sagedamini migreeruda.

Kahjuks näib, et selle asemel, et parandada oma uute seadmete protsessori skaleerimist etalonskoorid, näivad need olevat pannud telefoni teatud rakenduste korral kasutama suuri tuumasid jooksmine.

Võrdlusuuringu rakenduse avamisel soovitab meie Meizu Pro 6 Plus teil lülituda jõudlusrežiimi (mis üksi piisab, et kinnitada, et nad otsivad konkreetseid paketinimesid), ja tundub, et see muudab oluliselt. Tavalises tasakaalurežiimis saavutab telefon Geekbenchi ühe- ja mitmetuumalistes sektsioonides pidevalt umbes 604 ja 2220, kuid "Performance Mode" saab selle tulemuseks 1473 ja 3906, suuresti tänu sellele, et suured tuumad jäid suurema osa testist välja "Balance Mode" ja lülituvad sisse "Esitusrežiim". Näib, et Meizu lukustab väikesed tuumad nende maksimaalsele kiirusele 1,48 GHz ja seab kahele suurele 1,46 GHz tuumale kõva põranda. Geekbench jõudlusrežiimis (ülejäänud kahel suurel tuumal lastakse vabalt ja üsna agressiivselt skaleerida), mida me ei näe, kui töötab "Minigolf" ehitada.

Kuigi suure energiatarbega režiimi ja vähese energiatarbega režiimi vahel valimine võib olla tore funktsioon, näib see antud juhul olevat midagi muud kui salongitrikk. Meizu Pro 6 Plus näeb tavalise Geekbenchi rakenduse puhul jõudlusrežiimis korralikke tulemusi, kuid "Minigolf" Geekbenchi konstruktsiooniga, langeb see kohe samale jõudluse tasemele, mis on seatud tasakaalurežiimile. Meizu Pro 6 Plusi suurema jõudlusega olek on mõeldud ainult võrdlusuuringuteks, mitte igapäevaseks kasutamiseks.

Üks märkus on see, et kui testisime Meizu Pro 6 Plusi jõudlusrežiimis koos saladusega Geekbenchi konstrueerimisel tulid suured tuumad võrku, kui salvestasime kellasagedusi Qualcommiga Trepn. Me pole veel kindlaks teinud, kas Meizu tunneb ära, et Trepn töötab ja lülitab sisse suured tuumad. osa selle tõttu või kui see lihtsalt lülitab suured tuumad sisse CPU lisakoormuse tõttu loob. Ehkki see võib tunduda intuitiivselt vastuoluline, et lisakoormus taustal (nt siis, kui hoidsime testi ajal toimivusgraafikuid peal) suurendama võrdlusaluse tulemuste põhjal võib Meizu konservatiivne skaleerimine tähendada, et lisakulud olid piisavalt, et lükata see üle serva ja käivitada suured tuumad, parandades nii jõudlust kõigi jaoks ülesandeid.

Kui vastuvõtlikud originaalseadmete tootjad annavad tagasisidet...

Pärast testimist võtsime leitud probleemide osas ühendust OnePlusiga. Vastuseks, OnePlus lubas kiiresti lõpetada võrdlusuuringute rakenduste sihtimise nende võrdlusaluste petmisega, kuid kavatseb selle siiski säilitada mängude jaoks (mida ka võrreldakse). OxygenOS-i tulevases versioonis ei käivitata seda mehhanismi võrdlusnäitajad. OnePlus on vastu võtnud meie soovituse lisada ka lüliti, et kasutajad teaksid, mis toimub kapoti all ja vähemalt ebaõiglane ja eksitav eelis võrdlusnäitajates peaks olema parandatud. Hiina uusaasta pühade ja nende funktsioonide mahajäämuse tõttu võib siiski kuluda veidi aega, enne kui näeme selle jõudlusfunktsiooni jaoks kasutajale suunatud kohandamisvalikuid. Kuigi ainuüksi käitumise korrigeerimine on paranemine, valmistab see siiski pisut pettumust, kui seda regulaarselt tehakse rakendusi (nagu mängud), kuna see on konkreetsete rakenduste sihtimise kark, selle asemel et parandada tegelikku jõudlust skaleerimine. Suurendades kunstlikult protsessori agressiivsust ja seega konkreetsete rakenduste taktisagedust, selle asemel, et parandada nende telefonide võimet tuvastada, millal see tegelikult kõrgemat vajab. kella kiirusega, loob OnePlus nende telefonide jaoks ebaühtlase jõudluse, mis muutub veelgi ilmsemaks, kui telefon vananeb ja rohkem mänge, mida OnePlus pole sihtinud, on vabastatud. Kuid rakendamine võimaldab praegu mängudel paremini toimida. OnePlus esitas selle artikli kohta ka avalduse, mida saate lugeda allpool:

"Et pakkuda kasutajatele paremat kasutuskogemust ressursimahukates rakendustes ja mängudes, eriti graafiliselt intensiivsetes üks, rakendasime kogukonnas teatud mehhanismid ja Nougati järgud, et käivitada protsessor rohkem töötama agressiivselt. Rakenduste võrdlusuuringu käivitusprotsess ei kehti OnePlus 3 ja OnePlus 3T tulevastes OxygenOS-i versioonides.

Meil on hea meel kuulda, et OnePlus eemaldab oma telefonidest pettuse. Edaspidi püüame jätkuvalt survestada originaalseadmete tootjaid, et nad oleksid võimaluse korral tarbijasõbralikumad, ja hoiame silma peal edaspidisel etalonpetmisel.

Kahjuks on seda tüüpi pettuste ainus tõeline vastus pidev valvsus. Nutitelefonide entusiastide kogukonnana peame hoidma silma peal kasutajate petmise katsete eest. Meid ei huvita mitte võrdlusaluste skoorid, vaid pigem see, mida võrdlusalused telefoni jõudluse kohta ütlevad. Kuigi võrdlusaluse petmine ei olnud veel aktiivne OnePlus 3 kui me selle üle vaatasime, piisas lihtsast tarkvaravärskendusest selle eksitava funktsiooni lisamiseks ja näitab selgelt, et seadmete esmasel käivitamisel etalonpettuste kontrollimine ei ole seda piisav. Selliseid probleeme saab kunstlikult lisada päevi, nädalaid, kuid või isegi aastaid pärast seadme käivitamist paisutades kuude kaupa võrdlusaluste abil kogutud globaalseid keskmisi, mõjutades lõplikku andmebaasi tulemus. Tuleb märkida, et isegi nende näpunäidetega, mille arendamiseks pidid tootjad investeerima aega ja raha, me näeme tavaliselt vaid paari protsendipunkti võrra võrdlusaluste skooride kasvu (välja arvatud paar äärmuslikku juhtumit nagu Meizu, kus petmine varjab palju suuremaid probleeme). Paar protsendipunkti, mis on palju väiksem kui lõhe parima ja halvima toimivusega seadmete vahel. Väidame siiski, et üha sarnasema riistvaraga seadmete puhul võivad need lisaprotsendipunktid olla otsustavaks teguriks edetabelites, mida kasutajad lõpuks otsivad. Parem draiveri optimeerimine ja nutikam protsessori skaleerimine võivad seadme jõudlusele avaldada tohutut mõju. parima jõudlusega Qualcomm Snapdragon 820 põhineva seadme ja halvima (suure originaalseadmete tootja) seadme tulemus ületab 20% Geekbench. Kakskümmend protsenti juhi optimeerimisest, mitte paar protsendipunkti aja ja raha kulutamisest kasutajate petmiseks. Ja see räägib ainult arendustegevusest, mis võib mõjutada võrdlusaluste tulemusi. Paljud seadme tarkvara täiustamisse investeerimise suurimad eelised ei ilmu alati võrdlusnäitajates, kus OnePlus pakub oma seadmetes suurepärast reaalset jõudlust. Sel juhul peaks olema selge, kuhu ettevõtte arendustegevus peaks keskenduma. Pöördume rohkemate ettevõtete poole, kes petavad võrdlusaluseid, kui me neid avastame, ja loodame, et nad on sama vastuvõtlikud kui OnePlus.

Soovime veel kord tänada Primate Labsi meeskonda selle probleemi lahendamisel meiega koostöö eest. Ilma Geekbenchi Mini Golfi väljaandeta olnuks Benchmark Cheatingi korralikult testimine olnud oluliselt keerulisem.