Etalona krāpšanās: kā OnePlus un citi tika pieķerti, un ko viņi ir darījuši lietas labā

OnePlus un Meizu ir pieķerti, krāpjoties par etaloniem. XDA pēta, kā tas notika un ko var darīt, lai tas neatkārtotos.

Pirms dažiem gadiem bija ievērojama ažiotāža, kad daudzi lielie ražotāji tika pieķerti, krāpjoties ar etaloniem. Visu izmēru oriģinālo iekārtu ražotāji (ieskaitot Samsung, HTC, Sony, un LG) piedalījās šajā bruņošanās sacensībā, mēģinot apmānīt lietotājus, nekļūstot pieķertiem, taču, par laimi, viņi beidzot pārtrauca savu etalona krāpšanos pēc dažām atklātām diskusijām ar nozares eksperti un žurnālisti.

Vēl 2013. gadā tā bija atklāja ka Samsung mākslīgi palielināja savu GPU takts ātrumu noteiktās lietojumprogrammās, izraisot virkni izmeklēšanas par etalonu krāpšanos visā ražotāju lokā. Toreiz izmeklēšanā atklājās, ka gandrīz visi ražotāji, izņemot Google/Motorola, iesaistījās etalonu krāpšanā. Viņi visi ieguldīja laiku un naudu, cenšoties uzlabot savu tālruņu veiktspēju etalonos tādos veidos, kas tam nebūtu pozitīvas ietekmes uz ikdienas lietošanu, mēģinot mudināt lietotājus domāt, ka viņu tālruņi ir ātrāki nekā patiesībā. bija. Šie izstrādes centieni aptvēra visu diapazonu, sākot no pulksteņa ātruma zemāko vērtību iestatīšanas līdz pulksteņa ātruma piespiešanai līdz maksimālajiem iestatījumiem, līdz pat īpašu augstāku jaudas stāvokļi un īpašie pulksteņa ātrumi, kas bija pieejami tikai salīdzināšanas laikā, un šie centieni bieži vien izraisīja tikai pāris procentu punktu pieaugumu etalons.

Kad tas tika atklāts, bija ievērojams sašutums, jo šie etalonu krāpšanas mēģinājumi bija pretrunā ar pašu etalonu būtību. Lielākā daļa etalonu nav paredzēti, lai norādītu teorētiski maksimālo tālruņa veiktspēju laboratorijas apstākļos, kas nav reproducējami ikdienas lietošanā, bet drīzāk tie ir paredzēti, lai sniegtu jums atskaites punktu reālās pasaules salīdzināšanai starp tālruņi. Pēc neliela publiska apvainojuma (un dažām privātām sarunām) no tehnoloģiju publikācijām, nozares līderiem un plašākai sabiedrībai, lielākā daļa ražotāju saņēma ziņojumu, ka etalona krāpšanās vienkārši nav pieņemama, un apstājās kā a rezultāts. Lielākā daļa no nedaudzajiem, kas neapstājās tajā brīdī, apstājās drīz pēc tam, jo ​​tika veiktas būtiskas izmaiņas uz to, cik daudz etalonu tiek izpildīti, lai mēģinātu atturēt no etalonu krāpšanas (samazinot ieguvumu no tas). Daudzi kritēriji tika padarīti garāki, lai nekavējoties būtu redzama termiskā drosele, ko izraisa pulksteņa ātruma palielināšana.

Kad mēs intervēts Džons Pūls, Geekbench radītājs, atklāja etalonu krāpšanās tēmu un to, ko uzņēmumi, piemēram, Primate Labs, var darīt, lai to novērstu. Jo īpaši Primate Labs padarīja Geekbench 4 nedaudz garāku nekā Geekbench 3, daļēji lai samazinātu etalona krāpšanās sekas. Ieguvumu samazināšana, lai nodrošinātu attīstību etalona krāpšanās izmaksas nav tā vērtas.

"Problēma ir tāda, ka, tiklīdz mums būs tik lieli izpildlaiki, jūs sākat spēlēt, palielinot pulksteni ātrumu vai atspējojot gubernatorus vai kaut ko tamlīdzīgu, jūs sāksit radīt reālas briesmas telefons... Ja jūs gatavojaties to spēlēt... jūs no tā neiegūsit tik daudz. Jūs joprojām varētu saņemt pāris procentus, bet vai tas tiešām ir tā vērts?" - Džons Pūls


Kas notika

Diemžēl mums ir jāziņo, ka daži oriģinālo iekārtu ražotāji atkal ir sākuši krāpties, un tas nozīmē, ka mums atkal vajadzētu būt uzmanīgiem. Par laimi, ražotāji arvien vairāk reaģē uz šādām problēmām, un, pievēršot tam pienācīgu uzmanību, to var ātri novērst. Ir nedaudz šokējoši redzēt, kā ražotāji īsteno etalonu krāpšanos, ņemot vērā to, cik slikta bija pretreakcija pēdējo reizi, kad tas tika mēģināts (ar dažiem etaloniem, pilnībā izslēdzot krāpšanās ierīces no to veiktspējas saraksti). Ar šo pretreakciju pretstatā tam, cik niecīgs parasti ir veiktspējas ieguvums no krāpšanās etalonā (vairumam no mēģinājumiem, kuru rezultātā rezultāts pēdējo reizi palielinājās par mazāk nekā 5%, mēs patiesi cerējām, ka tas viss būs aiz muguras. mums.

Šī mēģinājuma laiks ir īpaši nepiemērots, jo pirms pāris mēnešiem etalona krāpšanās atstāja pasauli kā tīri entuziastu bažas un nonāca publiskajā telpā, kad gan Volkswagen, gan Fiat Chrysler tika pieķerti krāpjoties par emisijām. etaloniem. Abi uzņēmumi ieviesa programmatūru, lai noteiktu, kad viņu automašīnām ar dīzeļdegvielu tiek veikta emisiju pārbaude, un pārslēdzās uz zemas emisijas režīmu. kuru degvielas ekonomija samazinājās, cenšoties konkurēt ar benzīna automašīnām degvielas efektivitātes ziņā, vienlaikus saglabājot normatīvos ierobežojumus attiecībā uz emisijām testiem. Līdz šim skandāls ir izraisījis miljardu naudas sodu, desmitiem miljardu lielu atsaukšanas izmaksu un apsūdzības, kas noteikti nav atriebības veids. Oriģinālo iekārtu ražotāji kādreiz varētu palielināt savus etalonuzdevumus, kas ir paredzēti tikai lietotāju salīdzināšanai un netiek izmantoti nekāda regulējuma mērīšanai. prasībām.

Kamēr pētot, kā Qualcomm panāk ātrāku lietotņu atvēršanas ātrumu Toreiz jaunajā Qualcomm Snapdragon 821 mēs pamanījām kaut ko dīvainu OnePlus 3T ka mēs nevarējām reproducēt uz Xiaomi Mi Note 2 vai Google Pixel XL, starp citām Snapdragon 821 ierīcēm. Mūsu galvenais redaktors Mario Serrafero izmantoja Qualcomm Trepn un Snapdragon Performance Visualizer, lai uzraudzītu, kā Qualcomm “paaugstina” centrālo procesoru. pulksteņa ātrums, atverot lietotnes, un pamanīja, ka dažas OnePlus 3T lietotnes pēc tam nesamazinās līdz parastajiem tukšgaitas apgriezieniem. atvēršana. Parasti mēs izvairāmies testēt etalonus ar atvērtiem veiktspējas uzraudzības rīkiem, kad vien iespējams, jo tie rada papildu veiktspējas izmaksas. (īpaši ierīcēs, kas nav Snapdragon rīki, kur tie nav oficiāli darbvirsmas rīki), tomēr šajā gadījumā tie mums palīdzēja pamanīt dīvainu uzvedību, ko mēs, visticamāk, būtu palaiduši garām. citādi.

Ievadot noteiktas etalonuzdevumu lietotnes, OnePlus 3T kodoli paliktu virs 0,98 GHz mazajiem kodoliem un 1,29 GHz lielajiem kodoliem pat tad, ja CPU slodze nokristos līdz 0%. Tas ir diezgan dīvaini, jo parasti OnePlus 3T abu kodolu komplekti samazinās līdz 0,31 GHz, kad nav slodzes. Pirmo reizi to redzot, mēs uztraucāmies, ka OnePlus CPU mērogošana ir vienkārši iestatīta nedaudz dīvaini, tomēr, veicot turpmākas pārbaudes, mēs nonācām pie secinājuma, ka OnePlus mērķauditorijai ir jābūt noteiktai lietojumprogrammas. Mūsu hipotēze bija tāda, ka OnePlus mērķēja uz šiem etaloniem pēc nosaukuma un ieslēdza alternatīvu CPU mērogošanas režīmu, lai palielinātu etalona rādītājus. Viena no mūsu galvenajām bažām bija tāda, ka OnePlus, iespējams, šajā režīmā iestatīja brīvākus termiskos ierobežojumus, lai izvairītos no problēmām, kas viņiem radās ar OnePlus. One, OnePlus X un OnePlus 2, kur tālruņi slikti apstrādāja papildu kodolus, kas tika tiešsaistē pieejami Geekbench daudzkodolu sadaļai, un dažkārt tā rezultātā ievērojami samazinās (līdz vietai, kur OnePlus X dažkārt ieguva zemākus rezultātus daudzkodolu sadaļā nekā viena galvenā sadaļa). Mūsu vietnē varat atrast spēcīgu droseli OnePlus 2 apskats, kur mēs atklājām, ka ierīce var samazināt līdz pat 50% no Geekbench 3 daudzkodolu rezultāta. Vēlāk, kad mēs sākām salīdzināt droseļvārstu un termiskos rādītājus dažādās ierīcēs, OnePlus 2 kļuva par mācību piemēru tam, no kā OEM vajadzētu izvairīties.

Mēs sazinājāmies ar komandu plkst Primātu laboratorijas (Geekbench radītāji), kuri palīdzēja atklāt pirmo etalonu krāpšanās vilni, un sadarbojās ar viņiem turpmākās pārbaudēs. Mēs atvedām OnePlus 3T uz Primate Labs biroju Toronto, lai veiktu sākotnējo analīzi. Sākotnējā testēšana ietvēra ROM izgāztuvi, kas atklāja, ka OnePlus 3T tieši meklēja vairākas lietotnes pēc nosaukuma. Jo īpaši OnePlus 3T meklēja Geekbench, AnTuTu, Androbench, Quadrant, Vellamo un GFXBench. Tā kā līdz šim brīdim mums bija diezgan skaidri pierādījumi, ka OnePlus ir iesaistījies etalonu krāpšanā, Primate Labs izveidoja “Boba mini golfa putts” Geekbench 4 versija mums. Pateicoties būtiskas izmaiņas starp Geekbench 3 un 4, "Mini golfs" versija bija jāpārbūvē no paša sākuma speciāli šai pārbaudei. Šī Geekbench 4 versija ir izstrādāta, lai izvairītos no etalonu noteikšanas, lai ļautu Geekbench darboties kā parasti lietojumprogramma tālruņos, kas krāpj (kas pārsniedz pakotnes pārdēvēšanu, kas apmāna lielāko daļu etalona mēģinājumu krāpšanos).


Pārsteidzošs piemērs

Tūlīt pēc lietotnes atvēršanas atšķirība bija skaidra. OnePlus 3T darbojās tukšgaitā ar 0,31 GHz, kā tas ir lielākajā daļā lietotņu, nevis pie 1,29 GHz lielajiem kodoliem un 0,98 GHz mazajiem kodoliem, kā tas ir parastajā Geekbench lietotnē. OnePlus padarīja to CPU regulatoru agresīvāku, kā rezultātā Geekbench tika izveidots praktisks mākslīgais pulksteņa ātruma līmenis, kas nebija slēptajā Geekbench būvējumā. Tas nebija balstīts uz CPU darba slodzi, bet gan uz lietotnes pakotnes nosaukumu, ko slēptā būve varēja apmānīt. Lai gan atšķirība atsevišķos braucienos bija minimāla, termiskās droseles atslābumi ir redzami mūsu ilgstošās veiktspējas testā, kas parādīts zemāk.

Pēc mūsu pārbaudēm šķiet, ka šī jau labu laiku ir bijusi Hydrogen OS “funkcija” un netika pievienota Oxygen OS, kamēr kopiena nav izveidojusies līdz Nougat izlaišanai (pēc tika apvienoti divi ROM). Tas ir nedaudz neapmierinoši redzēt, jo īpaši ņemot vērā programmatūras problēmas, kas OnePlus radās šomēnes pēc ROM apvienošanas, no plkst. bootloader ievainojamības uz GPL atbilstības problēmas. Mēs ceram, ka pēc abu komandu apvienošanas putekļi nosēžas, OnePlus atgriezīsies formā un turpinās pozicionēt sevi kā izstrādātājiem draudzīgu iespēju.

Ar "Mini golfs" Geekbench versiju rokā, mēs izgājām un sākām testēt arī citus tālruņus, lai noteiktu krāpšanos. Par laimi, mūsu testēšana neuzrāda to uzņēmumu krāpšanos, kuri bija iesaistīti skandālā pirms pusdesmit gadiem. Šķiet, ka HTC, Xiaomi, Huawei, Honor, Google, Sony un citiem ir konsekventi rādītāji starp parasto Geekbench versiju un "Mini golfs" balstīties uz mūsu testēšanas ierīcēm.

Diemžēl mēs atradām iespējamus pierādījumus par etalona krāpšanos, ko vēl neesam varējuši apstiprināt no dažiem citiem uzņēmumiem, un mēs tos turpināsim izmeklēt. Pats sliktākais piemērs tam bija Exynos 8890 darbinātajā Meizu Pro 6 Plus, kas krāpšanās etalonu noveda citā galējībā.


Briesmīgs piemērs

Meizu vēsturiski ir iestatījis savu CPU mērogošanu ārkārtīgi konservatīvi. Jo īpaši viņi bieži iestata savus tālruņus tā, lai lielie kodoli reti nonāk tiešsaistē, pat ja tie ir “veiktspējas režīmā”, padarot vadošos procesorus (piemēram, izcilos Exynos 8890), ko viņi ievieto savos vadošajos tālruņos, darbojas kā vidējas klases procesori. Tas notika pagājušajā gadā, kad Anandtech izsauca Meizu par vājo veiktspēju Anandtech JavaScript etalonos uz Mediatek Helio X25 balstītā Meizu Pro 6, un atzīmēja, ka lielie kodoli lielāko daļu testa palika bezsaistē (kad testam vajadzēja darboties gandrīz tikai lielajā serdeņi). Anandtech pagājušajā nedēļā pamanīja, ka Meizu Pro 6 ir ievietots programmatūras atjauninājums, kas beidzot ļāva Meizu pilnībā izmantot šos kodolus. Anandtech viedtālruņa vecākais redaktors Mets Humriks, atzīmēja ka "Pēc atjaunināšanas uz Flyme OS 5.2.5.0G PRO 6 darbojas ievērojami labāk. Kraken, WebXPRT 2015 un JetStream rādītāji uzlabojas aptuveni 2x–2,5 reizes. Meizu acīmredzot pielāgoja slodzes sliekšņa vērtību, ļaujot pavedieniem biežāk migrēt uz A72 kodoliem, lai nodrošinātu labāku veiktspēju.

Diemžēl šķiet, ka tā vietā, lai uzlabotu CPU mērogošanu, jaunajām ierīcēm uzlabojas etalonu rādītāji, šķiet, ka tie ir iestatījuši tālruni pārslēgties uz lielo kodolu izmantošanu, kad ir noteiktas lietotnes skrienot.

Atverot etalonuzdevumu lietotni, mūsu Meizu Pro 6 Plus iesaka pārslēgties uz “Veiktspējas režīmu” (kas ir viens pats ir pietiekami, lai apstiprinātu, ka viņi meklē konkrētus pakotņu nosaukumus), un šķiet, ka tas būtiski maina. Atrodoties standarta “Līdzsvara režīmā”, tālrunis Geekbench viena kodola un daudzkodolu sadaļās pastāvīgi iegūst aptuveni 604 un 2220 punktus, taču “Veiktspējas režīmā” tas iegūst 1473 un 3906 punktus, galvenokārt pateicoties lielajiem kodoliem, kas lielāko daļu testa “Līdzsvara režīmā” paliek izslēgti un ieslēdzas "Izpildes režīms". Šķiet, ka Meizu bloķē mazos kodolus līdz to maksimālajam ātrumam 1,48 GHz un uzstāda cieto grīdu diviem lielajiem kodoliem 1,46 GHz, kad tie darbojas. Geekbench, atrodoties “Veiktspējas režīmā” (pārējiem diviem lielajiem kodoliem ir atļauts brīvi un diezgan agresīvi mērogot), ko mēs neredzam, kad darbojas "Mini golfs" būvēt.

Lai gan iespēja izvēlēties starp lieljaudas režīmu un mazjaudas režīmu var būt jauka funkcija, šajā gadījumā šķiet, ka tas ir nekas vairāk kā salona triks. Meizu Pro 6 Plus redz pienācīgus rezultātus “Veiktspējas režīmā” parastajai Geekbench lietotnei, taču, izmantojot "Mini golfs" Geekbench, tas uzreiz pazeminās līdz tādam pašam veiktspējas līmenim, kāds tas ir, kad tas ir iestatīts uz “Balance Mode”. Meizu Pro 6 Plus augstākas veiktspējas stāvoklis ir paredzēts tikai salīdzinošai novērtēšanai, nevis reālai ikdienas lietošanai.

Viena lieta, kas jāņem vērā, ir tāda, ka, testējot Meizu Pro 6 Plus “Veiktspējas režīmā” ar noslēpumu būvēt no Geekbench, lielie kodoli nonāca tiešsaistē, ja mēs reģistrējām pulksteņa ātrumus ar Qualcomm Trepn. Mēs vēl neesam noteikuši, vai Meizu atpazīst, ka Trepn darbojas un ieslēdz lielos kodolus daļēji tā dēļ vai ja tas vienkārši ieslēdz lielos kodolus papildu CPU slodzes dēļ rada. Lai gan varētu šķist neintuitīvi, ka papildu slodze fonā (piemēram, kad pārbaudes laikā mēs turējām ieslēgtas veiktspējas diagrammas) palielināt etalona rezultātus, Meizu konservatīvā mērogošana varētu nozīmēt, ka papildu pieskaitāmās izmaksas pietiekami, lai to pārbīdītu pāri malai un liktu lietā lielos kodolus, tādējādi uzlabojot veiktspēju visiem uzdevumus.


Kad atsaucīgi OEM sniedz atsauksmes...

Pēc mūsu pārbaudes mēs sazinājāmies ar OnePlus par atrastajām problēmām. Atbildot, OnePlus ātri apsolīja, ka pārtrauks mērķēt uz etalonuzdevumu lietotnēm ar to etalonu krāpšanos, taču joprojām plāno to paturēt spēlēm (kurām arī tiek veikts etalons). Nākamajā OxygenOS versijā šo mehānismu neiedarbinās etaloni. OnePlus ir uzņēmis mūsu ieteikumu pievienot arī slēdzi, lai lietotāji zinātu, kas notiek zem pārsega, un vismaz netaisnīgām un maldinošām priekšrocībām etalonos vajadzētu būt labots. Tomēr ķīniešu Jaungada brīvdienu un to funkciju trūkuma dēļ var paiet kāds laiks, līdz mēs redzēsim šīs veiktspējas funkcijas pielāgošanas opcijas, kas paredzētas lietotājiem. Kaut arī uzvedības labošana vien ir uzlabojums, tas joprojām ir nedaudz sarūgtināts, ja to redz regulāri lietojumprogrammas (piemēram, spēles), jo tas ir līdzeklis, lai mērķētu uz konkrētām lietotnēm, nevis uzlabotu faktisko veiktspēju mērogošana. Mākslīgi paaugstinot procesora agresivitāti un līdz ar to arī pulksteņa ātrumu noteiktām lietotnēm, nevis uzlabojot to tālruņu spēju noteikt, kad tam patiešām nepieciešams lielāks pulksteņa ātrumu, OnePlus rada nekonsekventu veiktspēju saviem tālruņiem, kas kļūs pamanāmāki, kad tālrunis kļūst vecāks un tiek parādīts vairāk spēļu, kurām OnePlus nav mērķējis. atbrīvots. Tomēr ieviešana pašlaik ļauj spēlēm darboties labāk. OnePlus sniedza arī paziņojumu par šo rakstu, kuru varat izlasīt tālāk:

 “Lai lietotājiem sniegtu labāku pieredzi resursietilpīgās lietotnēs un spēlēs, īpaši grafiski ietilpīgās viens, mēs ieviesām noteiktus mehānismus kopienā un Nougat versijas, lai aktivizētu procesoru vairāk agresīvi. Programmu salīdzinošās novērtēšanas palaišanas process nebūs pieejams gaidāmajos OxygenOS versijās, kas balstītas uz OnePlus 3 un OnePlus 3T.

Mēs esam priecīgi dzirdēt, ka OnePlus no saviem tālruņiem novērsīs krāpšanos. Turpmāk mēs turpināsim mēģināt izdarīt spiedienu uz oriģinālo iekārtu ražotājiem, lai tie, kad vien iespējams, būtu draudzīgāki patērētājiem, un turpmāk sekosim līdzi krāpšanās iespējai.

Diemžēl vienīgā reālā atbilde uz šāda veida krāpšanos ir pastāvīga modrība. Kā viedtālruņu entuziastu kopienai mums ir jāsargās no mēģinājumiem maldināt lietotājus. Mūs interesē nevis paši etalona rādītāji, bet gan tas, ko etaloni saka par tālruņa veiktspēju. Kamēr etalona krāpšanās vēl nebija aktīva uz OnePlus 3 kad mēs to pārskatījām, pietika ar vienkāršu programmatūras atjauninājumu, lai pievienotu šo maldinošo "funkciju" un skaidri parāda, ka ierīču pārbaude attiecībā uz etalona krāpšanos, kad tās pirmo reizi tiek palaistas, nav veikta pietiekami. Šādas problēmas var mākslīgi pievienot dienas, nedēļas, mēnešus vai pat gadus pēc ierīces palaišanas paaugstinot globālos vidējos rādītājus, kas savākti ar etaloniem mēnešiem pēc kārtas, ietekmējot galīgo datubāzi rezultāts. Jāatzīmē, ka pat ar šiem uzlabojumiem, kuru izstrādei ražotājiem bija jāiegulda laiks un nauda, mēs parasti novērojam tikai pāris procentu punktu pieaugumu etalonu rādītājos (izņemot dažus tādus gadījumus kā Meizu, kur krāpšanās slēpj daudz lielākas problēmas). Pāris procentu punkti, kas ir daudz mazāks par atšķirību starp ierīcēm ar vislabāko un sliktāko veiktspēju. Tomēr mēs iebilstam, ka ierīcēm, kurās darbojas arvien līdzīgāka aparatūra, šie papildu procentu punkti varētu būt noteicošais faktors ranžēšanas diagrammās, kuras lietotāji galu galā meklē. Labākai draiveru optimizācijai un viedākai CPU mērogošanai var būt ārkārtīgi liela ietekme uz ierīces veiktspēju, ar atšķirību starp uz Qualcomm Snapdragon 820 balstītas ierīces ar vislabāko veiktspēju un ar vissliktāko veiktspēju (no liela oriģinālā aprīkojuma ražotāja), kas pārsniedz 20% Geekbench. Divdesmit procenti no draiveru optimizācijas, nevis pāris procentu punkti no laika un naudas tērēšanas, lai maldinātu lietotājus. Un tas attiecas tikai uz attīstības centieniem, kas var ietekmēt etalonu rādītājus. Daudzi no lielākajiem ieguvumiem, ieguldot ierīces programmatūras uzlabošanā ne vienmēr parādās etalonosar OnePlus, kas savās ierīcēs piedāvā izcilu reālās pasaules veiktspēju. Būtu skaidri jāsaprot, uz kurieni šajā gadījumā jākoncentrē uzņēmuma attīstības centieni. Mēs sazināmies ar vairāk uzņēmumu, kas krāpjas ar etaloniem, tiklīdz mēs tos atrodam, un ceram, ka tie ir tikpat atsaucīgi kā OnePlus.


Mēs vēlamies vēlreiz pateikties Primate Labs komandai par sadarbību ar mums, lai atklātu šo problēmu. Būtu bijis daudz grūtāk pareizi pārbaudīt Benchmark Cheating bez Geekbench izdevuma “Mini Golf”.