Stol IKKE på OnePlus 5-benchmarks i anmeldelser

OnePlus 5 deltager igen i benchmark-snyd i et forsøg på at narre anmeldere og kunder. Find ud af, hvordan de gjorde det i vores artikel!

Tidligere i år har vi offentliggjort en rapport, der fordømte OnePlus (og andre virksomheder) for deres upassende adfærd i forhold til benchmarkmanipulation på nyere builds af OxygenOS. I dag må vi desværre følge op på vores beskyldninger, da virksomheden endnu en gang har manipuleret benchmarkscore på upassende måde i OnePlus 5.

Selvom ingen kunder har en enhed i hænderne (den er trods alt lige lanceret), har vi lært om OnePlus' nye benchmark snydemekanisme gennem vores anmeldelsesenhed, som vi modtog for omkring ti dage siden før dagen, hvor embargoen bryder, og anmeldere får lov til at rapportere på enheden. Det er det desværre næsten sikkert hver eneste anmeldelse af OnePlus 5, der indeholder et benchmark, bruger vildledende resultater, da OnePlus gav anmelderne en enhed, der snyder med benchmarks. Dette er et utilgiveligt træk, fordi det i sidste ende er et forsøg på at vildlede ikke kun kunder, men plette anmeldernes og journalisternes arbejde med vildledende data, som de fleste ikke er i stand til at undersøge eller verificere. Som et resultat er hver OnePlus 5-anmeldelse, der citerer benchmark-score som en anerkendelse af telefonens succes. vildledende både forfattere og læsere, og præstationsanalyser baseret på syntetiske benchmarks er ugyldiggjort. Hvad der er værre er, at denne gang,

snydemekanismen er åbenlys og rettet mod at maksimere ydeevnen, i modsætning til sidste gang, som i gennemsnit ikke øgede scores meget, men reducerede varians og termisk drosling, som vi fandt.

Inden vi springer ud i detaljerne, vil jeg gerne slå fast, at vi er skuffede over, at virksomheden endnu en gang tyer til denne praksis. Vi vil heller ikke give en fuldstændig præstationsanalyse involverer alle vores inkluderede tests, da mange af vores foretrukne benchmarks er påvirket af snydemekanismen. Endelig vil vi opdele denne rapport fra vores overordnede vurdering af selve enheden, fordi vi er overbeviste den skyldige kode vil blive fjernet fra forbruger builds efter denne rapport og vores samtaler med OnePlus repræsentanter. Selvom vi ikke tror på denne feature-artikel nødvendigvis skulle ændre din opfattelse af selve hardwaren, er det rigtigt for det at skubbe til din mening om virksomheden, da det er deres anden overtrædelse.

Et hurtigt ord om metode

Alle resultater i denne artikel er opnået på en OnePlus 5 review-enhed, der kører OxygenOS version 4.5.0 (A5000_22_170603); dette er en præproduktionsenhed, og den blev oprindeligt fyldt med præproduktionssoftware, som modtog en OTA til versionen nævnt ovenfor. OnePlus videresendte korrekturlæsere instruktioner for at aktivere muligheden for at downloade benchmark-applikationer fra Play Butik, og formodentlig blev dette gjort for at der ikke skulle være nogen benchmark-score-læk forud for tid. Det gav mig et fingerpeg om, at OnePlus henviste til benchmark-pakker ved navn i deres ROM. Hvad angår test, havde ROM'en minimale baggrundsprocesser uden tredjepartsapplikationer og kørte flytilstand, hvor det var relevant; CPU-frekvenser blev kun logget for at bestemme omfanget af snyderiet og ikke i de test, der gav resultater for denne artikel. Alle temperaturer blev målt ved hjælp af en FLIR C2 Compact hvor hvert udholdenhedsløb begynder ved en ydre temperatur på 28,5°C | 83,3°F.

Benchmark-manipulation – hvordan det gøres

I januar sidste år afslørede vores rapport en snydemekanisme fundet i OxygenOS Beta builds og i forsendelsessoftwaren fra OnePlus 3T. Vi tilskrev disse ændringer til de seneste sammenlægning af de dengang uensartede OxygenOS og HydrogenOS udviklerteams og den underliggende kodebase af OxygenOS, som nu skulle deles med HydrogenOS, selvom denne spekulation endnu ikke er bekræftet. Det gav mening for os på det tidspunkt, og kommentarer fra OnePlus-repræsentanter til XDA-Developers tilføjede troværdighed til vores teori. Med OnePlus 5 ser vi en anden slags snydemekanisme, men vi kan ikke finde ud af, om dette bevidst blev introduceret af de samme udviklere, som tilføjede det første gang. Vi ved kun, at det er rettet mod de samme pakker.

Så hvordan fungerer det, og hvad er forskellen? Sidste gang introducerede OnePlus ændringer i adfærden af deres ROM, hver gang den opdagede, at en benchmark-applikation blev åbnet. Sådanne applikationsnavne blev eksplicit angivet efter deres pakke-id'er i ROM'en i et manifest, der specificerede målene. Så ville ROM'en ændre frekvensen i forhold til en justeret CPU-belastning -- vores værktøjer viste, at CPU-belastningen ville falde til 0% uanset åbenlys aktivitet i applikationen, og CPU'en ville se en næsten minimumsfrekvens på 1,29 GHz i de store kerner og 0,98 GHz i de små kerner. Denne minimumsfrekvens reducerede det effektive frekvensområde, hvilket igen reducerede antallet af trinfrekvenser; i benchmarks resulterede dette i lidt lavere varians og, som vi viste, højere vedvarende ydeevne, da den højere minimumsfrekvens ikke kunne tilsidesættes af termisk drosling. Kort sagt var snydadfærd tydelig og påviselig ved både at se på scorevarians og ved at overvåge CPU-frekvenser gennem hele benchmark, som viste et frekvensgulv, der - for det meste - tillod enheden konsekvent at score tættere på sit fulde potentiale.

OnePlus 5, på den anden side, er et helt andet dyr - det tyr til den slags åbenlyse, beregnede snydemekanismer vi så i flagskibe i de tidlige dage af Android, en tilgang, der tydeligvis er beregnet til at maksimere score i de mest vildledende mode. Selvom der ikke er nogen regulatorskift, når en bruger indtaster et benchmark (i det mindste kan vi ikke se det er tilfældet), springer minimumsfrekvensen af den lille klynge til den maksimale frekvens som set under præstationsregulatorer. Alle små kerner påvirkes og holdes på 1,9 GHz, og det er gennem denne snydekode, at OnePlus opnår noget af det højeste GeekBench 4 score af en Snapdragon 835 til dato - og sandsynligvis den højest opnåelige givet dens kompromisløse konfiguration med dens specifikke konfiguration. Scorer helt sikkert højere end dem, der opnås af lignende enheder og Qualcomms egen MSM8998-testenhed som vi var så heldige at benchmarke. Nedenfor er en liste over benchmark-applikationer, der er berørt:

AnTuTu (com.antutu.benchmark.full)
Androbench (com.andromeda.androbench2)
Geekbench 4 (com.primatelabs.geekbench)
GFXBench (com.glbenchmark.glbenchmark27)
Kvadrant (com.aurorasoftworks.quadrant.ui.standard)
Nenamark 2 (se.nena.nenamark2)
Vellamo (com.quicinc.vellamo)

Det der er fuldstændigt overraskende er de berørte applikationer er nøjagtig de samme som sidste gang, og OnePlus retter sig helt klart mod de samme pakker. Forskellen i score er for det meste lige, hvad du ville forvente. Vi var i stand til at forfalske benchmark-snyden og undgå det med GeekBench 4, på samme måde som vores test i vores sidste rapport. Vi fandt ud af, at mens den kørte GeekBench 4 fra Play Butik, scorede enheden over 6.700 i multi-core, mens vi aldrig opnåede en score på 6.500, når først enheden opfører sig som forventet med vores skjulte opbygning af GeekBench. Nedenfor kan du se en frekvens over tid plot for OnePlus 5's lille klynge, når du kører GeekBench 4 fra Play Butik, og den samme konfiguration kører en build af GeekBench 4 fritaget for identifikatorer, der er i stand til at narre OnePlus' snyd mekanisme.

I tilfælde af at det ikke fremgår tydeligt af grafen ovenfor: vi spurgte CPU-frekvensen hver 100 ms, og i alt returnerede kun 24,4% af aflæsningerne den maksimale frekvens på 1,9Ghz, når de deaktiverede snyd. I mellemtiden løbet med aktiveret snyd brugte svimlende 95 % af aflæsningerne i sin maksimale frekvenstilstand. Det er helt tydeligt, at OnePlus holder CPU-frekvenserne for disse kerner kunstigt højt under benchmark, hvilket resulterer i den væsentligt højere overordnede score i multi-core test og er også manifesteret i forskellige CPU-bundne subscores i den detaljerede opdeling af hver test (især i heltal og float operationer). Forskellen er dog mest tydelig og fordelagtig i multi-core score, og single-core resultater er faktisk overraskende ens mellem løbene med og uden benchmark snyd, hvor den enkelte kerne score faktisk er højere i gennemsnit uden manipulation.

Alligevel er multi-core den figur, som de fleste mennesker overvejer og umiddelbart bemærker, når det kommer til dette specifikke benchmark, givet Android er et meget parallelt operativsystem, der nu er fyldt med multi-threaded applikationer efter mange års understøttelse af flere kerner. Selvom stigningen kun er meningsfuld i multi-threaded benchmarks og tests, ville det stadig resultere i en betydelig, uretfærdig og ikke-repræsentativ fordel i forhold til andre enheder, der lader deres standardregulator og ydeevneindstillinger fungere under benchmark; disse ændrede resultater er ikke repræsentative for den virkelige verden af OnePlus 5 på nogen måde, da de er afspejler en top og ellers uopnåelig ydeevne af enheden under kunstige forhold og uden begrænsninger.

Multi Core-score-deltaet mellem scoringer, når du kører GeekBench 4 med og uden snydemekanismen kan være op til 6,5 %, selvom det i gennemsnit er omkring 5 %. Måske se ubetydeligt, men det skub er nok til at drive enheden foran andre Snapdragon 835-enheder. Ovenfor kan du se et punktplot af flere uafhængige kørsler af GeekBench 4 med og uden snydemekanismen. Kløften er tydelig, og som man kan udlede fra boxplot, kan den ikke være et resultat af iboende varians. Kort sagt, at booste CPU-frekvenserne kunstigt højt giver faktisk meget bedre resultater i syntetiske benchmarks.

Nedenfor kan du se et plot af ydeevne over tid med deres medfølgende temperaturer, som vi ønskede at bestemme om der også er termisk afslapning i spil, eller om der var forskel i score under vedvarende benchmarking.

Vi satte GeekBench 4-test op med en pause på to sekunder mellem resultatskærmen og påbegyndelsen af endnu en benchmarkkørsel; ekstern enhedstemperatur (ikke batteritemperatur som rapporteret af Android) blev målt ved hjælp af en FLIR termisk kamera efter et sekunds kalibrering, gennemsnit af de tre umiddelbare målinger i de to sekunder mellem løber. Jeg var temmelig overrasket over at se, at disse to enheder generelt blev varmet op med omtrent samme hastighed, og ingen af dem oplevede et fald i score. Alle resultater i hvert datasæt er inden for den forventede varians, hvilket tyder på, at der ikke er nogen termisk drosling på spil. Ved nærmere eftersyn burde dette virkelig ikke komme som en overraskelse i betragtning af vedvarende ydeevne en af de iboende styrker ved Cortex-A73-kernerne, som Snapdragon 835's Kryo-kerner er baseret på på. De berørte kerner er de strømbesparende kerner, og det faktum, at GeekBench 4 specifikt kommer med foranstaltninger til at forhindre drosling, der ændrer resultaterne af deltestene nær slutningen af et løb, er noget vi lærte af vores interview med John Poole.

Interessant nok er ikke alle populære benchmarks målrettet af OnePlus’ snydemekanisme. 3DMark, for eksempel, så faktisk ikke nogen af disse problemer, da de kørte test eller endda åbnede applikationen. Men andre benchmarks som GFXBench er målrettet, og vi ser den samme CPU-adfærd, når vi åbner og kører dem. Faktisk nåede OnePlus 5 temperaturer på over 50°C under en vedvarende præstationskørsel med GFXBenchs Manhattan Battery Test | 122°F (ydre temperatur), en meget sjælden forekomst blandt enheder, jeg har testet tidligere, som alle oplever en vis grad af termisk drosling, der forhindrer dem i at få helt det hed.

Narre mig Engang, Skam mig; Nar mig to gange, skam dig

Det er lidt oprørende, at det er nået til det punkt, hvor vi er nødt til at råbe den samme virksomhed to gange for at manipulere benchmarkscore. Det faktum, at alt dette også blev gjort på gennemgangsenheder, forværrer problemet yderligere: denne snydemekanisme er rettet mod at maksimere ydeevnen og få enheden til at se bedre eller hurtigere ud i ydeevneafsnittene i anmeldelser. Målretnings- og manipulationssystemet blev pakket i præproduktionsenheder sendt til journalister, som vil basere deres resultater på deres enhed fra OnePlus, mange af dem er ude af stand til eller villige til at bekræfte eksistensen af snyd i deres anmeldelsesenhed. Det er på ingen måde deres skyld, men XDA er kun på udkig efter benchmark-manipulation, fordi vi fandt det i fortiden, og vi troede, det var bedst at informere vores læsere og potentielle telefonkøbere.

Vi håber, at denne artikel kan genoplive en bredere samtale om benchmarks, deres rolle og deres nytte i dagens smartphone-anmeldelser. Tag ikke fejl, virksomheder som Qualcomm og Samsung gør bekymrer sig om benchmarks, og de betragter dem som en gyldig, hvis ufuldstændig, måde for kunderne at bedømme ydeevne af deres enheder, selvom de har mere sofistikerede værktøjer at henvise til, når de udvikler deres processorer. I sidste ende kan benchmarks være af stor betydning, hvis man forstår, hvad softwaren måler, og i hvilket omfang dens resultater kan bruges til at udlede rangeringen af en bestemt processor, en bestemt konfiguration af hardware, eller i mere holistiske termer, en specifik telefon med de ændringer i adfærd dens software introducerer som godt. Jeg tror, at vi er kommet til et tidspunkt, hvor det er vigtigere at fokusere på den virkelige verdens ydeevne og strømeffektivitet end på rå databehandling eller behandling dygtighed, fordi det tydeligvis er klart på dette tidspunkt, at flaskehalsen til den virkelige verden ydeevne kommer fra Android og særlige implementeringer af den OEM'er.

Når jeg går tilbage til OnePlus, ved jeg virkelig ikke, hvorfor virksomhedens softwareteam, og hvilken side af softwareteamet specifikt, genindførte benchmark-manipulation efter at være blevet kaldt ud. Det er værre denne gang, med det tilsyneladende formål at oppuste scoringer produceret af anmelderhåndsæt. OnePlus 5 er stadig en utroligt ydende enhed, der virkelig ikke behøver benchmark snyd for at komme med en erklæring - jeg er virkelig blevet forbløffet over dens smidighed og generelle lydhørhed, og det er klart for mig efter min tid med virksomhedens enheder samt interviews og samtaler med deres ledelse, at de ved, at præstation er et stærkt aspekt af deres telefoner. Det er højst sandsynligt et kalkuleret træk, da de måske har fundet ud af, at det var værd at irritere en lille del af primært-vestlige side af entusiastmarkedet for måske at give internettet de højeste benchmarkscore, de kunne mønstre. Uanset hvad der er tilfældet, håber jeg ærligt, at firmaet retter op på dette forkerte, da selvom jeg har gode ting at sige om deres hardware, er de begyndt udgivelsen med den forkerte fod i mine øjne.

Udtalelse fra OnePlus

Vi kontaktede OnePlus for en kommentar om dette problem, og her er, hvad de havde at sige:

Folk bruger benchmark-apps til at fastslå ydeevnen af deres enhed, og vi ønsker, at brugerne skal se den sande ydeevne af OnePlus 5. Derfor har vi tilladt benchmark-apps at køre i en tilstand, der ligner daglig brug, inklusive kørsel af ressourcekrævende apps og spil. Når du starter apps, kører OnePlus 5 desuden i en lignende tilstand for at øge hastigheden, hvormed apps åbner. Vi overclocker ikke enheden, vi viser snarere ydeevnepotentialet for OnePlus 5.

Denne udtalelse, som vi modtog i morges, er lidt af et chok at høre, da benchmark-snyden sætter enheden i en tilstand, som er udtrykkeligt ikke hvordan enheden vil køre i daglig brug, og den repræsenterer ydeevne, som du ikke vil se i andre apps, der ikke specifikt er målrettet af sådanne boosts.

Husk, at i modsætning til konkurrerende overclocking er de fleste telefonbenchmarks designet til at repræsentere, hvordan en telefon vil fungere i hverdagen. Det er ikke kun en score for at forsøge at opnå de højest mulige resultater, men snarere et forsøg på at repræsentere, hvordan telefonen yder under almindelige termiske profiler og batteriforbrug. Et forsøg på at repræsentere, hvordan telefonen faktisk kører i daglig brug. Disse benchmarks er ikke designet til at måle noget "ydelsespotentiale", som ikke er opnåeligt i den virkelige verden brug, og ethvert forsøg på at målrette dem med en benchmark-snydkode i "defeat device"-stil er vildledende for brugerne. Hvis du låser CPU-urhastigheder til deres maksimale værdi og lader telefonens kropstemperatur stige til ubrugelig niveauer, når visse apps åbnes, så er det ikke en indikation af, hvordan telefonen vil fungere, når den er i virkeligheden brug.

Mens den termiske profil var relativt normal i den CPU-tunge Geekbench 4, hvor den fantastiske vedvarende ydeevne af de ARM Cortex-A73-baserede Kryo 280-kerner tillader telefonen til at køre på de øgede batteriforbrugsniveauer, som benchmark-snyden bragte uden at blive for varm, så vi en helt anden historie med GPU-intensive apps. Som nævnt, under test af vedvarende ydeevne med GFXBenchs Manhattan Battery Test, nåede OnePlus 5 temperaturer på omkring 50°C | 122°F (ydre temperatur), hvilket er brændende varmt for en telefon, og er grundigt ubehageligt at holde. Prøver at spille videospil eller bruge andre GPU-intensive apps med en 50°C | 122°F telefon ville bare være en dårlig brugeroplevelse.

Selvom OnePlus også målretter mod ikke-benchmark-apps med deres benchmark-snydekode, ville det stadig være et problem, da det ville betyde, at den ydeevne, du ser i intensive apps i dag vil være helt anderledes end hvad du ser i nuværende apps, der ikke er på listen, eller i fremtidige intensive apps, når OnePlus stopper med at opdatere listen. Dette kan ændres ved at give brugerne mulighed for at hvidliste, hvilke applikationer der drager fordel af skjulte boosts, samt gennemsigtigt vise, hvilke der drager fordel af standard -- vi foreslog dette med vores sidste rapport, men det har det ikke været implementeret.

Vi er skuffede over OnePlus' handlinger i denne sag, og håber, at OnePlus for anden gang vil fjerne benchmark snydekoden fra deres software. Det giver en forkert fremstilling af deres telefon til deres kunder, og det er ikke den type adfærd, som vi kan lide at se med enheder så ellers fantastiske som OnePlus 3T og OnePlus 5.

OPDATERET UDTALELSE

OnePlus har leveret en opdateret erklæring, der bedre forklarer deres holdning til emnet:

"Vi har sat OnePlus 5 til at køre benchmarks på et højtydende niveau, der er både naturligt og bæredygtigt for alle enheder, medier og forbrugere, så brugerne kan se enhedens sande potentiale, når de kører ressourcekrævende apps og spil. På intet tidspunkt overclocker vi CPU'en, og vi sætter heller ikke et CPU-frekvensgulv.

Vi er overbeviste om, at vores tilgang bedst viser OnePlus 5's sande ydeevne."

Udsagnet siger korrekt, at der ikke er nogen overclocking involveret (hvilket ville være et trin over deres nuværende mekanisme, med hensyn til at producere illegitime scores), og der er ikke noget CPU-frekvensgulv som det, vi faktisk så sidste gang. Gennem denne erklæring og efter samtaler med OnePlus-repræsentanter er det klart for mig, at de ikke har implementeret denne mekanisme af ren og skær ondskab, men fordi de ønskede at vise ydeevne "egenskaber" af enhed. Men endnu en gang må vi påpege, at "kapaciteter" her (og til dem) refererer til spidspotentiale, ikke det faktiske niveau af ydeevne brugeroplevelsen er bundet til at levere gennem traditionel frekvens skalering. Enig eller uenig, det er bekræftet, at denne benchmark-manipulation vil forblive, selvom vi har foreslået muligheden at gøre en sådan ydeevneprofil brugertilgængelig for udvalgte applikationer, og jeg tror, at OnePlus er modtagelig for det ide. Der er andre virksomheder, der gør sådanne tweaks brugertilgængelige, herunder HTC og Samsung, selvom deres løsninger drejer sig for det meste om faldende strømforbrug (selvom ændringer i opløsning pr. app øger ydeevnen i spil, også).

Faktum er, at benchmark-producenter, Android-ingeniører og entusiaster ser disse mekanismer som uretfærdige, urepræsentative for brugeroplevelse, en smule vildledende og i sidste ende spild af ressourcer, der kunne være gået til et andet aspekt af produktudvikling. Hvis du vil se, hvor hårdt OnePlus 5 kan presse sin hardware, så er du sandsynligvis enig i OnePlus' beslutning. Hvis du vil se, hvordan OnePlus 5s kombination af hardware og standardsoftware sammenlignes med andre enheder med lignende hardware, du er ude af held, fordi manipulation af CPU-frekvenser på en sådan måde gør scores helt usammenlignelige.

Til sidst, og med fare for at komme ud som konfronterende, vil jeg også gerne bruge et øjeblik på at nævne noget, der var utilfreds med denne rapports modtagelse: det er blevet delt over hele verden tusindvis af gange, og genblogget af tusindvis af forretninger også, men dets budskab og detaljer er enten indhyllet i tåge eller faldet helt sammen vejen. Jeg har set så åbenlys og rystende ukorrekt dækning af denne artikel, med forfærdelige forkerte fremstillinger af, hvad vi sagde, hvad vi fandt, selve mekanismen og OnePlus' udtalelse og planer for fremtiden. Faktisk er her nogle ting, jeg gerne vil have, at sådanne blogs skal vide: OnePlus "tullede" ikke med anmelderenheder; spørgsmålet omfatter også forbrugerenheder; det er en bevidst beslutning fra OnePlus; nej, de fortalte os ikke, at det ville ændre sig; termisk drosling kan være afslappet, men telefonen er ikke i fare for eksplosion; der er ingen "snydekode"; vi er faktisk tilfredse med enhedens faktiske ydeevne, lad være med at fordreje vores ord; Qualcomm har intet at gøre med dette; vi har aldrig "skammet" HTC og Samsung i vores rapporter, vi nævnte dem i forbifarten og for sammenhæng i vores første artikel, på grund af en meget ældre hændelse. Det er kun en brøkdel af de almindelige fejl, jeg ville ønske, jeg kunne løse. Alt for mange artikler og videoer, vi har set, har haft en grundlæggende fejl og misforståelse, som efter vores mening slår de timer med omhyggelig dataindsamling og analyse, der gik ind i denne artikel. Hvad værre er, problemet forværres, når vi læser indiske eller kinesiske blogs, som yderligere ødelægger vores resultater på grund af de iboende vanskeligheder med oversættelse. I sidste ende er vi ekstremt skuffede over teknologiske mediers håndtering af denne rapport, især dem, der brugte vores konklusion til at skrive "hit pieces" mod OnePlus, hvilket vi egentlig aldrig havde til hensigt. Vi sagde det ovenfor, vi sagde det i vores første indtryk, og vi sagde det igen: selve produktet er godt, ydeevnen er fænomenal.