En rapport sier at Huawei har blitt funnet juks i benchmarks. UL fjernet Huawei P20/P20 Pro, Huawei Nova 3 og Honor Play fra 3DMark som svar.
Benchmarks har alltid vært en populær måte å måle ytelsen til maskinvare, både på PC og mobil. Benchmark-juks oppstår når en enhetsprodusent urettferdig prøver å spille en benchmark ved å få resultatene til å score bedre enn de faktisk er. Juks kan skje i alle benchmark-tester, inkludert de som måler CPU-, system- eller GPU-ytelsene. Det åpenbare målet med å jukse ved benchmarks er at kundene skal være overbevist om at produkt A er bedre enn produkt B. Dessverre betyr dette at underliggende svakheter i maskinvare blir maskert av juks. Enkelt sagt er det en tap-tap-situasjon for alle involverte parter i bransjen: chipleverandører, enhetsprodusenter og mest av alt sluttforbrukere.
Fusk var utbredt i PC-området for mer enn et tiår siden, men heldigvis er praksisen for det meste avsluttet. I mobilverdenen er Andrei Frumusanu (nå mobilredaktør på AnandTech
) oppdaget benchmark-juks på Exynos-varianten av Samsung Galaxy S4 i 2013. De AnandTech mobile redaktører oppdaget deretter forskjellige varianter av benchmark-juks som ble utført av mange smarttelefonleverandører. Ganske mange store smarttelefoner som Galaxy S4 og Samsung Galaxy Note 3 var jevne avnotert fra benchmarks som 3DMark, ettersom selskaper som Futuremark valgte å offentlig kalle enhetsprodusentene.Etter å ha blitt ropt ut i 2013 for denne oppførselen, har de fleste enhetsprodusenter sluttet å jukse med benchmark. Noen OEM-er som Meizu har fortsatt "Ytelse"-moduser i brukergrensesnittene, men slike moduser kan stort sett konfigureres av brukeren. I fjor, vi fant bevis på at OnePlus jukset i noen populære benchmarks som Geekbench. OnePlus stoppet praksisen med OnePlus 5T, og i det store og hele, så ut til at benchmark-juks har blitt en saga blott.
En ny utvikling har korrigert denne falske antagelsen. AnandTech redaktører Andrei Frumusanu og Ian Cutress har publiserte en rapport detaljer om verifiserte tilfeller av benchmark-juks utført i GPU-benchmarks av 2018 Huawei og Honor-smarttelefoner som Huawei P20, Huawei P20 Pro og Honor Play.
Sammendrag: Huawei/Honor-telefoner fra 2018 ble tatt for juks i GPU-standarder
AnandTech bemerker at i deres anmeldelse, hadde Huawei P20s ytelse gått tilbake sammenlignet med Huawei Mate 10 Pro. På den tiden ble publikasjonen fortalt av Huawei at det var et fastvareproblem, men i virkeligheten var det ikke tilfelle. Huawei og Honors nyere telefoner kom med en benchmark deteksjonsmekanisme som muliggjør en mye høyere effektgrense for SoC med høyere termisk takhøyde.
Som forklart av AnandTech, betyr dette at for visse hvitelistede applikasjoner gir de nyeste Huawei- og Honor-telefonene mye høyere ytelse sammenlignet med hva brukere vil forvente fra annen lignende programvare som ikke er godkjent. Denne praksisen resulterer i høyere forbrukt strøm, lavere effektivitet og redusert batterilevetid.
Nettoresultatet er at ytelsestallene er høyere enn hva de egentlig burde være. Disse tallene er urealistiske å oppnå for enhver bruker i et ekte ytelsesscenario. Publikasjonen sier også at effektiviteten til SoC reduseres når du gjør dette, da den blir "dyttet godt" utenfor standard driftsvindu." Alt i alt får det SoC til å se dårligere ut av hensyn til høyere benchmark tall.
AnandTech uttaler at Huaweis benchmark-adferd overgår alt publikasjonen har sett tidligere. Publikasjonen brukte tilpassede utgaver av benchmarks, slik at de kan teste med deteksjonsmodus på og av. Med deres ord er de enorme forskjellene i ytelse mellom de offentlig tilgjengelige benchmarkene og de interne versjonene de bruker "helt forbløffende."
Huaweis svar på AnandTechsin rapport
AnandTech snakket med Dr. Wang Chenglu, president for programvare i Huaweis Consumer Business Group. Dr. Chenglu innrømmet at selskapet jukset med benchmarking fordi "andre gjør det samme, får høye score, og Huawei kan ikke tie."
Dr. Chenglu uttalte at Huawei "ønsker å komme sammen med andre i Kina for å finne den beste verifiseringsstandarden for brukeropplevelse." Han pekte på andre produsenter som villede med tallene sine, og siterte en navngitt populær smarttelefonprodusent i Kina som den største skyldige. Ifølge ham er benchmark-juks i ferd med å bli «vanlig praksis i Kina», og mens Huawei ønsker å «åpne opp» for forbrukere, har de problemer når konkurrenter «kontinuerlig legger ut innlegg» urealistiske resultater." Huawei prøver å møte sin store kinesiske konkurranse, en oppgave som tilsynelatende blir vanskelig når andre enhetsprodusenter produserer urealistiske resultater tall.
Huaweis mål er standardisering av benchmarks for å utjevne konkurransevilkårene, og de fortalte AnandTech at de vil at media skal hjelpe. Som AnandTech bemerker imidlertid at Huawei promoterer sin egen urealistiske resultater for nå.
Huaweis reaksjon på AnandTech rapporten er det selskapet vil sikre at fremtidige benchmarkdata i presentasjoner blir uavhengig verifisert av tredjeparter på tidspunktet for kunngjøringen.
AnandTechsine funn i detalj
AnandTech fant en overraskende forskjell i poengsummene produsert av deres interne versjoner av GPU-referanser sammenlignet med de offentlig tilgjengelige benchmarkene. Publikasjonen testet Huawei P20, Huawei P20 Pro og Honor Play. Alle telefoner presterte nesten identisk i høyere effektmodus fordi de deler samme HiSilicon Kirin 970 SoC. Den virkelige ytelsen til telefonene varierer imidlertid betydelig ettersom de alle har forskjellige termiske grenser. De forskjellige termiske grensene er på grunn av deres forskjellige chassis/kjøledesign, som AnandTech forklart. Huawei P20 Pro har den beste termikken (fordi den er større og dyrere enn de to andre), og den kan derfor yte bedre i sin ekte ytelse stat.
Et viktig poeng som tas opp av publikasjonen er forskjellen i metoden for benchmark-juks. Mr. Frumusanu uttalte:
"Tidligere har vi sett leverandører faktisk heve SoC-frekvensene, eller låse dem til deres maksimale tilstander, noe som øker ytelsen utover det som vanligvis er tilgjengelig for generiske applikasjoner. Det Huawei i stedet gjør er å øke benchmark-score ved å komme til det fra den andre retningen - benchmarking-applikasjoner er de eneste brukstilfellene der SoC faktisk presterer til det annonserte hastigheter. I mellomtiden er alle andre applikasjoner i den virkelige verden strupet i betydelig grad under denne tilstanden på grunn av de termiske begrensningene til maskinvaren. Det vi ender opp med å se med ukontrollert ytelse er kanskje den "sanne" formen for en ubegrenset SoC, selv om dette er helt akademisk sammenlignet med hva brukerne faktisk opplever." - Andrei Frumusanu og Ian Cutress, AnandTech
Effektgrafene viser at Huaweis nyeste telefoner allerede når 3,5-4,4W i sin sanne ytelsestilstand, mens 3,5W TDP er den maksimale mengden som kan opprettholdes. På den annen side går telefonen i overdrive med TDP når den utfører de offentlig tilgjengelige benchmarkene, med effekttall som går over 6W og topper på 8,5W. Som bemerket av AnandTech, utløser disse tallene raskt en overopphetingsvarsel på enheten, noe som indikerer manglende samsvar mellom termiske grenser og programvareforventninger.
Takeawayen her er at de sanne ytelsestallene ikke er stabile da de avhenger av telefonens temperatur. Huawei blokkerer ikke GPU-en fra å nå sin høyeste GPU-frekvenstilstand. Standardoppførselen er faktisk en "hard termisk strupemekanisme [...] som vil prøve å opprettholde betydelig lavere SoC-temperaturnivåer og totalt strømforbruk."
Telefonenes normale modus kan nå de samme maksimale strømforbrukstallene under GPU-standardene som de som er lagt ut av de ukontrollerte variantene. Imidlertid disse tallene raskt falle betydelig tilbake, og AnandTech bemerker at telefonen struper ned til 2,2W i noen tilfeller, noe som gir en betydelig reduksjon i ytelsen.
Publikasjonen opplyser at benchmark juks atferd har tilsynelatende bare blitt introdusert i årets enheter. Telefoner som Huawei Mate 9 og Huawei P10 er ikke berørt, og det ser ut til at kun EMUI 8.0 og nyere enheter er berørt. AnandTech ble også fortalt av Huawei at dette var "rent en programvareimplementering", noe som bekreftet publikasjonens funn.
AnandTech la ut sanne tall for GPU-ytelse for de berørte Kirin 970-drevne telefonene, og konklusjonen er at Huawei er betydelig bak konkurrentene både når det gjelder GPU-ytelse og effektivitet.
Publikasjonen la også ut kraftsammenligningsgrafer for Kirin 970 og Kirin 960-drevne Huawei-enheter. Grafene viser at Huaweis strømreguleringsjusteringer faktisk er bedre for brukeropplevelsen ettersom de reduserer problemet med høyere strømforbruk. AnandTech sin testing av Kirin 960 viste at den hadde "forferdelige GPU-kraftegenskaper", mens Kirin 970-drevne enheter har en ny streng strupemekanisme for å få ned strømforbruket og temperaturer.
AnandTech legger til at den nye strupepolitikken er fornuftig når man tar i betraktning det faktum at både Kirin 960 og Kirin 970 viser krafttrekk som er mye over deres bærekraftige nivåer for deres respektive formfaktorer.
For å være tydelig, har Huawei ikke gjort galt med å introdusere den nye strupemekanismen. Den store feilen her er utelukkelsen av populære benchmark-applikasjoner via en hviteliste, som er det som omtales som benchmark-juks i dette tilfellet.
Svar: Huaweis offisielle uttalelse
Huawei sendte følgende uttalelse til oss om benchmark-juks:
Huawei prioriterer alltid brukeropplevelsen fremfor å forfølge høye referanseresultater – spesielt siden det ikke er en direkte forbindelse mellom smarttelefonreferanser og brukeropplevelser. Huawei-smarttelefoner bruker avanserte teknologier som AI for å optimalisere ytelsen til maskinvare, inkludert CPU, GPU og NPU.
Når noen starter en fotograferingsapp eller spiller et grafisk-intensivt spill, skaper Huaweis intelligente programvare en jevn og stabil brukeropplevelse ved å bruke alle funksjonene til maskinvaren, samtidig som du administrerer enhetens temperatur og strøm effektivitet. For applikasjoner som ikke er så strømkrevende som å surfe på nettet, vil den bare tildele ressursene som er nødvendige for å levere ytelsen som trengs.
I normale benchmarking-scenarier, når Huaweis programvare gjenkjenner en benchmarking-applikasjon, tilpasser den seg intelligent til "Performance Mode" og leverer optimal ytelse. Huawei planlegger å gi brukere tilgang til "Performance Mode" slik at de kan bruke maksimal kraft til enheten når de trenger det.
Huawei – som industrileder – er villig til å samarbeide med partnere for å finne de beste benchmarking-standardene som kan evaluere brukeropplevelsen nøyaktig.
Det viktigste her er at selskapet er det planlegger å gi brukere tilgang til "Performance Mode" (Meizu-stil) slik at brukerne kan bruke "maksimal kraft" til enheten sin "når de trenger å."
Svar: UL fjerner de berørte Huawei- og Honor-telefonene i sine benchmarks
UL, etter å ha kjøpt Futuremark (selskapet bak PCMark og 3DMark), har fjernet Huawei P20, Huawei P20 Pro, Huawei Nova 3 og Honor Play fra 3DMark. Selskapet har verifisert benchmark-juks på Huawei P20 Pro, Huawei Nova 3 og Honor Play. På grunnlag av AnandTech sin testing og rapportering, har den også fjernet standard Huawei P20. Brukere vil ikke lenger kunne se referanseresultatene for de berørte telefonene, siden selskapet ikke ønsker å være vert for jukse referanseresultater.
Selskapet fant ut at poengsummene fra den offentlige 3DMark-appen var opptil 47 % høyere enn poengsummene fra den private appen (som ikke er tilgjengelig for allmennheten), til tross for at testene er det identisk.
I kunngjøringen la UL til at det var glad for å se Huawei forplikte seg til å ta i bruk en mer transparent tilnærming i fremtiden. ULs syn er at valgfrie ytelsesmoduser som kan settes av brukeren er tillatt under gjeldende regler så lenge de er deaktivert som standard. Selskapet opplyser: "En enhet må kjøre benchmark som om det var en hvilken som helst annen applikasjon."
Konklusjonen er at alle Huawei GPU-ytelsesreferanser som ble tatt med offentlig tilgjengelige benchmarks, ikke skal tas som en representasjon av faktisk ytelse.
Svar: UL og Huawei gir en felles uttalelse
Som svar på ULs beslutning om å fjerne Huawei P20, Huawei P20 Pro, Huawei Nova 3 og Honor Play fra 3DMark, tok Huawei kontakt med UL for å diskutere beste praksis for benchmark-testing. Her er uttalelsen som tilbys oss:
Huawei og UL (skaperne av 3DMark) har hatt omfattende diskusjoner om benchmarking-praksis denne uken, og har nådd en positiv avtale om de neste trinnene i samarbeidet.
I diskusjonen forklarte Huawei at smarttelefonene deres bruker en kunstig intelligent ressursplanleggingsmekanisme. Fordi ulike scenarier har ulike ressursbehov, utnytter de nyeste Huawei-telefonene innovative teknologier som kunstig intelligens for å optimalisere ressursallokering på en måte slik at maskinvaren kan demonstrere sine evner til fulle, samtidig som de oppfyller brukerkrav på tvers av alle scenarier.
UL forstår intensjonen med Huaweis tilnærming, men er imot å tvinge bruken av en "Performance Mode" som standard når en benchmarking-applikasjon oppdages av enheten. UL-regler krever at en enhet kjører benchmark som om det var en hvilken som helst annen applikasjon.
Huawei respekterer forbrukernes rett til å velge hva de skal gjøre med enhetene deres. Derfor vil Huawei gi brukere åpen tilgang til «Performance Mode» i EMUI 9.0, slik at brukeren kan velge når de skal bruke maksimal kraft på enheten sin.
Huawei og UL har også diskutert gjeldende vanlige benchmark-testmetoder generelt. UL og Huawei ønsker å delta i en bransjebevegelse for å utvikle benchmarking-standarder som best tjener behovene til produsenter, presse og forbrukere.
For å forhindre forvirring rundt nåværende benchmarking-resultater, etter diskusjon, har UL og Huawei midlertidig fjernet referanseindeksen score fra en rekke Huawei-enheter, og vil gjenopprette dem etter at Huawei gir alle brukere av Huawei-telefoner tilgang til ytelsen Modus.