Huawei P20, Nova 3 en Honor Play werden betrapt op bedrog bij benchmarks

Uit een rapport blijkt dat Huawei fraude heeft gepleegd in benchmarks. UL heeft als reactie hierop de Huawei P20/P20 Pro, Huawei Nova 3 en Honor Play van 3DMark verwijderd.

Benchmarks zijn altijd een populaire manier geweest om de prestaties van hardware te meten, zowel op pc als op mobiel gebied. Benchmarkfraude vindt plaats wanneer een apparaatfabrikant op oneerlijke wijze probeert een benchmark te misleiden door de resultaten beter te laten scoren dan ze in werkelijkheid zijn. Valsspelen kan voorkomen bij alle benchmarktests, inclusief tests die de CPU-, systeem- of GPU-prestaties meten. Het voor de hand liggende doel van vals spelen bij benchmarks is dat klanten ervan overtuigd raken dat product A beter is dan product B. Helaas betekent dit dat onderliggende zwakheden in de hardware worden gemaskeerd door bedrog. Simpel gezegd is het een verlies-verliessituatie voor alle partijen die bij de industrie betrokken zijn: chipleveranciers, apparaatfabrikanten en vooral de eindgebruikers.

Valsspelen was meer dan tien jaar geleden wijdverbreid in de pc-wereld, maar gelukkig is de praktijk grotendeels beëindigd. In de mobiele wereld heeft Andrei Frumusanu (nu de mobiele redacteur bij

AnandTech) benchmarkfraude ontdekt op de Exynos-variant van de Samsung Galaxy S4 in 2013. De AnandTech mobiele editors ontdekten vervolgens dat veel smartphoneleveranciers verschillende vormen van benchmarkfraude plegen. Een flink aantal grote smartphones zoals de Galaxy S4 en de Samsung Galaxy Note 3 stonden gelijk verwijderd uit de benchmarks zoals 3DMark, omdat bedrijven als Futuremark ervoor kozen om de apparaatfabrikanten publiekelijk aan te spreken.

Nadat ze in 2013 voor dit gedrag werden aangeklaagd, zijn de meeste apparaatfabrikanten gestopt met het bedrog van benchmarks. Sommige OEM's zoals Meizu hebben nog steeds "Prestatiemodi" in hun gebruikersinterfaces, maar dergelijke modi kunnen meestal door de gebruiker worden geconfigureerd. Afgelopen jaar, we hebben bewijs gevonden dat OnePlus vals speelde in een aantal populaire benchmarks zoals Geekbench. OnePlus gestopt met de praktijk de OnePlus 5T, en over het algemeen leek het bedrog van benchmarks tot het verleden te behoren.

Een nieuwe ontwikkeling heeft deze valse veronderstelling gecorrigeerd. AnandTech redacteuren Andrei Frumusanu en Ian Cutress hebben dat gedaan een rapport gepubliceerd met details over geverifieerde gevallen van benchmarkfraude in GPU-benchmarks van Huawei- en Honor-smartphones uit 2018, zoals de Huawei P20, Huawei P20 Pro en de Honor Play.

Samenvatting: Huawei/Honor-telefoons uit 2018 betrapten zich op vals spelen in GPU-benchmarks

AnandTech merkt op dat bij hun recensiewaren de prestaties van de Huawei P20 achteruitgegaan in vergelijking met de Huawei Mate 10 Pro. Destijds kreeg de publicatie van Huawei te horen dat het om een firmwareprobleem ging, maar in werkelijkheid was dat niet het geval. De nieuwere telefoons van Huawei en Honor werden geleverd met een benchmark-detectiemechanisme dat maakt een veel hogere vermogenslimiet mogelijk voor de SoC met een hogere thermische speelruimte.

Zoals uitgelegd door AnandTechDit betekent dat voor bepaalde applicaties op de witte lijst de nieuwste Huawei- en Honor-telefoons veel beter presteren in vergelijking met wat gebruikers zullen verwachten van andere vergelijkbare software die niet op de witte lijst staat. Deze praktijk resulteert in een hoger energieverbruik, een lagere efficiëntie en een kortere levensduur van de batterij.

Het nettoresultaat is dat de prestatiecijfers hoger zijn dan ze eigenlijk zouden moeten zijn. Deze cijfers zijn onrealistisch voor elke gebruiker in een echt prestatiescenario. De publicatie stelt ook dat de efficiëntie van de SoC hierdoor afneemt, omdat deze "goed wordt gepusht". buiten het standaardwerkvenster." Al met al zorgt het ervoor dat de SoC er slechter uitziet omwille van een hogere benchmark cijfers.

AnandTech stelt dat het benchmarkgedrag van Huawei alles overtreft wat de publicatie in het verleden heeft gezien. De publicatie maakte gebruik van aangepaste edities van benchmarks, zodat ze konden testen met de detectiemodus aan en uit. In hun woorden zijn de enorme prestatieverschillen tussen de openbaar beschikbare benchmarks en de interne versies die ze gebruiken “absoluut verbazingwekkend”.

GFXBench scoort op het eerspel (Kirin 970) met Benchmarkdetectie uit versus aan. Bron: AnandTech.

Huawei's reactie op AnandTech's rapport

AnandTech sprak met Dr. Wang Chenglu, President Software bij Huawei's Consumer Business Group. Dr. Chenglu gaf toe dat het bedrijf vals speelde bij het benchmarken omdat "anderen hetzelfde doen, hoge scores halen en Huawei niet kan zwijgen."

Dr. Chenglu verklaarde dat Huawei "samen met anderen in China wil komen om de beste verificatiebenchmark voor gebruikerservaring te vinden." Hij wees op andere fabrikanten die misleidend waren met hun cijfers, waarbij een naamloze populaire smartphonefabrikant in China als de grootste werd genoemd dader. Volgens hem wordt het frauderen met benchmarks ‘een gangbare praktijk in China’, en hoewel Huawei zich ‘open wil stellen’ voor consumenten, hebben ze er moeite mee als concurrenten ‘voortdurend berichten posten’. onrealistische scores." Huawei probeert het hoofd te bieden aan zijn grote Chinese concurrentie, een taak die schijnbaar moeilijk wordt gemaakt wanneer andere apparaatfabrikanten onrealistische scores produceren cijfers.

Het doel van Huawei is om benchmarks te standaardiseren om een gelijk speelveld te creëren, zo vertelden ze AnandTech dat ze willen dat de media helpen. Als AnandTech merkt echter op dat Huawei er reclame voor maakt eigen onrealistische scores voor nu.

Huawei's reactie op de AnandTech rapport is dat het bedrijf zal ervoor zorgen dat toekomstige benchmarkgegevens in presentaties onafhankelijk worden geverifieerd door derden op het moment van de aankondiging.

AnandTech's bevindingen in detail

AnandTech vonden een verrassend verschil in de scores van hun interne versies van GPU-benchmarks in vergelijking met de openbaar beschikbare benchmarks. De publicatie testte de Huawei P20, Huawei P20 Pro en de Honor Play. Alle telefoons presteerden vrijwel identiek in de hogere energiemodus omdat ze hetzelfde HiSilicon delen Kirin 970 SoC. De werkelijke prestaties van de telefoons variëren echter aanzienlijk, omdat ze allemaal verschillende thermische limieten hebben. De verschillende thermische limieten zijn te wijten aan hun verschillende chassis-/koelingsontwerpen, zoals AnandTech uitgelegd. De Huawei P20 Pro heeft de beste thermische eigenschappen (omdat hij groter en duurder is dan de andere twee) en kan daarom beter presteren in zijn echte prestaties staat.

Een belangrijk punt dat in de publicatie naar voren wordt gebracht, is het verschil in de methode van benchmarkfraude. De heer Frumusanu verklaarde:

"In het verleden hebben we gezien dat leveranciers de SoC-frequenties daadwerkelijk hebben verhoogd of op hun maximale niveau hebben gezet, waardoor de prestaties hoger zijn geworden dan wat normaal gesproken beschikbaar is voor generieke applicaties. Wat Huawei in plaats daarvan doet, is het verbeteren van de benchmarkscores door het vanuit de andere richting te benaderen: de Benchmarktoepassingen zijn de enige gebruiksscenario's waarbij de SoC daadwerkelijk presteert zoals geadverteerd snelheden. Ondertussen wordt elke andere toepassing in de echte wereld in aanzienlijke mate onder die toestand gesmoord vanwege de thermische beperkingen van de hardware. Wat we uiteindelijk zien bij onbeperkte prestaties is misschien wel de ‘echte’ vorm van een onbeperkte SoC, hoewel dit is volledig academisch als je het vergelijkt met wat gebruikers daadwerkelijk ervaren." - Andrei Frumusanu en Ian Cutress, AnandTech

De vermogensgrafieken laten zien dat Huawei's nieuwste telefoons in hun werkelijke prestatieniveau al 3,5-4,4 W bereiken, terwijl een TDP van 3,5 W het maximale bereik is dat kan worden volgehouden. Aan de andere kant gaat de telefoon overdrive met TDP bij het uitvoeren van de openbaar beschikbare benchmarks, met vermogenscijfers die boven de 6W gaan en pieken op 8,5W. Zoals opgemerkt door AnandTechDeze cijfers veroorzaken snel een melding over oververhitting op het apparaat, wat aangeeft dat de thermische limieten niet overeenkomen met de softwareverwachtingen.

Waarschuwing voor oververhitting op Huawei/Honor-apparaten. Bron: AnandTech.

De conclusie hier is dat de werkelijke prestatiecijfers niet stabiel zijn, omdat ze afhankelijk zijn van de temperatuur van de telefoon. Huawei blokkeert niet dat de GPU de hoogste GPU-frequentiestatus bereikt. Het standaardgedrag is eigenlijk een "hard thermisch throttling-mechanisme [...] dat zal proberen aanzienlijk lagere SoC-temperatuurniveaus en algemeen energieverbruik te handhaven."

De normale modus van de telefoons kan tijdens de GPU-benchmarks dezelfde piekstroomverbruikcijfers bereiken als die van de niet-gekrompen varianten. Echter deze cijfers snel aanzienlijk terugvallen, En AnandTech merkt op dat de telefoon in sommige gevallen wordt verlaagd tot 2,2 W, wat tot gevolg heeft dat de prestaties aanzienlijk afnemen.

De publicatie stelt dat het bedroggedrag schijnbaar de maatstaf is is pas dit jaar geïntroduceerd op de apparaten van dit jaar. Telefoons zoals de Huawei Mate 9 en de Huawei P10 worden niet getroffen, en het lijkt erop dat alleen EMUI 8.0 en nieuwere apparaten getroffen worden. AnandTech kreeg ook van Huawei te horen dat dit "puur een software-implementatie" was, wat de bevindingen van de publicatie bevestigde.

AnandTech geposte werkelijke cijfers over GPU-prestaties voor de getroffen Kirin 970-telefoons, en de conclusie is dat Huawei loopt aanzienlijk achter op zijn concurrenten wat betreft zowel GPU-prestaties als efficiëntie.

De publicatie plaatste ook vermogensvergelijkingsgrafieken voor de Kirin 970- en Kirin 960-aangedreven Huawei-apparaten. De grafieken laten zien dat Huawei's aanpassingen aan de stroombeperking in feite beter zijn voor de gebruikerservaring, omdat ze het probleem van een hoger energieverbruik verzachten. AnandTech's Uit tests van de Kirin 960 bleek dat deze "vreselijke GPU-vermogenskenmerken" had, terwijl de Kirin Apparaten met 970-voeding hebben een nieuw, strikt beperkingsmechanisme om het stroomverbruik terug te dringen temperaturen.

AnandTech voegt eraan toe dat het nieuwe beperkingsbeleid zinvol is als je bedenkt dat zowel de Kirin 960 als de Kirin 970 laat een stroomverbruik zien dat veel boven het duurzame niveau ligt voor hun respectieve vormfactoren.

Voor alle duidelijkheid: Huawei heeft niets verkeerd gedaan met de introductie van het nieuwe throttling-mechanisme. De grote fout hier is het uitsluiten van populaire benchmarkapplicaties via een witte lijst, wat in dit geval benchmarkfraude wordt genoemd.

Reactie: officiële verklaring van Huawei

Huawei stuurde ons de volgende verklaring over benchmarkfraude:

Huawei geeft altijd prioriteit aan de gebruikerservaring in plaats van hoge benchmarkscores na te streven – vooral omdat er geen direct verband bestaat tussen smartphonebenchmarks en gebruikerservaringen. Huawei-smartphones gebruiken geavanceerde technologieën zoals AI om de prestaties van hardware, waaronder de CPU, GPU en NPU, te optimaliseren.

Wanneer iemand een fotografie-app start of een grafisch intensieve game speelt, zorgt de intelligente software van Huawei voor een soepele en stabiele gebruikerservaring door de volledige mogelijkheden van de hardware toe te passen en tegelijkertijd de temperatuur en het vermogen van het apparaat te beheren efficiëntie. Voor toepassingen die niet zo energie-intensief zijn als surfen op internet, worden alleen de bronnen toegewezen die nodig zijn om de benodigde prestaties te leveren.

In normale benchmarkingscenario's past de software van Huawei, zodra deze een benchmarkingtoepassing herkent, zich op intelligente wijze aan de "Performance Mode" aan en levert optimale prestaties. Huawei is van plan gebruikers toegang te geven tot de ‘Performance Mode’, zodat ze het maximale vermogen van hun apparaat kunnen gebruiken wanneer dat nodig is.

Huawei is – als marktleider – bereid om met partners samen te werken om de beste benchmarkingstandaarden te vinden die de gebruikerservaring nauwkeurig kunnen evalueren.

De belangrijkste conclusie hier is dat het bedrijf dat is van plan om gebruikers toegang te geven tot de "Prestatiemodus" (Meizu-stijl), zodat de gebruikers het "maximale vermogen" van hun apparaat kunnen gebruiken "wanneer dat nodig is."

Reactie: UL schrapt de getroffen Huawei- en Honor-telefoons uit haar benchmarks

UL, die Futuremark (het bedrijf achter PCMark en 3DMark) heeft overgenomen, heeft de Huawei P20, Huawei P20 Pro, Huawei Nova 3 en de Honor Play van 3DMark verwijderd. Het bedrijf heeft benchmark-fraude op de Huawei P20 Pro, Huawei Nova 3 en de Honor Play geverifieerd. Op basis van AnandTech's testen en rapporteren, heeft het ook de standaard Huawei P20 geschrapt. Gebruikers zullen de benchmarkresultaten van de getroffen telefoons niet langer kunnen bekijken, omdat het bedrijf geen valse benchmarkscores wil hosten.

Het bedrijf ontdekte dat de scores van de openbare 3DMark-app tot 47% hoger waren dan de scores van de privé-app (die niet beschikbaar is voor het publiek), ondanks het feit dat de tests dat wel zijn identiek.

In de aankondiging voegde UL eraan toe dat het blij was om te zien dat Huawei zich ertoe heeft verbonden in de toekomst een transparantere aanpak te hanteren. De mening van UL is dat optionele prestatiemodi die door de gebruiker kunnen worden ingesteld, onder de huidige regels zijn toegestaan zolang ze standaard uitgeschakeld zijn. Het bedrijf stelt: "Een apparaat moet de benchmark uitvoeren alsof het een andere applicatie is."

Concluderend mogen alle prestatiebenchmarks van Huawei GPU's die zijn genomen met behulp van openbaar beschikbare benchmarks niet worden beschouwd als een weergave van de daadwerkelijke prestaties.

Reactie: UL en Huawei brengen een gezamenlijke verklaring uit

Als reactie op het besluit van UL om de Huawei P20, Huawei P20 Pro, Huawei Nova 3 en de Honor Play van 3DMark te verwijderen, nam Huawei contact op met UL om de beste praktijken voor benchmarktests te bespreken. Hier is de verklaring die ons wordt aangeboden:

Huawei en UL (makers van 3DMark) hebben deze week uitgebreide discussies gevoerd over benchmarkingpraktijken en hebben een positieve overeenkomst bereikt over de volgende stappen in de samenwerking.

In de discussie legde Huawei uit dat zijn smartphones een kunstmatig intelligent mechanisme voor resourceplanning gebruiken. Omdat verschillende scenario's verschillende hulpbronnen nodig hebben, maken de nieuwste Huawei-handsets gebruik van innovatieve technologieën zoals kunstmatige intelligentie optimaliseer de toewijzing van middelen op een manier zodat de hardware zijn capaciteiten optimaal kan demonstreren en tegelijkertijd aan de eisen van de gebruikers kan voldoen scenario's.

UL begrijpt de bedoeling van Huawei’s aanpak, maar is er tegen om standaard het gebruik van een “Performance Mode” te forceren wanneer een benchmarkingapplicatie door het apparaat wordt gedetecteerd. UL-regels vereisen dat een apparaat de benchmark uitvoert alsof het een andere applicatie is.

Huawei respecteert het recht van consumenten om te kiezen wat ze met hun apparaten doen. Daarom zal Huawei gebruikers open toegang bieden tot de “Performance Mode” in EMUI 9.0, zodat de gebruiker kan kiezen wanneer hij het maximale vermogen van zijn apparaat wil gebruiken.

Huawei en UL hebben ook de huidige gemeenschappelijke benchmarktestmethoden in het algemeen besproken. UL en Huawei willen graag deelnemen aan een branchebeweging om benchmarkingstandaarden te ontwikkelen die het beste tegemoetkomen aan de behoeften van fabrikanten, pers en consumenten.

Om verwarring rond de huidige benchmarkresultaten te voorkomen, hebben UL en Huawei na discussie de benchmark tijdelijk geschrapt scores van een reeks Huawei-apparaten, en zal deze herstellen nadat Huawei alle gebruikers van Huawei-handsets toegang tot de Performance heeft verleend Modus.