Nedůvěřujte srovnávacím testům OnePlus 5 v recenzích

click fraud protection

OnePlus 5 se opět účastní podvádění srovnávacích testů ve snaze oklamat recenzenty a zákazníky. Jak se jim to povedlo, zjistíte v našem hlavním článku!

Začátkem tohoto roku jsme zveřejnil zprávu, která odsuzovala OnePlus (a další společnosti) za jejich nevhodné chování, pokud jde o manipulaci s benchmarkem na novějších verzích OxygenOS. Dnes musíme bohužel reagovat na naše obvinění, protože společnost opět nevhodně manipulovala s výsledky benchmarků v OnePlus 5.

I když žádný zákazník nemá zařízení v rukou (koneckonců bylo právě spuštěno), dozvěděli jsme se o novém mechanismu podvádění srovnávacích testů OnePlus. prostřednictvím naší kontrolní jednotky, který jsme obdrželi asi před deseti dny před dnem, kdy embargo prolomí a recenzenti se mohou o zařízení hlásit. Bohužel je to téměř jisté každá recenze OnePlus 5, která obsahuje benchmark, používá zavádějící výsledky, protože OnePlus poskytl recenzentům zařízení, které podvádí v benchmarcích. To je neomluvitelný krok, protože se v konečném důsledku jedná o snahu uvést v omyl nejen zákazníky, ale kazit práci recenzentů a novinářů zavádějícími údaji, které většina není schopna prověřit resp ověřit. Výsledkem je, že každá recenze OnePlus 5, která uvádí výsledky benchmarků jako vyznamenání úspěchu telefonu, je zavádějící autory i čtenáře a analýzy výkonu založené na syntetických benchmarkech jsou zneplatněn. Horší je, že tentokrát

Mechanismus podvádění je do očí bijící a zaměřený na maximalizaci výkonu, na rozdíl od minule, kdy se skóre v průměru o mnoho nezvýšilo, ale snížilo se rozptyl a tepelné škrcení, jak jsme našli.

Než se pustíme do podrobností, rád bych uvedl, že jsme ve společnosti zklamáni, že se znovu uchýlila k těmto praktikám. Nebudeme také poskytovat úplnou analýzu výkonu zahrnující všechny naše zahrnuté testy, protože mnoho z našich preferovaných benchmarků je ovlivněno mechanismem podvádění. Nakonec tuto zprávu oddělíme od našeho celkového posouzení samotného zařízení, protože jsme si jisti po této zprávě a našich rozhovorech s OnePlus bude ze spotřebitelských sestav odstraněn kód viníka zástupci. I když tomuto článku nevěříme nezbytně Pokud by mělo změnit vaše vnímání samotného hardwaru, je správné, aby postrčil váš názor na společnost, protože je to jejich druhý prohřešek.


Rychlé slovo o metodice

Všechna skóre v tomto článku byla získána na kontrolní jednotce OnePlus 5 se systémem OxygenOS verze 4.5.0 (A5000_22_170603); toto je předprodukční jednotka a původně na ní byl nahrán předprodukční software, který obdržel OTA k výše uvedené verzi. Společnost OnePlus předala recenzentům pokyny, aby umožnila stahování benchmarkových aplikací Obchod Play, a pravděpodobně to bylo provedeno proto, aby nedošlo k úniku skóre benchmarku čas. Vysvětlilo mi to, že OnePlus odkazoval na benchmarkové balíčky podle jména v jejich ROM. Pokud jde o testování, ROM měla minimální procesy na pozadí bez aplikací třetích stran a tam, kde to bylo možné, spouštěla ​​režim Letadlo; Frekvence CPU byly zaznamenány pouze pro určení rozsahu podvádění a nikoli v testech, které produkovaly skóre pro tento článek. Všechny teploty byly měřeny pomocí a Kompaktní FLIR C2 přičemž každý vytrvalostní běh začíná při vnější teplotě 28,5°C | 83,3 °F.


Manipulace s benchmarkem – jak se to dělá

Loni v lednu naše zpráva odhalila podvodný mechanismus nalezený v sestaveních OxygenOS Beta a v doručovacím softwaru OnePlus 3T. Tyto změny jsme připisovali nedávné sloučení tehdy nesourodých OxygenOS a HydrogenOS vývojářské týmy a základní kódová základna OxygenOS, která měla být nyní sdílena s HydrogenOS, i když tato spekulace musí být ještě potvrzena. V té době nám to dávalo smysl a komentáře zástupců OnePlus pro XDA-Developers dodaly naší teorii na důvěryhodnosti. U OnePlus 5 vidíme jiný druh podvádění, ale nemůžeme určit, zda to bylo vědomě představeno stejnými vývojáři, kteří jej přidali poprvé. Víme jen, že cílí na stejné balíčky.

Jak to tedy funguje a jaký je v tom rozdíl? Naposledy OnePlus zavedl změny v chování své ROM, kdykoli zjistil, že byla otevřena benchmarková aplikace. Takové názvy aplikací byly explicitně uvedeny podle jejich ID balíčků v ROM v manifestu, který specifikoval cíle. Poté by ROM změnila frekvenci ve vztahu k upravenému zatížení CPU – naše nástroje ukázaly, že zatížení CPU klesne na 0 % bez ohledu na zřejmá aktivita v rámci aplikace a CPU by viděl téměř minimální frekvenci 1,29 GHz u velkých jader a 0,98 GHz u malých jádra. Tato minimální frekvence snížila efektivní frekvenční rozsah, což zase snížilo počet krokových frekvencí; v benchmarcích to vedlo k mírně nižšímu rozptylu a, jak jsme ukázali, k vyššímu trvalému výkonu, protože vyšší minimální frekvence nemohla být potlačena tepelným škrcení. Stručně řečeno, podvádění bylo jasné a prokazatelné jak při pohledu na rozptyl skóre, tak na základě sledování frekvencí CPU v průběhu benchmark, který ukázal frekvenční minimum, které - z velké části - umožnilo zařízení konzistentně bodovat blíže k jeho plnému potenciálu.

Na druhou stranu OnePlus 5 je úplně jiná bestie – uchýlí se k druhu zjevných, vypočítavých mechanismů podvádění jsme viděli ve vlajkových lodích v počátcích Androidu, což je přístup, který je jasně určen k maximalizaci skóre v těch nejzavádějících móda. I když neexistují žádné přepínače guvernérů, když uživatel vstoupí do benchmarku (alespoň se nám to nezdá vidět je tomu tak), minimální frekvence malého shluku vyskočí na maximální frekvenci, jak je vidět u regulátorů výkonu. Všechna malá jádra jsou ovlivněna a udržována na 1,9 GHz a právě díky tomuto cheatu OnePlus dosahuje jedny z nejvyšších GeekBench 4 skóre Snapdragonu 835 k dnešnímu dni – a pravděpodobně nejvyšší dosažitelné vzhledem k jeho nekompromisní konfiguraci s jeho specifickým konfigurace. Skóre rozhodně vyšší než skóre získané podobnými zařízeními a vlastním testovacím zařízením Qualcomm MSM8998 které jsme měli to štěstí porovnávat. Níže je uveden seznam dotčených benchmarkových aplikací:

  • AnTuTu (com.antutu.benchmark.full)
  • Androbench (com.andromeda.androbench2)
  • Geekbench 4 (com.primatelabs.geekbench)
  • GFXBench (com.glbenchmark.glbenchmark27)
  • Kvadrant (com.aurorasoftworks.quadrant.ui.standard)
  • Nenamark 2 (se.nena.nenamark2)
  • Vellamo (com.quicinc.vellamo)

Co je naprosto nepřekvapivé dotčené aplikace jsou úplně stejné jako minulea OnePlus se jasně zaměřuje na stejné balíčky. Rozdíl ve skóre je z větší části přesně takový, jaký byste očekávali. Podařilo se nám zfalšovat podvádění benchmarků a vyhnout se mu pomocí GeekBench 4, podobně jako při našem testování v naší poslední zprávě. Zjistili jsme, že při spuštění GeekBench 4 z Obchodu Play dosáhlo zařízení více než 6 700 bodů ve vícejádrových, zatímco jsme nikdy nezískali skóre 6 500, jakmile se zařízení chová podle očekávání s naší skrytou sestavou GeekBench. Níže můžete vidět graf frekvence v průběhu času pro malý cluster OnePlus 5 při spuštění GeekBench 4 z Obchodu Play, a stejná konfigurace běžící na sestavení GeekBench 4 zbavená identifikátorů, která dokáže oklamat podvádění OnePlus mechanismus.

V případě, že to z výše uvedeného grafu není patrné: dotazovali jsme se na frekvenci CPU každých 100 ms a celkem pouze 24,4 % odečtů vrátilo maximální frekvenci 1,9 GHz při deaktivaci cheatování. Mezitím, běh s povoleným podváděním strávil ohromujících 95 % čtení ve stavu maximální frekvence. Je naprosto evidentní, že OnePlus během benchmarku udržuje frekvence CPU těchto jader uměle vysoko, což má za následek výrazně vyšší celkové skóre ve vícejádrovém testu a projevuje se také v různých dílčích skóre vázaných na CPU v podrobném členění každého testu (zejména v celočíselných a pohyblivých operace). Rozdíl je však nejzřetelnější a nejvýhodnější ve vícejádrovém skóre a výsledky s jedním jádrem jsou ve skutečnosti překvapivě podobné mezi běhy s a bez podvádění s benchmarkem, přičemž skóre jednoho jádra je ve skutečnosti v průměru vyšší bez manipulace.

Přesto je vícejádrový údaj, který většina lidí zvažuje a který si okamžitě všimne, když dojde na tento konkrétní benchmark Android je vysoce paralelní operační systém, který je nyní po letech podpory více aplikací plný vícevláknových aplikací jádra. I když je zvýšení smysluplné pouze ve vícevláknových benchmarcích a testech, stále by vedlo ke značnému, nespravedlivému a nereprezentativní výhoda oproti jiným zařízením, která nechají jejich standardní nastavení regulátoru a výkonu pracovat pod benchmark; tyto změněné výsledky v žádném případě nereprezentují skutečný výkon OnePlus 5, jak tomu je odrážející špičkový a jinak nedosažitelný výkon zařízení v umělých podmínkách i bez nich omezení.

Delta skóre Multi Core mezi skóre při spuštění GeekBench 4 s a bez cheatovacího mechanismu může být až 6,5 %, i když v průměru je to kolem 5 %. To by mohlo Koukni se nevýznamné, ale toto pošťuchnutí stačí k tomu, aby zařízení posunulo před ostatní zařízení Snapdragon 835. Nahoře můžete vidět tečkový graf několika nezávislých běhů GeekBench 4 s a bez cheatovacího mechanismu. Propast je zřejmá, a jak lze usoudit z krabicového grafu, nemůže být výsledkem přirozené odchylky. Stručně řečeno, umělé zvýšení frekvencí CPU skutečně přináší mnohem lepší výsledky v syntetických benchmarcích.

Níže můžete vidět graf výkonu v průběhu času s jejich doprovodnými teplotami, jak jsme chtěli určit zda je ve hře také tepelná relaxace, nebo zda došlo k rozdílu ve skóre během udržení benchmarking.

Nastavili jsme testy GeekBench 4 s dvousekundovou přestávkou mezi obrazovkou výsledků a zahájením dalšího běhu benchmarku; teplota externího zařízení (nikoli teplota baterie, jak uvádí Android) byla měřena pomocí tepelného měření FLIR kamera po sekundě kalibrace, průměr ze tří okamžitých měření během dvou sekund mezi nimi běží. Byl jsem spíše překvapen, když jsem viděl, že celkově se tato dvě zařízení zahřívala přibližně stejnou rychlostí a žádné z nich nezaznamenalo pokles skóre. Všechny výsledky v každém souboru dat jsou v rámci očekávaného rozptylu, což naznačuje, že ve hře není žádné tepelné škrcení. Při bližším zkoumání by to nemělo být překvapením vzhledem k trvalému výkonu jedna ze silných stránek jader Cortex-A73, na kterých jsou založena jádra Kryo Snapdragon 835 na. Dotčená jádra jsou energeticky účinná jádra a skutečnost, že GeekBench 4 konkrétně přichází opatření k zabránění škrcení, které mění skóre dílčích testů blízko konce běhu, je něco jsme se dozvěděli z našeho rozhovoru s Johnem Poolem.

Je zajímavé, že ne všechny populární benchmarky jsou zaměřeny na podvádění OnePlus. Například 3DMark ve skutečnosti nezaznamenal žádný z těchto problémů při spuštění testů nebo dokonce otevření aplikace. Jiné benchmarky jako GFXBench jsou však cílené a při jejich otevření a spuštění vidíme stejné chování CPU. Ve skutečnosti během trvalého výkonu pomocí testu GFXBench Manhattan Battery Test OnePlus 5 dosáhl teplot přes 50 °C | 122°F (vnější teplota), a velmi vzácný výskyt mezi zařízeními, která jsem testoval v minulosti, u všech dochází k určitému stupni tepelného škrcení, které jim brání v dosažení tohoto horký.


Oklam mě jednou, styď se za mě; Oklam mě dvakrát, styď se

Je trochu znepokojivé, že se to dostalo do bodu, kdy musíme dvakrát zavolat stejnou společnost, aby manipulovala s výsledky benchmarků. Skutečnost, že toto vše bylo provedeno také na kontrolních jednotkách, dále zhoršuje problém: tento mechanismus podvádění je zaměřena na maximalizaci výkonu a na to, aby zařízení vypadalo lépe nebo rychleji ve výkonnostních sekcích recenzí. Zaměřovací a manipulační systém byl zabalen v předprodukčních jednotkách rozeslaných novinářům, kteří je založí zjištění na svém zařízení od OnePlus, mnoho z nich není schopno nebo ochotno ověřit existenci podvádění ve svém revizní jednotka. V žádném případě to není jejich chyba, ale XDA hledá manipulaci s benchmarkem jen proto, že jsme to našli v minulosti a mysleli jsme, že je nejlepší informovat naše čtenáře a potenciální kupce telefonů.

Doufáme, že tento článek může oživit širší konverzaci o benchmarcích, jejich roli a jejich užitečnosti v dnešních recenzích smartphonů. Nenechte se mýlit, společnosti jako Qualcomm a Samsung dělat starají se o měřítka a považují je za platný, i když neúplný způsob, jak je mohou zákazníci posoudit výkon jejich zařízení, i když mají sofistikovanější nástroje, na které se mohou při vývoji svých zařízení odvolávat procesory. V konečném důsledku mohou mít benchmarky velký význam, pokud člověk rozumí tomu, co software měří a do jaké míry lze jeho výsledky použít k odvození hodnocení. konkrétního procesoru, konkrétní konfigurace hardwaru nebo v holističtějším pojetí konkrétního telefonu se změnami v chování, které jeho software zavádí jako studna. Myslím, že jsme se dostali do doby, kdy je důležitější zaměřit se na skutečný výkon a energetickou účinnost než na nezpracované výpočty nebo zpracování. udatnost, protože v tuto chvíli je zjevně jasné, že překážkou pro výkon v reálném světě je Android a jeho konkrétní implementace OEM.

Když se vrátím k OnePlus, opravdu nevím, proč softwarový tým společnosti a konkrétně která strana softwarového týmu znovu zavedl manipulaci s benchmarkem poté, co byl odvolán. Tentokrát je to horší, se zjevným účelem nafouknout skóre produkované recenzentskými telefony. OnePlus 5 je stále neuvěřitelně výkonné zařízení, které opravdu nepotřebuje podvádění srovnávacích testů, aby se vyjádřilo – opravdu mě ohromila jeho plynulost a všeobecnost. schopnost reagovat a po čase stráveném se zařízeními společnosti, jakož i rozhovory a rozhovory s jejich vedením je mi jasné, že vědí, že výkon je silnou stránkou jejich telefony. S největší pravděpodobností je to propočítaný tah, protože mohli přijít na to, že to stálo za to naštvat malý sektor primárně-západní strana trhu nadšenců, aby možná omítla internet s nejvyššími srovnávacími výsledky, jaké mají mohl shromáždit. Ať je to jakkoli, upřímně doufám, že to společnost napraví, protože i když mám o jejich hardwaru skvělé věci, začali s vydáním se špatnou nohou v mých očích.


Prohlášení od OnePlus

Požádali jsme OnePlus o komentář k tomuto problému a zde je to, co řekli:

Lidé používají srovnávací aplikace, aby zjistili výkon svého zařízení, a my chceme, aby uživatelé viděli skutečný výkon OnePlus 5. Proto jsme povolili spouštění benchmarkových aplikací ve stavu podobném každodennímu používání, včetně spouštění aplikací a her náročných na zdroje. Při spouštění aplikací navíc OnePlus 5 běží v podobném stavu, aby se zvýšila rychlost otevírání aplikací. Nepřetaktujeme zařízení, spíše zobrazujeme výkonnostní potenciál OnePlus 5.

Toto prohlášení, které jsme dnes ráno obdrželi, je trochu šokující, protože podvádění srovnávacích testů uvádí zařízení do stavu, výslovně ne jak bude zařízení běžet při každodenním používání, a představuje výkon, který neuvidíte v jiných aplikacích, na které se taková vylepšení konkrétně nezaměřují.

Mějte na paměti, že na rozdíl od konkurenčního přetaktování je většina testů telefonů navržena tak, aby představovala, jak bude telefon fungovat při každodenním používání. Není to jen skóre, které se snaží dosáhnout co nejvyšších výsledků, ale spíše pokus znázornit, jak si telefon vede při běžných tepelných profilech a využití baterie. Pokus o znázornění toho, jak telefon skutečně běží při každodenním používání. Tyto benchmarky nejsou určeny k měření nějakého „výkonového potenciálu“, který není v reálném světě dosažitelný použití a jakékoli pokusy zacílit na ně pomocí srovnávacího kódu ve stylu „poraženého zařízení“ jsou pro uživatele zavádějící. Pokud uzamknete rychlosti hodin CPU na jejich maximální hodnotu a umožníte, aby se tělesná teplota telefonu zvýšila na nepoužitelnou hodnotu úrovně při otevření určitých aplikací, pak to neznamená, jak bude telefon ve skutečnosti fungovat použití.

Zatímco tepelný profil byl relativně normální u CPU heavy Geekbench 4, kde fantastický trvalý výkon Kryo 280 jader na bázi ARM Cortex-A73 umožňuje Aby telefon běžel se zvýšenou úrovní využití baterie, kterou přineslo podvádění benchmarků, aniž by se příliš zahříval, viděli jsme úplně jiný příběh s aplikacemi náročnými na GPU. Jak již bylo zmíněno, při testování trvalého výkonu pomocí testu GFXBench Manhattan Battery Test dosáhl OnePlus 5 teploty kolem 50°C | 122 °F (vnější teplota), což je na telefon spalující horko, a je důkladně nepohodlné držet. Pokoušíte se hrát videohry nebo používat jiné aplikace náročné na GPU s teplotou 50 °C | 122°F telefon by byl jen špatný uživatelský zážitek.

I když OnePlus cílí se svým srovnávacím kódem i na jiné než srovnávací aplikace, stále by to byl problém, protože by to znamenalo, že výkon, který vidíte v intenzivní aplikace dnes budou zcela odlišné od toho, co vidíte v současných aplikacích, které nejsou na seznamu, nebo v budoucích intenzivních aplikacích, jakmile OnePlus přestane seznam aktualizovat. To by se dalo upravit tím, že uživatelům umožníte přidat na seznam povolených aplikací, které ze skrytých vylepšení mají prospěch transparentně zobrazit, které těží z výchozího nastavení – navrhovali jsme to v naší poslední zprávě, ale nebylo tomu tak implementováno.

Jsme zklamáni jednáním OnePlus v této záležitosti a doufáme, že OnePlus již podruhé odstraní referenční kód podvádění ze svého softwaru. Zkresluje jejich telefon svým zákazníkům a není to typ chování, které bychom rádi viděli u zařízení jinak úžasných, jako jsou OnePlus 3T a OnePlus 5.


AKTUALIZOVANÉ PROHLÁŠENÍ

Společnost OnePlus poskytla aktualizované prohlášení, které lépe vysvětluje jejich postoj k tomuto tématu:

„Nastavili jsme OnePlus 5 tak, aby spouštěl benchmarky na vysoce výkonné úrovni, která je přirozená a udržitelná pro všechny. zařízení, média a spotřebitele, aby uživatelé mohli vidět skutečný potenciál zařízení při spouštění aplikací náročných na zdroje a hry. V žádném okamžiku nepřetaktujeme CPU ani nenastavíme minimální frekvenci CPU.

Jsme si jisti, že náš přístup nejlépe ukazuje skutečné výkonnostní schopnosti OnePlus 5."

Prohlášení správně uvádí, že se nejedná o žádné přetaktování (což by bylo o krok nad jejich aktuální mechanismus, pokud jde o vytváření nelegitimních skóre), a neexistuje žádná minimální frekvence CPU, jako jsme viděli naposledy. Prostřednictvím tohoto prohlášení a po rozhovorech se zástupci OnePlus je mi jasné, že ne implementovali tento mechanismus z čiré zlomyslnosti, ale protože chtěli ukázat výkonnostní "schopnosti" serveru přístroj. Ale ještě jednou musíme zdůraznit, že „schopnosti“ se zde (a k nim) vztahují k maximálnímu potenciálu, nikoli skutečná úroveň výkonu, kterou uživatelská zkušenost musí poskytovat prostřednictvím tradiční frekvence škálování. Souhlas nebo nesouhlas, je potvrzeno, že tato manipulace s benchmarkem zůstane, i když jsme tu možnost navrhli zpřístupnění takového výkonnostního profilu pro vybrané aplikace a věřím, že OnePlus je k tomu vstřícný idea. Existují i ​​​​jiné společnosti, které tyto vylepšení zpřístupňují uživatelům, včetně HTC a Samsung, prostřednictvím svých řešení většinou se točí kolem snižování spotřeby energie (ačkoli změny rozlišení podle aplikací zvyšují výkon ve hrách, také).

Faktem zůstává, že výrobci benchmarků, inženýři Androidu a nadšenci považují tyto mechanismy za nespravedlivé, nereprezentativní vůči uživatelská zkušenost, trochu zavádějící a v konečném důsledku plýtvání zdroji, které mohly jít do jiného aspektu vývoje produktu. Pokud chcete vidět, jak tvrdě dokáže OnePlus 5 prosadit svůj hardware, pak budete pravděpodobně souhlasit s rozhodnutím OnePlus. Pokud chcete vidět, jak se kombinace hardwaru a standardního softwaru OnePlus 5 porovnává s jinými zařízeními podobný hardware, máte smůlu, protože manipulace s frekvencemi CPU takovým způsobem dělá skóre nesouměřitelný.

A konečně, s rizikem, že budu konfrontační, rád bych se také na chvíli zmínil o něčem, co mě na přijetí této zprávy nelíbilo: bylo to tisíckrát sdílené po celém světě a znovu blogované tisíci prodejnami, ale jeho poselství a podrobnosti jsou buď zahaleny v mlze, nebo úplně vypuštěny cesta. Viděl jsem tak do očí bijící a otřesné nesprávné pokrytí tohoto článku, s hrozným zkreslení toho, co jsme řekli, co jsme našli, samotný mechanismus a prohlášení OnePlus a plány do budoucna. Zde je několik věcí, které chci, aby takové blogy věděly: OnePlus „nemanipulovalo“ s jednotkami recenzentů; problém se týká i spotřebitelských jednotek; je to vědomé rozhodnutí OnePlus; ne, neřekli nám, že se to změní; tepelné škrcení může být uvolněné, ale telefonu nehrozí výbuch; neexistuje žádný "cheat kód"; jsme skutečně spokojeni se skutečným výkonem zařízení, nepřekrucujte naše slova; Qualcomm s tím nemá nic společného; HTC a Samsung jsme v našich zprávách nikdy „nehanbili“, zmínili jsme je mimochodem a pro kontext v našem prvním článku kvůli mnohem staršímu incidentu. To je jen zlomek běžných chyb, které bych rád řešil. Příliš mnoho článků a videí, které jsme viděli, mělo zásadní chybu a nepochopení, které podle našeho názoru zkracuje hodiny pečlivého shromažďování dat a analýzy, které byly do tohoto článku vloženy. A co je horší, problém se ještě zhoršuje, když čteme indické nebo čínské blogy, které dále ničí naše zjištění kvůli inherentním potížím s překladem. Nakonec jsme extrémně zklamáni tím, jak technologická média nakládají s touto zprávou, zejména ti, kteří využili našeho závěru k napsání „úspěchů“ proti OnePlus, což jsme opravdu nikdy nezamýšleli. Řekli jsme to výše, řekli jsme to v našich prvních dojmech a řekli jsme to znovu: samotný produkt je dobrý, výkon je fenomenální.