НЕ се доверявайте на показателите OnePlus 5 в рецензиите

OnePlus 5 отново участва в измама при бенчмаркове в опит да заблуди рецензенти и клиенти. Разберете как са го направили в нашата тематична статия!

По-рано тази година ние публикува доклад, който осъжда OnePlus (и други компании) за неправилното им поведение по отношение на манипулиране на бенчмарк на по-нови версии на OxygenOS. Днес, за съжаление, трябва да проследим нашите обвинения, тъй като компанията отново манипулира по неподходящ начин сравнителните резултати в OnePlus 5.

Въпреки че нито един клиент няма устройство в ръцете си (току-що стартира), ние научихме за новия механизъм за измама на OnePlus чрез нашия отдел за преглед, който получихме преди около десет дни преди деня, в който ембаргото наруши и рецензентите имат право да докладват за устройството. За съжаление е почти сигурно, че всеки един преглед на OnePlus 5, който съдържа бенчмарк, използва подвеждащи резултати, тъй като OnePlus предостави на рецензентите устройство, което изневерява на бенчмарковете. Това е непростим ход, защото в крайна сметка е опит за заблуда не само на клиентите, но и на опетняват работата на рецензенти и журналисти с подвеждащи данни, които повечето не са в състояние да проверят или проверявам. В резултат на това всеки преглед на OnePlus 5, цитиращ сравнителни резултати като признание за успеха на телефона, е подвеждащи както авторите, така и читателите, и анализите на ефективността, базирани на синтетични показатели обезсилен. По-лошото е, че този път,

механизмът за измама е явен и е насочен към максимизиране на ефективността, за разлика от последния път, който не увеличи средно много резултатите, но намали дисперсията и термичното регулиране, както намерихме.

Преди да навлезем в подробностите, бих искал да заявя, че сме разочаровани от компанията, че отново прибягва до тези практики. Ние също няма да предоставим пълен анализ на ефективността включващ всички наши включени тестове, тъй като много от нашите предпочитани показатели са засегнати от механизма за измама. И накрая, ще отделим този доклад от общата ни преценка за самото устройство, защото сме уверени, виновният код ще бъде премахнат от потребителските компилации след този доклад и нашите разговори с OnePlus представители. Въпреки че не вярваме на тази статия непременно трябва да промени възприятието ви за самия хардуер, правилно е да повлияе на мнението ви за компанията, като се има предвид, че това е второто им нарушение.


Кратка дума за методологията

Всички резултати в тази статия са получени на OnePlus 5 за преглед на единица, работеща с OxygenOS версия 4.5.0 (A5000_22_170603); това е предпроизводствена единица и първоначално беше заредена с предпроизводствен софтуер, който получи OTA към версията, посочена по-горе. OnePlus препрати инструкции на рецензентите, за да активира възможността за изтегляне на приложения за сравнение Play Store и вероятно това е направено, за да няма изтичане на бенчмарк резултати време. Това ме подсказа във факта, че OnePlus се позовава на пакети за сравнение по име в техния ROM. Що се отнася до тестването, ROM имаше минимални фонови процеси без приложения на трети страни и работещ самолетен режим, където е приложимо; Честотите на процесора бяха регистрирани само за определяне на степента на измама, а не в тестовете, които дадоха резултати за тази статия. Всички температури бяха измерени с помощта на a FLIR C2 Compact като всеки пробег за издръжливост започва при външна температура от 28,5°C | 83,3°F.


Манипулиране на бенчмарк – как се прави

Миналия януари нашият доклад разкри механизъм за измама, открит в компилациите на OxygenOS Beta и в софтуера за доставка на OnePlus 3T. Ние приписваме тези промени на последните сливането на тогавашните различни OxygenOS и HydrogenOS екипи за разработчици и основната кодова база на OxygenOS, която сега трябваше да бъде споделена с HydrogenOS, въпреки че тази спекулация все още не е потвърдена. По онова време това имаше смисъл за нас и коментарите на представители на OnePlus, направени пред XDA-Developers, добавиха достоверност към нашата теория. С OnePlus 5 виждаме различен вид механизъм за измама, но не можем да определим дали това е съзнателно въведено от същите разработчици, които са го добавили за първи път. Знаем само, че е насочен към същите пакети.

И така, как работи и каква е разликата? Последния път OnePlus въведе промени в поведението на техния ROM, когато открие, че е отворено приложение за бенчмарк. Такива имена на приложения бяха изрично изброени чрез техните идентификатори на пакети в рамките на ROM в манифест, който уточняваше целите. След това ROM ще промени честотата във връзка с коригирано натоварване на процесора - нашите инструменти показват, че натоварването на процесора ще падне до 0% независимо от очевидна активност в рамките на приложението и процесорът ще види почти минимална честота от 1,29 GHz в големите ядра и 0,98 GHz в малките ядра. Тази минимална честота намалява ефективния честотен диапазон, което от своя страна намалява броя на стъпаловидни честоти; в сравнителните тестове това доведе до малко по-ниска вариация и, както показахме, по-висока устойчива производителност, тъй като по-високата минимална честота не можеше да бъде преодоляна от термично дроселиране. Накратко, поведението на измама беше ясно и демонстрируемо както чрез разглеждане на дисперсията на резултата, така и чрез наблюдение на честотите на процесора през цялата бенчмарк, който показа долна честота, която - в по-голямата си част - позволи на устройството постоянно да се доближава до пълния си потенциал.

OnePlus 5, от друга страна, е съвсем различен звяр - той прибягва до вид очевидни, изчислени механизми за измама видяхме във водещите кораби в ранните дни на Android, подход, който очевидно има за цел да увеличи максимално резултатите в най-подвеждащите мода. Въпреки че няма превключватели на регулатора, когато потребителят въведе бенчмарк (поне изглежда, че не можем виж това е така), минималната честота на малкия клъстер скача до максималната честота, както се вижда при регулаторите на производителността. Всички малки ядра са засегнати и се поддържат на 1,9 GHz и именно чрез тази измама OnePlus постига някои от най-високите GeekBench 4 резултати от Snapdragon 835 до момента - и вероятно най-високите постижими предвид неговата безкомпромисна конфигурация със специфичните конфигурация. Резултати със сигурност са по-високи от тези, получени от подобни устройства и собственото тестово устройство MSM8998 на Qualcomm които имахме късмета да сравним. По-долу е даден списък на засегнатите бенчмарк приложения:

  • AnTuTu (com.antutu.benchmark.full)
  • Androbench (com.andromeda.androbench2)
  • Geekbench 4 (com.primatelabs.geekbench)
  • GFXBench (com.glbenchmark.glbenchmark27)
  • Квадрант (com.aurorasoftworks.quadrant.ui.standard)
  • Ненамарк 2 (se.nena.nenamark2)
  • Веламо (com.quicinc.vellamo)

Това, което не е напълно изненадващо, е засегнатите приложения са точно същите като миналия път, а OnePlus очевидно се насочва към същите пакети. Разликата в резултатите е точно това, което бихте очаквали, в по-голямата си част. Успяхме да излъжем измамата на бенчмарка и да го избегнем с GeekBench 4, подобно на нашето тестване в последния ни доклад. Установихме, че докато работи с GeekBench 4 от Play Store, устройството отбеляза над 6700 в многоядрени, докато никога не получихме резултат от 6500, след като устройството се държи според очакванията с нашата скрита компилация на GeekBench. По-долу можете да видите графика на честотата във времето за малкия клъстер на OnePlus 5 при стартиране на GeekBench 4 от Play Store, и същата конфигурация, изпълняваща компилация на GeekBench 4, лишена от идентификатори, която е в състояние да заблуди измамата на OnePlus механизъм.

В случай, че не е видно от графиката по-горе: изследвахме честотата на процесора на всеки 100 ms и общо само 24,4% от показанията върнаха максималната честота от 1,9 Ghz при деактивиране на измама. Междувременно, изпълнението с активирано измама изразходва зашеметяващите 95% от показанията в състояние на максимална честота. Абсолютно очевидно е, че OnePlus поддържа изкуствено високи честоти на процесора на тези ядра по време на бенчмарка, което води до значително по-високи общите резултати в многоядрения тест и също се проявява в различни обвързани с процесора подрезултати в подробната разбивка на всеки тест (особено в цели числа и плаващи числа операции). Разликата обаче е най-ясна и изгодна при многоядрени резултати, а резултатите при едноядрени всъщност са изненадващо сходни между сериите с и без измама на бенчмарка, като резултатът от едно ядро ​​всъщност е по-висок средно без манипулация.

И все пак многоядреността е цифрата, която повечето хора обмислят и незабавно забелязват, когато става въпрос за този конкретен показател Android е силно паралелна операционна система, която сега е пълна с многонишкови приложения след години на поддръжка за множество ядра. Дори ако увеличението е значимо само при многонишкови бенчмаркове и тестове, то пак ще доведе до значителна, несправедлива и непредставително предимство пред други устройства, които позволяват на стандартния си регулатор и настройки за производителност да работят под бенчмарк; тези променени резултати не са представителни за реалното представяне на OnePlus 5 по никакъв начин, каквито са отразявайки пикова и иначе недостижима производителност на устройството при изкуствени условия и без тях ограничения.

Делтата в многоядрения резултат между резултатите при работа на GeekBench 4 със и без механизма за измама може да бъде до 6,5%, въпреки че средно е около 5%. Може виж незначителен, но този тласък е достатъчен, за да изпревари устройството пред други устройства със Snapdragon 835. По-горе можете да видите точкова графика на множество независими изпълнения на GeekBench 4 със и без механизма за измама. Пропастта е очевидна и както може да се заключи от кутията, тя не може да бъде резултат от присъща вариация. Накратко, изкуственото повишаване на честотите на процесора наистина води до много по-добри резултати в синтетичните бенчмаркове.

По-долу можете да видите графика на производителността във времето със съпътстващите ги температури, както искахме да определим дали има и термична релаксация по време на игра или дали има разлика в резултатите по време на продължително бенчмаркинг.

Настроихме тестовете на GeekBench 4 с двусекундна пауза между екрана с резултатите и началото на друг тест за сравнение; температурата на външното устройство (не температурата на батерията, както е докладвано от Android) е измерена с помощта на FLIR termal камера след секунда калибриране, осреднявайки трите непосредствени измервания в рамките на две секунди между бяга. Бях доста изненадан да видя, че като цяло тези две устройства се нагряват с приблизително еднаква скорост и нито едно от тях не отбеляза спад в резултата. Всички резултати във всеки набор от данни са в рамките на очакваната вариация, което предполага, че няма термично дроселиране. При по-внимателно разглеждане това наистина не трябва да е изненада, като се има предвид устойчивото представяне една от присъщите силни страни на ядрата Cortex-A73, на които са базирани ядрата Kryo на Snapdragon 835 На. Засегнатите ядра са енергийно ефективните ядра и фактът, че GeekBench 4 специално идва с мерки за предотвратяване на дроселиране, което променя резултатите от подтестовете в края на цикъла, е нещо научихме от нашето интервю с Джон Пул.

Интересното е, че не всички популярни бенчмаркове са насочени към механизма за измама на OnePlus. 3DMark, например, всъщност не видя нито един от тези проблеми при провеждане на тестове или дори при отваряне на приложението. Други бенчмаркове като GFXBench обаче са насочени и виждаме същото поведение на процесора при отварянето и стартирането им. Всъщност, по време на продължителна производителност с помощта на GFXBench's Manhattan Battery Test, OnePlus 5 достигна температури над 50°C | 122°F (външна температура), a много рядко явление сред устройствата, които съм тествал в миналото, всички от които изпитват известна степен на термично дроселиране, което им пречи да постигнат това горещ.


Заблуди ме веднъж, засрами ме; Измами ме два пъти, засрами се

Малко е разстройващо, че се стигна до точката, в която трябва да извикаме една и съща компания два пъти за манипулиране на резултати от бенчмаркове. Фактът, че всичко това е направено и върху единици за преглед, допълнително изостря проблема: този механизъм за измама има за цел да увеличи максимално производителността и да направи устройството да изглежда по-добре или по-бързо в разделите за производителност на прегледите. Системата за насочване и манипулиране е опакована в предпроизводствени единици, изпратени на журналисти, които ще ги базират констатации на тяхното устройство от OnePlus, много от тях не могат или не желаят да потвърдят съществуването на измама в своите единица за преглед. Вината в никакъв случай не е тяхна, но XDA търси манипулиране на бенчмаркове само защото го открихме в миналото и решихме, че е най-добре да информираме нашите читатели и потенциални купувачи на телефони.

Надяваме се, че тази статия може да възобнови по-широк разговор относно бенчмарковете, тяхната роля и полезността им в днешните прегледи на смартфони. Не се заблуждавайте, компании като Qualcomm и Samsung направи се интересуват от бенчмарковете и ги смятат за валиден, макар и непълен, начин клиентите да преценят производителност на своите устройства, въпреки че имат по-сложни инструменти, на които да се позовават, когато разработват своите процесори. В крайна сметка бенчмарковете могат да бъдат от голямо значение, ако човек разбере какво измерва софтуерът и до каква степен неговите резултати могат да се използват за извеждане на класирането на конкретен процесор, конкретна конфигурация на хардуер или казано по-цялостно, конкретен телефон с промените в поведението, въведени от неговия софтуер като добре. Мисля, че сме дошли във време, в което е по-важно да се съсредоточим върху производителността и енергийната ефективност в реалния свят, отколкото върху суровите изчисления или обработка мъжество, тъй като на този етап очевидно е ясно, че пречката за производителността в реалния свят идва от Android и конкретни негови реализации от OEM производители.

Връщайки се към OnePlus, наистина не знам защо софтуерният екип на компанията и коя страна на софтуерния екип конкретно въведе отново манипулиране на бенчмарк, след като беше извикан. Този път е по-лошо, с очевидната цел да се надуят резултатите, получени от апаратите на рецензентите. OnePlus 5 все още е невероятно производително устройство, което наистина не се нуждае от измама на бенчмарка, за да направи изявление – наистина бях изумен от неговата плавност и общ отзивчивост и ми е ясно след престоя ми с устройствата на компанията, както и интервюта и разговори с тяхното ръководство, че те знаят, че производителността е силен аспект на техните телефони. Най-вероятно това е пресметнат ход, тъй като те може би са разбрали, че си струва да дразнят малък сектор от основно-западната страна на пазара за ентусиасти, за да може би да измажат интернет с най-високите бенчмарк резултати, които може да събере. Какъвто и да е случаят, искрено се надявам компанията да поправи грешката, тъй като, въпреки че имам страхотни неща да кажа за техния хардуер, те са започнали пускането с грешния крак в очите ми.


Изявление от OnePlus

Свързахме се с OnePlus за коментар по този проблем и ето какво казаха те:

Хората използват приложения за сравнение, за да установят производителността на своите устройства и ние искаме потребителите да видят истинската производителност на OnePlus 5. Поради това позволихме на приложенията за сравнение да работят в състояние, подобно на ежедневното използване, включително изпълнението на приложения и игри с интензивно използване на ресурси. Освен това, когато стартирате приложения, OnePlus 5 работи в подобно състояние, за да увеличи скоростта, с която се отварят приложенията. Ние не овърклокваме устройството, а по-скоро показваме потенциала за производителност на OnePlus 5.

Това изявление, което получихме тази сутрин, е малко шокиращо да чуем, тъй като измамата на бенчмарка поставя устройството в състояние, което е изрично не как устройството ще работи при ежедневна употреба и представлява производителност, която няма да видите в други приложения, които не са конкретно насочени към подобни подобрения.

Имайте предвид, че за разлика от конкурентния овърклок, повечето показатели за телефони са предназначени да представят как телефонът ще работи при ежедневна употреба. Това не е просто оценка, за да се опитате да постигнете възможно най-високи резултати, а по-скоро опит да представите как телефонът работи при редовни термични профили и използване на батерията. Опит да се представи как телефонът действително работи при ежедневна употреба. Тези сравнителни показатели не са предназначени да измерват някакъв „потенциал за производителност“, който не е постижим в реалния свят употреба и всякакви опити за насочване към тях с код за измама на бенчмарк в стил „победете устройство“ е подвеждащ за потребителите. Ако заключите честотата на процесора до максималната им стойност и позволите температурата на тялото на телефона да се повиши до неизползваема нива, когато се отварят определени приложения, тогава това не е показателно за това как телефонът ще работи в действителност използване.

Докато топлинният профил беше сравнително нормален в Geekbench 4 с тежък процесор, където фантастичната устойчива производителност на базираните на ARM Cortex-A73 Kryo 280 ядра позволява телефонът да работи при увеличените нива на използване на батерията, които донесе измамата на бенчмарка, без да се нагрява твърде много, видяхме напълно различна история с интензивни GPU приложения. Както споменахме, при тестване на устойчива производителност с теста на батерията в Манхатън на GFXBench, OnePlus 5 достигна температури от около 50°C | 122°F (външна температура), което е ужасно горещо за телефон и е напълно неудобно за държане. Опитвате се да играете видеоигри или да използвате други приложения с интензивно графичен процесор с 50°C | 122°F телефон би бил просто лошо потребителско изживяване.

Дори ако OnePlus се насочва и към не-бенчмарк приложения с техния бенчмарк код за измама, това пак би било проблем, тъй като би означавало, че производителността, която виждате в интензивните приложения днес ще бъдат напълно различни от това, което виждате в текущите приложения, които не са в списъка, или в бъдещите интензивни приложения, след като OnePlus спре да актуализира списъка. Това може да бъде променено, като се позволи на потребителите да поставят в белия списък кои приложения се възползват от скрити усилвания, както и прозрачно показване, които се възползват от по подразбиране -- предложихме това с последния ни доклад, но не е така изпълнени.

Разочаровани сме от действията на OnePlus по този въпрос и се надяваме, че OnePlus за втори път ще премахне измамния код за бенчмарк от своя софтуер. Това е погрешно представяне на техния телефон на техните клиенти и не е типът поведение, което обичаме да виждаме с устройства, иначе страхотни като OnePlus 3T и OnePlus 5.


АКТУАЛИЗИРАНО ИЗЯВЛЕНИЕ

OnePlus предостави актуализирано изявление, което по-добре обяснява тяхната позиция по темата:

„Настроихме OnePlus 5 да изпълнява бенчмаркове на ниво с висока производителност, което е едновременно естествено и устойчиво за всички устройства, медии и потребители, така че потребителите да могат да видят истинския потенциал на устройството, когато изпълняват ресурсоемки приложения и игри. В никакъв момент не овърклокваме процесора, нито задаваме долна честота на процесора.

Убедени сме, че нашият подход най-добре показва истинските възможности за производителност на OnePlus 5."

Изявлението правилно посочва, че не е включен овърклок (което би било една стъпка над текущото им механизъм, от гледна точка на генериране на нелегитимни резултати), и няма долна честота на процесора, както това, което всъщност видяхме последен път. Чрез това изявление и след разговори с представители на OnePlus ми става ясно, че те не са внедриха този механизъм от чиста злоба, но защото искаха да покажат "възможностите" за изпълнение на устройство. Но още веднъж трябва да посочим, че „възможностите“ тук (и за тях) се отнася до върховия потенциал, а не действителното ниво на производителност, което потребителското изживяване трябва да осигури чрез традиционната честота мащабиране. Съгласни или не, потвърдено е, че тази манипулация на бенчмарка ще остане, въпреки че сме предложили възможността да направи такъв профил на производителност достъпен за потребителя за избрани приложения и аз вярвам, че OnePlus е възприемчив към това идея. Има и други компании, които правят подобни настройки достъпни за потребителите, включително HTC и Samsung, въпреки техните решения най-вече се въртят около намаляване на консумацията на енергия (въпреки че промените в разделителната способност за всяко приложение повишават производителността в игрите, също).

Факт е, че производителите на бенчмаркове, инженерите и ентусиастите на Android виждат тези механизми като несправедливи, непредставителни за потребителско изживяване, малко измамно и в крайна сметка загуба на ресурси, които биха могли да отидат за друг аспект на разработването на продукта. Ако искате да видите колко трудно OnePlus 5 може да прокара своя хардуер, тогава вероятно ще се съгласите с решението на OnePlus. Ако искате да видите как комбинацията от хардуер и стандартен софтуер на OnePlus 5 се сравнява с други устройства с подобен хардуер, нямате късмет, защото манипулирането на честотите на процесора по такъв начин прави резултатите изцяло несъизмерим.

И накрая, с риск да изляза като конфронтация, бих искал също да отделя малко време, за да спомена нещо, което не ми хареса относно приемането на този доклад: той беше споделян по целия свят хиляди пъти и също публикуван отново в блогове от хиляди търговски обекти, но посланието и подробностите му са или забулени в мъгла, или напълно премълчани начинът. Виждал съм такова крещящо и ужасяващо некоректно отразяване на тази статия, с ужасно погрешни тълкувания на това, което казахме, това, което открихме, самия механизъм и изявлението на OnePlus и планове за бъдещето. Всъщност, ето някои неща, които искам да знаят такива блогове: OnePlus не е „подправял“ рецензентите; проблемът се простира и до потребителските единици; това е съзнателно решение от OnePlus; не, не ни казаха, че това ще се промени; термичното регулиране може да бъде облекчено, но телефонът не е изложен на риск от експлозия; няма "код за измама"; всъщност сме доволни от действителната производителност на устройството, не извъртайте думите ни; Qualcomm няма нищо общо с това; никога не сме „засрамвали“ HTC и Samsung в нашите доклади, споменахме ги мимоходом и за контекст в първата ни статия, поради много по-стар инцидент. Това е само малка част от често срещаните грешки, на които бих искал да се обърна. Твърде много статии и видеоклипове, които видяхме, имаха основен недостатък и недоразумение, което според нас унищожава часовете внимателно събиране и анализ на данни, вложени в тази статия. Което е по-лошо, проблемът се изостря, когато четем индийски или китайски блогове, които допълнително унищожават нашите открития поради присъщите трудности на превода. В крайна сметка сме изключително разочаровани от начина, по който технологичните медии се отнасят към този доклад, особено тези, които използваха нашето заключение, за да напишат „хитове“ срещу OnePlus, което всъщност никога не сме възнамерявали. Казахме го по-горе, казахме го в първите си впечатления и го казахме отново: самият продукт е добър, представянето е феноменално.