НЕМОЈТЕ веровати ОнеПлус 5 мерилима у рецензијама

ОнеПлус 5 поново учествује у варању бенчмарка у покушају да превари рецензенте и купце. Сазнајте како су то урадили у нашем чланку!

Раније ове године, ми објавио извештај који је осудио ОнеПлус (и другим компанијама) због њиховог неприкладног понашања у погледу манипулације бенчмарком на новијим верзијама ОкигенОС-а. Данас, нажалост, морамо да наставимо са нашим оптужбама јер је компанија још једном неприкладно манипулисала референтним резултатима у ОнеПлус 5.

Иако ниједан купац нема уређај у рукама (ипак је тек лансиран), сазнали смо за нови механизам за варање ОнеПлус-а преко наше јединице за преглед, који смо добили пре десетак дана пре дана када је ембарго прекинут и рецензентима је дозвољено да извештавају о уређају. Нажалост, готово је сигурно да свака појединачна рецензија ОнеПлус 5 која садржи бенцхмарк користи обмањујуће резултате, пошто је ОнеПлус рецензентима пружио уређај који вара бенцхмаркове. Ово је неопростив потез, јер је на крају покушај да се обману не само купци, већ укаљају рад рецензената и новинара погрешним подацима које већина није у стању да провери или проверити. Као резултат тога, свака ОнеПлус 5 рецензија у којој се наводе референтни резултати као признање успеха телефона доводе у заблуду и писце и читаоце, а анализе учинка засноване на синтетичким мерилима су неважећим. Што је још горе, овога пута,

механизам варања је очигледан и има за циљ да максимизира учинак, за разлику од прошлог пута који није повећао резултате у просеку много, али је смањио варијансу и термичко пригушивање, како смо нашли.

Пре него што пређемо на детаље, желео бих да кажем да смо разочарани у компанију што је још једном прибегло оваквим праксама. Такође нећемо пружити потпуну анализу учинка који укључују све наше укључене тестове јер су на многа од наших преферираних мерила под утицајем механизма варања. Коначно, ми ћемо овај извештај поделити на основу наше свеукупне процене самог уређаја, јер смо уверени шифра кривца ће бити уклоњена из потрошачких верзија након овог извештаја и наших разговора са ОнеПлус-ом представника. Иако не верујемо овом посебном чланку нужно требало би да промени вашу перцепцију самог хардвера, исправно је да подстакне ваше мишљење о компанији с обзиром да је то њихов други преступ.


Кратка реч о методологији

Све оцене за овај чланак су добијене на јединици за преглед ОнеПлус 5 која користи ОкигенОС верзију 4.5.0 (А5000_22_170603); ово је претпродукцијска јединица и првобитно је била учитана предпродукцијским софтвером који је добио ОТА за верзију наведену изнад. ОнеПлус је проследио упутства рецензентима како би омогућила могућност искључивања апликација за мерење перформанси Плаи Сторе, а вероватно је то урађено да не би било цурења резултата референтних вредности време. То ме је навело на чињеницу да се ОнеПлус позивао на бенцхмарк пакете по имену у њиховом РОМ-у. Што се тиче тестирања, РОМ је имао минималне позадинске процесе без апликација трећих страна и покренут Аирплане Моде где је то било могуће; ЦПУ фреквенције су евидентиране само да би се утврдио степен варања, а не у тестовима који су дали резултате за овај чланак. Све температуре су мерене помоћу а ФЛИР Ц2 Цомпацт при чему свако трчање издржљивости почиње на спољној температури од 28,5°Ц | Највиша: 83.3°Ф.


Манипулација бенчмарком -- како се то ради

Прошлог јануара, наш извештај је открио механизам варања који се налази у ОкигенОС Бета верзијама и у софтверу за испоруку ОнеПлус 3Т. Ове промене смо приписали недавним спајање тада различитих ОкигенОС и ХидрогенОС тимови програмера, и основна кодна база ОкигенОС-а која је сада требало да се дели са ХидрогенОС-ом, иако ова спекулација тек треба да буде потврђена. У то време нам је то имало смисла, а коментари представника ОнеПлус-а упућени КСДА-Девелоперс-у додали су кредибилитет нашој теорији. Са ОнеПлус 5 видимо другачију врсту механизма варања, али не можемо тачно да утврдимо да ли су га свесно увели исти програмери који су га додали први пут. Знамо само да циља исте пакете.

Па како то функционише и која је разлика? Последњи пут, ОнеПлус је увео промене у понашање свог РОМ-а кад год је открио да је отворена бенцхмарк апликација. Таква имена апликација су експлицитно наведена према њиховим ИД-овима пакета унутар РОМ-а у манифесту који је специфицирао циљеве. Затим би РОМ променио фреквенцију у односу на прилагођено оптерећење ЦПУ-а - наши алати су показали да би оптерећење ЦПУ-а пало на 0% без обзира на очигледна активност унутар апликације, а ЦПУ би видео скоро минималну фреквенцију од 1,29 ГХз у великим језгрима и 0,98 ГХз у малим језгра. Ова минимална фреквенција је смањила ефективни опсег фреквенција, што је заузврат смањило број фреквенција корака; у бенчмарковима, ово је резултирало нешто мањом варијансом и, као што смо показали, већим трајним перформансама пошто виша минимална фреквенција није могла да се превазиђе термичким пригушивањем. Укратко, понашање варања било је јасно и видљиво гледањем варијансе резултата и праћењем фреквенција ЦПУ-а током бенцхмарк, који је показао доњи праг фреквенције који је - углавном - омогућио уређају да се доследно приближи свом пуном потенцијалу.

ОнеПлус 5 је, с друге стране, потпуно другачија звер - прибегава врсти очигледних, прорачунатих механизама варања видели смо у водећим моделима у раним данима Андроида, приступ који је јасно намењен да максимизира резултате у најпогрешнијим мода. Иако нема прекидача гувернера када корисник унесе бенцхмарк (барем се чини да не можемо види то је случај), минимална фреквенција малог кластера скаче на максималну фреквенцију као што се види под регулаторима перформанси. Сва мала језгра су погођена и одржавају се на 1,9 ГХз, и управо кроз ову превару ОнеПлус постиже неке од највиших ГеекБенцх 4 резултате Снапдрагона 835 до данас - и вероватно највећи могући с обзиром на његову бескомпромисну ​​конфигурацију са специфичном конфигурацију. Резултати су сигурно већи од оних добијених на сличним уређајима и Куалцомм-овом сопственом МСМ8998 тест уређају које смо имали среће да упоредимо. Испод је листа референтних апликација на које утиче:

  • АнТуТу (цом.антуту.бенцхмарк.фулл)
  • Андробенцх (цом.андромеда.андробенцх2)
  • Геекбенцх 4 (цом.примателабс.геекбенцх)
  • ГФКСБенцх (цом.глбенцхмарк.глбенцхмарк27)
  • Квадрант (цом.аурорасофтворкс.куадрант.уи.стандард)
  • Ненамарк 2 (се.нена.ненамарк2)
  • Велламо (цом.куицинц.велламо)

Оно што потпуно не изненађује јесте апликације које су погођене су потпуно исте као и прошли пут, а ОнеПлус очигледно циља на исте пакете. Разлика у резултатима је управо оно што бисте очекивали, углавном. Успели смо да преваримо бенчмарк варање и избегнемо га помоћу ГеекБенцх 4, слично нашем тестирању у нашем последњем извештају. Открили смо да је док је покретао ГеекБенцх 4 из Плаи продавнице, уређај постигао преко 6.700 у вишејезгарном, док никада нисмо добили резултат од 6.500 када се уређај понаша како се очекивало са нашом скривеном конструкцијом ГеекБенцх. Испод можете видети графикон учесталости током времена за мали кластер ОнеПлус 5 када покрећете ГеекБенцх 4 из Плаи продавнице, и иста конфигурација која покреће верзију ГеекБенцх 4 без идентификатора који могу да превари ОнеПлус-ово варање механизам.

У случају да то није видљиво из горњег графикона: испитивали смо фреквенцију ЦПУ-а сваких 100 мс, а укупно је само 24,4% очитавања вратило максималну фреквенцију од 1,9 Гхз када смо онемогућили варање. у међувремену, трчање са омогућеним варањем потрошило је невероватних 95% очитавања у стању максималне фреквенције. Апсолутно је очигледно да ОнеПлус држи ЦПУ фреквенције ових језгара вештачки високим током бенцхмарк-а, што резултира знатно вишим укупни резултати у тесту са више језгара и такође се манифестују у различитим подрезултатима везаним за ЦПУ у детаљној анализи сваког теста (нарочито у целобројним и флоат операције). Међутим, разлика је најјаснија и најповољнија у резултатима са више језгара, а резултати са једним језгром су заправо изненађујуће слични између циклуса са и без бенцхмарк варања, при чему је резултат једног језгра заправо виши у просеку без манипулације.

Ипак, вишејезгарност је цифра коју већина људи узима у обзир и одмах примети када је реч о овом специфичном бенцхмарк-у Андроид је веома паралелан оперативни систем који је сада пун апликација са више нити након година подршке за више њих језгра. Чак и ако је повећање значајно само у вишенитним мерилима и тестовима, то би и даље резултирало значајним, неправедним и нерепрезентативну предност у односу на друге уређаје који дозвољавају да њихов стандардни регулатор и подешавања перформанси раде под бенцхмарк; ови измењени резултати ни на који начин нису репрезентативни за стварне перформансе ОнеПлус 5, као што јесу одражавајући врхунске и иначе недостижне перформансе уређаја у вештачким условима и без ограничења.

Делта резултата Мулти Цоре између резултата када се користи ГеекБенцх 4 са и без механизма варања може бити до 6,5%, иако је у просеку око 5%. Могло би погледај безначајно, али тај помак је довољан да покрене уређај испред других Снапдрагон 835 уређаја. Изнад можете видети тачку вишеструких независних покретања ГеекБенцх 4 са и без механизма за варање. Провалија је очигледна, и као што се може закључити из оквира, она не може бити резултат инхерентне варијансе. Укратко, вештачко повећање фреквенција процесора заиста даје много боље резултате у синтетичким бенцхмарковима.

Испод можете видети графикон перформанси током времена са њиховим пратећим температурама, као што смо желели да утврдимо да ли постоји и термичка релаксација у игри, или да ли је постојала разлика у резултату током одрженог бенцхмаркинг.

Поставили смо ГеекБенцх 4 тестове са паузом од две секунде између екрана резултата и почетка другог теста; температура спољног уређаја (а не температура батерије како наводи Андроид) мерена је коришћењем ФЛИР термалног уређаја камера након секунде калибрације, усредњавајући три непосредна мерења у две секунде између трчи. Био сам прилично изненађен када сам видео да су се, генерално, ова два уређаја загрејала приближно истом брзином и да ниједан од њих није забележио пад резултата. Сви резултати у сваком скупу података су у оквиру очекиване варијансе, што сугерише да нема термичког пригушивања. Након детаљнијег прегледа, ово заиста не би требало да буде изненађење с обзиром на трајни учинак једна од инхерентних снага Цортек-А73 језгара на којима су базирана Крио језгра Снапдрагон 835 на. Погођена језгра су енергетски ефикасна језгра, а чињеница да ГеекБенцх 4 посебно долази са мере за спречавање пригушивања које мења резултате под-тестова при крају серије, је нешто сазнали смо из нашег интервјуа са Џоном Пулом.

Занимљиво је да нису сви популарни бенцхмаркови циљани ОнеПлусовим механизмом варања. 3ДМарк, на пример, није приметио ниједан од ових проблема приликом покретања тестова или чак отварања апликације. Међутим, циљани су други тестови као што је ГФКСБенцх и видимо исто понашање ЦПУ-а када их отварамо и покрећемо. У ствари, током трајних перформанси коришћењем ГФКСБенцх-овог Манхаттан Баттери Теста, ОнеПлус 5 је достигао температуру од преко 50°Ц | 122°Ф (спољна температура), а веома ретка појава међу уређајима које сам тестирао у прошлости, а сви они доживљавају одређени степен топлотног пригушивања који их спречава да то постигну вруће.


Превари ме једном, срам ме било; Превари ме двапут, срам те било

Помало је узнемирујуће што је дошло до тачке када морамо двапут да прозивамо исту компанију због манипулисања референтним резултатима. Чињеница да је све ово урађено и на јединицама за преглед додатно погоршава питање: овај механизам варања има за циљ да максимизира перформансе и учини да уређај изгледа боље или брже у одељцима о перформансама. Систем циљања и манипулације упакован је у претпродукцијске јединице које су послате новинарима који ће их базирати открића о свом уређају од ОнеПлус-а, многи од њих не могу или не желе да потврде постојање варања у свом јединица за преглед. То ни у ком случају није њихова кривица, али КСДА је у потрази за манипулисањем бенчмарком само зато што смо то пронашли у прошлости, и сматрали смо да је најбоље да обавестимо наше читаоце и потенцијалне купце телефона.

Надамо се да би овај чланак могао поново покренути шири разговор о мерилима, њиховој улози и корисности у данашњим рецензијама паметних телефона. Немојте погрешити, компаније као што су Куалцомм и Самсунг урадите брину о референтним вредностима и сматрају их валидним, ако су непотпуним, начином на који клијенти могу проценити перформансе својих уређаја иако имају софистицираније алате на које се позивају када развијају своје процесори. На крају крајева, бенчмаркови могу бити од велике важности ако се разуме шта софтвер мери и у којој мери се његови резултати могу користити за одређивање рангирања одређеног процесора, одређене конфигурације хардвера или, холистичкије речено, одређеног телефона са променама у понашању које његов софтвер уводи као добро. Мислим да смо дошли у време када је важније фокусирати се на стварне перформансе и енергетску ефикасност него на сирово рачунарство или обраду храброст, јер је у овом тренутку очигледно јасно да уско грло перформансама у стварном свету долази од Андроид-а и његових посебних имплементација од стране ОЕМс.

Враћајући се на ОнеПлус, заиста не знам зашто је софтверски тим компаније, и која страна софтверског тима конкретно, поново увела манипулацију референтним вредностима након што је прозвана. Овај пут је горе, са очигледном сврхом да се надувају резултати које производе рецензентски уређаји. ОнеПлус 5 је и даље уређај невероватног учинка коме заиста није потребно варање референтних вредности да би дао изјаву - заиста, био сам задивљен његовом флуидношћу и општом брзо реаговање и јасно ми је након мог времена са уређајима компаније, као и интервјуа и разговора са њиховим менаџментом да знају да је учинак јак аспект њихове телефоне. То је, највероватније, прорачунат потез, јер су можда схватили да је вредело досађивати малом сектору првенствено - западна страна тржишта ентузијаста како би се Интернет можда залепио са највишим резултатима које могао прикупити. Без обзира на случај, искрено се надам да ће компанија ово погрешити јер, иако имам сјајне ствари да кажем о њиховом хардверу, они су почели објављивање са погрешном ногом у мојим очима.


Изјава компаније ОнеПлус

Контактирали смо ОнеПлус за коментар о овом питању, а ево шта су имали да кажу:

Људи користе бенцхмарк апликације како би утврдили перформансе свог уређаја, а ми желимо да корисници виде праве перформансе ОнеПлус 5. Због тога смо дозволили да апликације за мерење перформанси раде у стању сличном свакодневном коришћењу, укључујући покретање апликација и игара са интензивним коришћењем ресурса. Поред тога, приликом покретања апликација, ОнеПлус 5 ради у сличном стању како би се повећала брзина отварања апликација. Не оверклокујемо уређај, већ приказујемо потенцијал перформанси ОнеПлус 5.

Ова изјава коју смо јутрос добили је помало шок за чути, јер превара стандарда доводи уређај у стање које је изричито не како ће уређај радити у свакодневној употреби, и представља перформансе које нећете видети у другим апликацијама које нису посебно циљане таквим појачањима.

Имајте на уму да је за разлику од конкурентског оверклока, већина бенчмаркова телефона дизајнирана да представљају начин на који ће телефон радити у свакодневној употреби. То није само резултат за постизање највиших могућих резултата, већ покушај да се представи како телефон ради под редовним термалним профилима и употребом батерије. Покушај да се представи како телефон заправо ради у свакодневној употреби. Ова мерила нису дизајнирана да мере неки „потенцијал перформанси“ који није достижан у стварном свету коришћење, а сваки покушај да се они циљају помоћу кода за варање у стилу „порази уређај“ обмањују кориснике. Ако закључате брзину процесора на максималну вредност и дозволите да температура тела телефона порасте до неупотребљиве нивоа када се отворе одређене апликације, онда то не указује на то како ће телефон радити када је у стварности користити.

Док је термални профил био релативно нормалан у ЦПУ тешком Геекбенцх 4, где фантастичне трајне перформансе Крио 280 језгара на бази АРМ Цортек-А73 омогућавају да би телефон радио на повећаним нивоима коришћења батерије које је донело варање са бенчмарком без прегревања, видели смо потпуно другачију причу са апликацијама које интензивно користе ГПУ. Као што је поменуто, током тестирања трајних перформанси са ГФКСБенцх-овим Манхаттан Баттери Тестом, ОнеПлус 5 је достигао температуре од око 50°Ц | 122°Ф (спољна температура), што је ужасно вруће за телефон, и темељно је непријатно за држање. Покушавам да играм видео игрице или користим друге апликације које интензивно користе ГПУ са 50°Ц | Телефон на 122°Ф би био само лоше корисничко искуство.

Чак и ако ОнеПлус циља и апликације које нису бенцхмарк са својим кодом за варање бенчмарка, то би и даље представљало проблем, јер би то значило да перформансе које видите у интензивне апликације данас ће бити потпуно другачије од онога што видите у тренутним апликацијама које нису на листи, или у будућим интензивним апликацијама када ОнеПлус престане да ажурира листу. Ово би се могло изменити тако што би се омогућило корисницима да ставе на белу листу које апликације имају користи од скривених појачања, као и транспарентан приказ који имају користи од подразумеваних вредности -- ми смо то предложили у нашем последњем извештају, али није имплементиран.

Разочарани смо акцијама ОнеПлус-а по овом питању и надамо се да ће ОнеПлус по други пут уклонити код за варање бенчмарка из свог софтвера. То је лажно представљање њиховог телефона њиховим купцима и није тип понашања који волимо да видимо код уређаја који су иначе сјајни као што су ОнеПлус 3Т и ОнеПлус 5.


АЖУРИРАНА ИЗЈАВА

ОнеПлус је дао ажурирану изјаву која боље објашњава њихов став о овој теми:

„Поставили смо ОнеПлус 5 да покреће стандарде на нивоу високих перформанси који је природан и одржив за све уређаја, медија и потрошача, тако да корисници могу да виде прави потенцијал уређаја, када покрећу апликације које захтевају велике ресурсе и игрице. Ни у једном тренутку не оверклокујемо ЦПУ, нити постављамо праг фреквенције ЦПУ-а.

Уверени смо да наш приступ најбоље приказује истинске перформансе ОнеПлус 5."

У изјави се тачно наводи да није укључен оверклок (што би било један корак изнад њиховог тренутног механизам, у смислу производње нелегитимних резултата), и не постоји нижи ниво фреквенције процесора као што смо заправо видели последњи пут. Кроз ову изјаву и након разговора са представницима ОнеПлус-а, јасно ми је да нису имплементирали овај механизам из чисте злобе, али зато што су хтели да покажу перформансе „способности“ уређај. Али, још једном, морамо истаћи да се „способности“ овде (и на њих) односе на вршни потенцијал, а не на стварни ниво перформанси који корисничко искуство мора да обезбеди кроз традиционалну фреквенцију скалирање. Слажем се или не, потврђено је да ће ова манипулација референтним вредностима остати, иако смо предложили могућност да такав профил перформанси учини доступним корисницима за одабране апликације, и верујем да је ОнеПлус пријемчив за то идеја. Постоје и друге компаније које такве подешавања чине доступним корисницима, укључујући ХТЦ и Самсунг, иако њихова решења углавном се врте око смањења потрошње енергије (иако промене резолуције по апликацији повећавају перформансе у играма, такође).

Остаје чињеница да произвођачи стандарда, Андроид инжењери и ентузијасти виде ове механизме као неправедне, нерепрезентативне за корисничко искуство, помало варљиво и, на крају крајева, губљење ресурса који су могли да иду у други аспект развоја производа. Ако желите да видите колико тешко ОнеПлус 5 може да погура свој хардвер, вероватно ћете се сложити са ОнеПлусовом одлуком. Ако желите да видите како је комбинација хардвера и стандардног софтвера ОнеПлус 5 у поређењу са другим уређајима са сличан хардвер, немате среће, јер манипулисање ЦПУ фреквенцијама на такав начин чини резултате у потпуности несамерљив.

Коначно, уз ризик да испаднем конфронтирајући, желео бих да одвојим тренутак да поменем нешто што ме није задовољило у вези са пријемом овог извештаја: подељено широм света хиљадама пута и поново блоговано на хиљадама медијских кућа, али његова порука и детаљи су или обавијени маглом или потпуно одбачени начин. Видео сам тако очигледно и ужасавајуће нетачно покривање овог чланка, са страшним погрешно представљање онога што смо рекли, онога што смо пронашли, самог механизма и ОнеПлусове изјаве и планови за будућност. У ствари, ево неких ствари које желим да такви блогови знају: ОнеПлус није „петљао“ у јединице за рецензије; питање се такође проширује на потрошачке јединице; то је свесна одлука компаније ОнеПлус; не, нису нам рекли да ће се то променити; термално пригушивање може бити опуштено, али телефон није у опасности од експлозије; нема "чит кода"; заправо смо задовољни стварним перформансама уређаја, немојте извртати речи; Куалцомм нема никакве везе са овим; никада нисмо "осрамотили" ХТЦ и Самсунг у нашим извештајима, споменули смо их успутно и за контекст у нашем првом чланку, због много старијег инцидента. То је само делић уобичајених грешака које бих волео да могу да решим. Превише чланака и видео снимака које смо видели имало је фундаменталну ману и неспоразум који, по нашем мишљењу, уништавају сате пажљивог прикупљања и анализе података који су ушли у овај чланак. Што је још горе, проблем се погоршава када читамо индијске или кинеске блогове који додатно уништавају наше налазе због инхерентних потешкоћа у превођењу. На крају крајева, изузетно смо разочарани начином на који су технолошки медији поступили са овим извештајем, посебно они који су искористили наш закључак да напишу „хитне комаде“ против ОнеПлус-а, што заиста никада нисмо намеравали. Рекли смо то горе, рекли смо то у нашим првим утисцима, и поновили смо: сам производ је добар, перформансе су феноменалне.