ОнеПлус и Меизу су ухваћени да варају на основу мерила. КСДА истражује како се то догодило и шта се може учинити да се то спречи.
Пре неколико година дошло је до велике буке, када су бројни велики произвођачи ухваћени да варају на основу мерила. ОЕМ произвођачи свих величина (укључујући Самсунг, ХТЦ, Сони, и ЛГ) су учествовали у овој трци у наоружању покушаја да преваре кориснике а да их не ухвате, али су на срећу на крају престали да варају стандарде након неколико искрених разговора са стручњаци из индустрије и новинари.
Давне 2013. било је откривено да је Самсунг вештачки повећавао брзину ГПУ-а у одређеним апликацијама, што је изазвало низ истраге у бенчмарк варање код читавог низа произвођача. У то време, истрага је открила да су скоро сви произвођачи осим Гоогле-а/Мотороле били укључени у варање стандарда. Сви су улагали време и новац у покушаје да извуку мало више перформанси из својих телефона у тестовима, на начин да не би имало никакав позитиван ефекат на свакодневну употребу, у покушају да превари кориснике да мисле да су њихови телефони бржи него што су заправо су. Ови развојни напори обухватали су читав спектар, од постављања прагова брзине такта, преко принудног постављања брзина такта на њихова максимална подешавања, чак и до стварања посебних виших стања напајања и специјалне брзине такта које су биле доступне само приликом бенчмаркинга, а ови напори често резултирају повећањем од само неколико процентних поена у бенцхмарк.
Када је откривено, дошло је до значајног беса, јер су ови покушаји варања бенчмарка били у супротности са самим мерилима. Већина мерила није ту да вам каже теоретски максимални учинак телефона у лабораторијским условима који нису поновљиви у свакодневној употреби, већ су ту да вам дају референтну тачку за поређење у стварном свету између телефони. Након мало јавног увреда (и неких приватних разговора) технолошких публикација, лидера индустрије и широј јавности, већина произвођача је добила поруку да варање бенчмарка једноставно није прихватљиво и престала је као резултат. Већина оних који се нису зауставили у том тренутку престали су убрзо након тога, пошто је дошло до значајних промена на колико се бенчмаркова покреће, у покушају да се обесхрабри варање референтних вредности (смањењем користи од то). Многа мерила су направљена дуже како би топлотно пригушивање од максимизирања брзине такта постало одмах очигледно.
Када смо интервјуисана Џон Пул, творац Геекбенцх-а, појавила се тема варања стандарда и шта компаније као што је Примате Лабс могу да ураде да то спрече. Примате Лабс је посебно учинио Геекбенцх 4 прилично дужим од Геекбенцх-а 3, делимично да би се смањили ефекти варања бенчмарка. Смањење користи како би се обезбедило да развој трошкови варања стандарда нису вредни тога.
„Проблем је у томе што када будемо имали ово велико време рада, ако почнете да играте ствари тако што ћете убрзати свој сат брзине или онемогућавање гувернера или нешто слично, почећете да доводите стварну стварну опасност у телефон... Ако ћеш да играш... од тога нећете добити толико. Можда још увек добијете неколико процената, али да ли је заиста вредно тога?" - Џон Пул
Шта се десило
Нажалост, морамо пријавити да су неки ОЕМ-ови поново почели да варају, што значи да би требало да будемо још једном на опрезу. Срећом, произвођачи све више реагују на овакве проблеме, и ако се на то скрене одговарајућа пажња, ово се може брзо поправити. Помало је шокантно видети произвођаче који примењују варање стандарда у светлу колико је лоша реакција била последњи пут када је то покушано (са неким мерилима која потпуно искључују уређаје за варање из њиховог учинка листе). Са том реакцијом која је у супротности с тим колико су мали добици у перформансама од преваре стандарда (са већином покушаја који су резултирали повећањем резултата за мање од 5% прошли пут), заиста смо се надали да ће све ово бити иза нас.
Тајминг овог покушаја је посебно неприкладан, пошто је пре неколико месеци превара на основу стандарда напустила свет да буде чисто забринутост ентузијаста, и ушао је у јавну сферу када су Фолксваген и Фијат Крајслер ухваћени да варају у погледу емисија мерила. Обе компаније су имплементирале софтвер за откривање када њихови дизел аутомобили пролазе кроз тестирање емисија и натерале су их да пређу у режим ниске емисије што је довело до пада њихове уштеде горива, у покушају да се такмиче са бензинским аутомобилима у ефикасности горива док су и даље у оквиру регулаторних граница за емисије тестови. До сада је скандал резултирао милијардама новчаних казни, десетинама милијарди трошкова повлачења и подизањем оптужби - свакако није врста одмазде ОЕМ произвођачи би икада тражили да повећају своје референтне резултате, који су искључиво за поређење корисника и не користе се за мерење било каквог регулаторног захтевима.
Док истражујући како Куалцомм постиже веће брзине отварања апликација на тада новом Куалцомм Снапдрагон 821, приметили смо нешто чудно на ОнеПлус 3Т које нисмо могли да репродукујемо на Ксиаоми Ми Ноте 2 или Гоогле Пикел КСЛ, између осталих Снапдрагон 821 уређаја. Наш главни уредник, Марио Серраферо, користио је Куалцомм Трепн и Снапдрагон Перформанце Висуализер да надгледа како Куалцомм „појачава“ ЦПУ брзину сата приликом отварања апликација и приметио да се одређене апликације на ОнеПлус 3Т не враћају на своје нормалне брзине мировања након отварање. Као опште правило, избегавамо тестирање референтних вредности са отвореним алаткама за праћење перформанси кад год је то могуће због додатних трошкова перформанси које доносе (нарочито на уређајима који нису Снапдрагон, где нема званичних десктоп алата), међутим у овом инциденту су нам помогли да приметимо неко чудно понашање које бисмо вероватно пропустили иначе.
Приликом уласка у одређене апликације за бенцхмаркинг, језгра ОнеПлус 3Т би остала изнад 0,98 ГХз за мала језгра и 1,29 ГХз за велика језгра, чак и када је оптерећење ЦПУ-а пало на 0%. Ово је прилично чудно, јер обично оба сета језгара падају на 0,31 ГХз на ОнеПлус 3Т када нема оптерећења. Када смо ово први пут видели, били смо забринути да је ОнеПлусово скалирање ЦПУ-а једноставно постављено помало чудно, међутим, након даљег тестирања дошли смо до закључка да ОнеПлус мора да циља специфично апликације. Наша хипотеза је била да је ОнеПлус циљао ове бенцхмаркове по имену и да је улазио у алтернативни режим скалирања ЦПУ-а да би повећао своје резултате. Једна од наших главних брига била је да је ОнеПлус можда постављао лабавија термичка ограничења у овом режиму како би избегао проблеме које су имали са ОнеПлус-ом Оне, ОнеПлус Кс и ОнеПлус 2, где су телефони слабо управљали додатним језграма који су долазили онлајн за вишејезгарни део Геекбенцх-а, и повремено значајно смањење као резултат (до тачке у којој је ОнеПлус Кс понекад постигао ниже резултате у одељку са више језгара него у једном одељак језгра). Код нас можете пронаћи тешко пригушивање ОнеПлус 2 рецензија, где смо открили да уређај може да изгуби до 50% свог Геекбенцх 3 вишејезгарног резултата. Касније, када смо почели да упоређујемо пригушивање и термику на различитим уређајима, ОнеПлус 2 постао школски пример онога што произвођачи оригиналне опреме треба да избегавају.
Контактирали смо тим на Примате Лабс (креатори Геекбенцха), који су били инструментални у разоткривању првог таласа варања са бенчмарком, и удружили се са њима за даље тестирање. Донели смо ОнеПлус 3Т у канцеларију Примате Лабс-а у Торонту на почетну анализу. Прво тестирање укључивало је РОМ думп који је открио да ОнеПлус 3Т директно тражи доста апликација по имену. Најважније, ОнеПлус 3Т је тражио Геекбенцх, АнТуТу, Андробенцх, Куадрант, Велламо и ГФКСБенцх. Пошто смо до овог тренутка имали прилично јасне доказе да се ОнеПлус бави варањем стандарда, Примате Лабс је направио “Бобов мини голф пут” верзија Геекбенцх-а 4 за нас. Захваљујући суштинске промене између Геекбенцх 3 и 4, тхе "Мини-голф" верзија је морала да се поново изгради из темеља посебно за ово тестирање. Ова верзија Геекбенцх-а 4 је дизајнирана да избегне било какво откривање бенцхмарк-а, како би се омогућило да Геекбенцх ради нормално апликација на телефонима који варају (иди даље од преименовања пакета који обмањује већину покушаја бенцхмарк-а варање).
Изненађујући пример
Одмах по отварању апликације разлика је била јасна. ОнеПлус 3Т је радио на 0,31 ГХз, као у већини апликација, уместо на 1,29 ГХз за велика језгра и 0,98 ГХз за мала језгра као у обичној Геекбенцх апликацији. ОнеПлус га је учинио агресивнијим регулатором ЦПУ-а, што је резултирало практичним вештачким подом брзине такта у Геекбенцх-у који није постојао у скривеној Геекбенцх верзији. Није се заснивао на радном оптерећењу ЦПУ-а, већ на називу пакета апликације, што би скривена конструкција могла преварити. Иако је разлика у појединачним трчањима била минимална, релаксације термичког пригушења блистају у нашем тесту трајних перформанси, приказаном у наставку.
Из нашег тестирања, чини се да је ово „карактеристика“ Хидроген ОС-а већ дуже време и да није додато Окиген ОС-у све док се заједница не изгради што је довело до издања Ноугат-а (након два РОМ-а су спојена). Помало је разочаравајуће видети, посебно у светлу софтверских проблема које је ОнеПлус имао овог месеца након спајања РОМ-ова, од рањивости покретача до Проблеми са ГПЛ усклађеношћу. Надамо се да ће се, како се прашина слегне након спајања два тима, ОнеПлус вратити у форму и наставити да се позиционира као опција погодна за програмере.
Са "Мини-голф" верзију Геекбенцх-а у руци, изашли смо и почели да тестирамо и друге телефоне за варање референтних вредности. Срећом, наше тестирање није показало варање компанија које су биле умешане у скандал пре пола деценије. Чини се да ХТЦ, Ксиаоми, Хуавеи, Хонор, Гоогле, Сони и други имају конзистентне резултате између стандардне верзије Геекбенцх-а и "Мини-голф" изградити на нашим уређајима за тестирање.
Нажалост, пронашли смо могуће доказе варања референтних вредности које још нисмо у могућности да потврдимо од неколико других компанија, што ћемо даље истраживати. Најгори пример овога био је у Меизу Про 6 Плус са Екинос 8890 погоном, који је превару стандарда одвео у другу крајност.
Ужасан пример
Меизу је историјски поставио своје ЦПУ скалирање изузетно конзервативно. Приметно је да они често постављају своје телефоне тако да велика језгра ретко долазе на мрежу, чак и када су у свом „режиму перформанси“, чинећи водећи процесоре (попут одличних Екинос 8890) које стављају у своје водеће телефоне делују као процесори средњег опсега. Ово је дошло до изражаја прошле године када Анандтецх прозвао Меизу због лоших перформанси на Анандтецховим ЈаваСцрипт бенцхмарковима на Меизу Про 6 базираном на Медиатек Хелио Кс25, и приметио да су велика језгра остала ван мреже током већег дела теста (када је тест требало да ради скоро искључиво на великом језгра). Анандтецх је прошле недеље приметио да је ажурирање софтвера гурнуто на Меизу Про 6 које је коначно омогућило Меизу-у да користи та језгра у потпуности. Анандтецх-ов старији уредник за паметне телефоне, Матт Хумрицк, приметио то „Након ажурирања на Флиме ОС 5.2.5.0Г, ПРО 6 ради знатно боље. Резултати Кракен, ВебКСПРТ 2015 и ЈетСтреам побољшавају се за око 2к-2,5к. Меизу је очигледно прилагодио вредност прага оптерећења, омогућавајући нитима да чешће мигрирају на језгра А72 ради бољих перформанси."
Нажалост, чини се да уместо побољшања скалирања ЦПУ-а за њихове нове уређаје, постаје боље бенчмарк резултати, изгледа да су подесили телефон да се пребаци на коришћење великих језгара када су одређене апликације трчање.
Након отварања апликације за бенцхмаркинг, наш Меизу Про 6 Плус препоручује да пређете у „Режим перформанси“ (који сам је довољно да потврди да траже одређене називе пакета) и чини се да има значајну разлику. Када је у стандардном „балансном режиму“, телефон константно постиже око 604 и 2220 на Геекбенцх-овим једнојезгарним и вишејезгарним одељцима, али у „Режим перформанси“ постиже 1473 и 3906, углавном захваљујући великим језграма који остају искључени током већег дела теста у „Баланце Моде“ и укључују се у „Режим перформанси“. Чини се да Меизу закључава мала језгра на њихову максималну брзину од 1,48 ГХз и поставља тврди под за два своја велика језгра од 1,46 ГХз када раде Геекбенцх док је у „Режиму перформанси“ (са друга два велика језгра је дозвољено да се скалирају слободно и прилично агресивно), што не видимо када трчање тхе "Мини-голф" градити.
Иако могућност избора између режима велике снаге и режима мале снаге може бити лепа карактеристика, у овом случају се чини да то није ништа друго до салонски трик. Меизу Про 6 Плус види пристојне резултате у „Режиму перформанси“ за редовну апликацију Геекбенцх, али када се користи "Мини-голф" буилд Геекбенцх-а, он поново пада на исти ниво перформанси као када је постављен на „Баланце Моде“. Стање виших перформанси на Меизу Про 6 Плус је само за бенцхмаркинг, а не за стварну свакодневну употребу.
Једна ствар коју треба приметити је да када смо тестирали Меизу Про 6 Плус у „Режиму перформанси“ са тајном буилд Геекбенцх-а, велика језгра су била на мрежи ако смо снимали брзине такта са Куалцомм-ом Трепн. Још нисмо утврдили да ли Меизу препознаје да Трепн ради и укључује велика језгра у део због тога, или ако једноставно укључује велика језгра због додатног оптерећења ЦПУ-а ствара. Иако би могло звучати контраинтуитивно да би додатно оптерећење у позадини (као када смо држали укључене графиконе перформанси током теста) повећати резултати бенчмарка, Меизу-ово конзервативно скалирање могло би значити да су додатни трошкови довољно да га гурне преко ивице и позове велика језгра у акцију, чиме се побољшавају перформансе за све задатака.
Када пријемчиви ОЕМ-ови обрате повратне информације...
Након нашег тестирања, обратили смо се ОнеПлус-у у вези са проблемима које смо пронашли. Као одговор на, ОнеПлус је брзо обећао да ће престати да циља апликације за бенцхмаркинг са њиховим варањем, али и даље намерава да га задржи за игре (које се такође проверавају). У будућој верзији ОкигенОС-а, овај механизам неће бити покренут помоћу бенчмарка. ОнеПлус је прихватио наш предлог да додамо и прекидач, тако да корисници знају шта се дешава испод хаубе, а у најмању руку неправедна и обмањујућа предност у мерилима треба да буде исправљен. Међутим, због празника Кинеске Нове године и њиховог заосталих функција, можда ће проћи неко време пре него што видимо опције прилагођавања које се суочавају са корисницима за ову функцију перформанси. Иако само исправљање понашања представља побољшање, још увек је помало разочаравајуће видети редовно апликације (као што су игре), јер је циљ циљати одређене апликације, уместо побољшања стварних перформанси скалирање. Вештачким повећањем агресивности процесора, а самим тим и брзине такта за одређене апликације, уместо побољшања способности телефона да идентификује када му је заиста потребна већа брзине такта, ОнеПлус ствара недоследне перформансе за своје телефоне, што ће постати само очигледније како телефон буде старији и више игара које ОнеПлус није циљао ослобођени. Међутим, имплементација тренутно омогућава боље перформансе игара. ОнеПлус је такође дао изјаву за овај чланак, коју можете прочитати у наставку:
„Да бисмо корисницима пружили боље корисничко искуство у апликацијама и играма са интензивним коришћењем ресурса, посебно графички интензивних први, имплементирали смо одређене механизме у заједници и Ноугат граде да би покренули процесор да ради више агресивно. Процес покретача за бенцхмаркинг апликације неће бити присутан у предстојећим верзијама ОкигенОС-а на ОнеПлус 3 и ОнеПлус 3Т.'
Задовољство нам је да чујемо да ће ОнеПлус уклонити бенчмарк варање са својих телефона. Убудуће ћемо наставити да покушавамо да вршимо притисак на ОЕМ произвођаче да буду љубазнији према потрошачима кад год је то могуће, и пазићемо на будуће преваре стандарда.
Нажалост, једини прави одговор на ову врсту преваре је стална будност. Као заједница ентузијаста паметних телефона, морамо пазити на покушаје да обманемо кориснике попут овога. Не занимају нас сами резултати, већ оно што мерила говоре о перформансама телефона. Док бенчмарк варање још није било активно на ОнеПлус 3 када смо га прегледали, једноставно ажурирање софтвера било је довољно да се дода ова обмањујућа „карактеристика“ и јасно илуструје да провера уређаја на варање стандарда приликом првог покретања није довољно. Проблеми попут овог могу се додати данима, недељама, месецима или чак годинама након што се уређај покрене, вештачки надувавање глобалних просека прикупљених референтним вредностима месецима у наставку, утичући на коначну базу података резултат. Треба напоменути да чак и са овим подешавањима које су произвођачи морали да уложе време и новац да би их развили, обично видимо само неколико процентних поена повећања у референтним резултатима (изузимајући неколико маргиналних случајева као што је Меизу, где варање прикрива много веће проблеме). Неколико процентних поена, што је много мање од јаза између уређаја са најбољим и најлошијим перформансама. Ми бисмо, међутим, тврдили да са уређајима који користе све сличнији хардвер, ти додатни процентни поени могу бити одлучујући фактор у ранг-листима које корисници на крају траже. Боља оптимизација драјвера и паметније скалирање ЦПУ-а могу имати апсолутно огроман утицај на перформансе уређаја, са разликом између резултат уређаја заснованог на Куалцомм Снапдрагон 820 са најбољим перформансама и уређаја са најгорим перформансама (од великог ОЕМ-а) прелази 20% на Геекбенцх. Двадесет процената од оптимизације драјвера, уместо неколико процентних поена од трошења времена и новца на обману корисника. А то је само прича о развојним напорима који могу утицати на референтне резултате. Многе од највећих предности улагања у побољшање софтвера уређаја не појављују се увек на мерилима, при чему ОнеПлус нуди одличне перформансе у стварном свету на својим уређајима. Заиста би требало да буде јасно где у овом случају треба усмерити развојне напоре компаније. Допиремо до више компанија које варају референтне вредности док их пронађемо, и надамо се да су подједнако пријемчиве као ОнеПлус.
Желели бисмо да се још једном захвалимо тиму у Примате Лабс-у што је радио са нама на откривању овог проблема. Било би знатно теже правилно тестирати Бенцхмарк Цхеатинг без „Мини Голф“ издања Геекбенцх-а.