НЕ довіряйте тестам OnePlus 5 в оглядах

click fraud protection

OnePlus 5 знову бере участь у шахрайстві тестів, намагаючись обдурити рецензентів і клієнтів. Дізнайтеся, як вони це зробили, у нашій тематичній статті!

На початку цього року ми опублікував звіт, який засуджував OnePlus (та іншим компаніям) за їхню неналежну поведінку щодо маніпулювання тестами на нових версіях OxygenOS. Сьогодні ми, на жаль, змушені відповісти на наші звинувачення, оскільки компанія знову неналежним чином маніпулювала результатами тестів у OnePlus 5.

Незважаючи на те, що жоден клієнт не має пристрою в руках (зрештою, він щойно запущений), ми дізналися про новий механізм шахрайства OnePlus. через наш відділ перевірки, який ми отримали близько десяти днів тому до того дня, коли ембарго буде розірвано, і рецензентам буде дозволено звітувати про пристрій. На жаль, це майже напевно кожен огляд OnePlus 5, який містить тести, використовує оманливі результати, оскільки OnePlus надав рецензентам пристрій, який обманює тести. Це невибачний крок, оскільки це, зрештою, спроба ввести в оману не лише клієнтів, а й заплямувати роботу рецензентів і журналістів оманливими даними, які більшість не в змозі перевірити перевірити. Як наслідок, кожен огляд OnePlus 5 із посиланням на результати тестів як визнання успіху телефону є вводять в оману як авторів, так і читачів, а аналіз продуктивності, заснований на синтетичних тестах визнано недійсним. Найгірше те, що цього разу,

механізм обману є кричущим і спрямованим на максимізацію ефективності, на відміну від минулого разу, який у середньому не підвищив оцінки значно, але зменшив дисперсію та терморегулювання, як ми знайшли.

Перш ніж перейти до подробиць, я хотів би сказати, що ми розчаровані компанією, яка знову вдається до цих практик. Ми також не будемо надавати повний аналіз продуктивності включаючи всі включені тести, оскільки на багато наших бажаних тестів впливає механізм шахрайства. Нарешті, ми будемо відокремлювати цей звіт від нашого загального судження про сам пристрій, оскільки ми впевнені, код винуватця буде видалено зі споживчих збірок після цього звіту та наших розмов з OnePlus представників. Поки ми не віримо цій тематичній статті обов'язково має змінити ваше сприйняття самого апаратного забезпечення, це правильно, щоб підштовхнути вашу думку про компанію, враховуючи, що це їх друге порушення.


Коротке слово про методологію

Усі бали за цією статтею було отримано на оглядовому пристрої OnePlus 5 під керуванням OxygenOS версії 4.5.0 (A5000_22_170603); це передсерійний блок, і він спочатку був завантажений з попереднім виробництвом програмного забезпечення, яке отримало OTA до версії, зазначеної вище. OnePlus надіслав інструкції рецензентам, щоб увімкнути можливість завантажувати тестові програми Play Store, і, мабуть, це було зроблено для того, щоб не було витоків тестів час. Це підказувало мені той факт, що OnePlus посилався на пакети тестів за назвою у своєму ПЗУ. Що стосується тестування, ПЗУ мала мінімальні фонові процеси без сторонніх програм і запуск режиму польоту, де це можливо; Частоти процесора реєструвалися лише для визначення ступеня шахрайства, а не в тестах, які дали бали для цієї статті. Усі температури вимірювали за допомогою a FLIR C2 Compact з кожним пробігом на витривалість, починаючи з зовнішньої температури 28,5°C | 83,3°F.


Маніпуляції тестами – як це робиться

У січні минулого року в нашому звіті було виявлено механізм шахрайства, знайдений у збірках OxygenOS Beta та програмному забезпеченні доставки OnePlus 3T. Ці зміни ми віднесли до останніх злиття тоді ще розрізнених OxygenOS і HydrogenOS команди розробників і базову кодову базу OxygenOS, яка тепер мала бути спільною з HydrogenOS, хоча ці припущення ще не підтверджені. У той час для нас це було зрозуміло, і коментарі представників OnePlus, зроблені XDA-Developers, додали довіри нашій теорії. З OnePlus 5 ми бачимо інший тип механізму обману, але ми не можемо точно визначити, чи це було свідомо запроваджено тими ж розробниками, які додали його вперше. Ми знаємо лише, що він націлений на ті самі пакети.

Отже, як це працює і в чому різниця? Минулого разу OnePlus вніс зміни в поведінку свого ПЗУ щоразу, коли виявляв, що було відкрито тестову програму. Такі назви додатків були явно перераховані за їхніми ідентифікаторами пакетів у ПЗП у маніфесті, який вказував цілі. Тоді ПЗУ змінюватиме частоту відповідно до налаштованого навантаження на ЦП – наші інструменти показали, що навантаження на ЦП впаде до 0% незалежно від очевидна активність у програмі, і ЦП побачить майже мінімальну частоту 1,29 ГГц у великих ядрах і 0,98 ГГц у маленьких ядер. Ця мінімальна частота зменшувала ефективний діапазон частот, що, у свою чергу, зменшувало кількість крокових частот; у контрольних тестах це призвело до дещо меншої дисперсії та, як ми показали, вищої тривалої продуктивності, оскільки вища мінімальна частота не могла бути перевизначена тепловим тротлінгом. Коротше кажучи, шахрайська поведінка була чіткою та продемонстрованою як шляхом перегляду дисперсії результатів, так і шляхом моніторингу частот ЦП протягом бенчмарк, який показав мінімальну частоту, яка – здебільшого – дозволяла пристрою постійно наближатися до свого повного потенціалу.

З іншого боку, OnePlus 5 — це зовсім інший звір — він використовує очевидні, прораховані механізми обману. ми бачили у флагманах на початку Android, підхід, який явно призначений для максимізації балів у найбільш оманливих мода. Хоча немає перемикачів регуляторів, коли користувач вводить тест (принаймні, ми не можемо побачити це так), мінімальна частота маленького кластера стрибає до максимальної частоти, як видно під регуляторами продуктивності. Усі маленькі ядра зачіпаються та зберігаються на частоті 1,9 ГГц, і саме завдяки цьому чіту OnePlus досягає найвищих показників GeekBench 4 бали Snapdragon 835 на сьогоднішній день - і, ймовірно, найвищий з досягнутих, враховуючи його безкомпромісну конфігурацію з його специфічними конфігурація. Оцінки, безумовно, вищі, ніж ті, що отримані аналогічними пристроями та власним тестовим пристроєм Qualcomm MSM8998 які нам пощастило перевірити. Нижче наведено список контрольних програм, яких це стосується:

  • AnTuTu (com.antutu.benchmark.full)
  • Андробенч (com.andromeda.androbench2)
  • Geekbench 4 (com.primatelabs.geekbench)
  • GFXBench (com.glbenchmark.glbenchmark27)
  • Квадрант (com.aurorasoftworks.quadrant.ui.standard)
  • Ненамарк 2 (se.nena.nenamark2)
  • Велламо (com.quicinc.vellamo)

Що зовсім не дивно зазначені програми точно такі ж, як і минулого разу, і OnePlus явно орієнтується на ті самі пакети. Різниця в балах здебільшого така, якою ви очікували. Нам вдалося підробити шахрайство в тесті та уникнути його за допомогою GeekBench 4, подібно до нашого тестування в нашому останньому звіті. Ми виявили, що під час запуску GeekBench 4 із Play Store пристрій набрав понад 6700 балів у багатоядерному режимі, хоча ми ніколи не отримували оцінку 6500, коли пристрій поводиться належним чином із нашою прихованою збіркою GeekBench. Нижче ви можете побачити графік частоти в часі для маленького кластера OnePlus 5 під час запуску GeekBench 4 із Play Store, та та сама конфігурація, яка запускає збірку GeekBench 4, позбавлену ідентифікаторів, яка здатна обдурити шахрайство OnePlus механізм.

Якщо це не видно з графіка вище: ми опитували частоту процесора кожні 100 мс, і загалом лише 24,4% показань повернули максимальну частоту 1,9 ГГц при відключенні шахрайства. Тим часом, запуск із увімкненим обманом проводив приголомшливі 95% показань у стані максимальної частоти. Абсолютно очевидно, що OnePlus підтримує штучно високі частоти ЦП цих ядер під час тестування, що призводить до значно вищих загальні бали в багатоядерному тесті, а також проявляється в різних прив’язаних до процесора підрахунках у детальній розбивці кожного тесту (зокрема, у цілих і плаваючих числах операції). Однак різниця найбільш чітка і вигідна в багатоядерних результатах, а одноядерні результати насправді напрочуд схожі між прогонами з обманом тестів і без них, причому одноядерний результат був у середньому вищим без маніпуляцій.

Тим не менш, багатоядерність - це цифра, яку більшість людей розглядають і відразу помічають, коли мова йде про цей конкретний тест Android — це високопаралельна операційна система, яка тепер повна багатопоточних програм після багатьох років підтримки кількох ядер. Навіть якщо збільшення буде значущим лише в багатопоточних тестах і тестах, воно все одно призведе до значного, несправедливого і нерепрезентативну перевагу перед іншими пристроями, які дозволяють своїм стандартним регуляторам і налаштуванням продуктивності працювати під орієнтир; ці змінені результати жодним чином не відображають реальну продуктивність OnePlus 5, як вони є що відображає пікову та недосяжну продуктивність пристрою в штучних умовах і без них обмеження.

Дельта оцінки Multi Core між оцінками під час роботи GeekBench 4 із механізмом обману та без нього може становити до 6,5%, хоча в середньому вона становить близько 5%. Це могло б подивіться незначний, але цього поштовху достатньо, щоб випередити пристрій над іншими пристроями на Snapdragon 835. Вище ви можете побачити точкову діаграму кількох незалежних запусків GeekBench 4 з механізмом обману та без нього. Прірва очевидна, і, як можна зробити висновок із коробкового сюжету, вона не може бути результатом внутрішньої дисперсії. Коротше кажучи, штучне підвищення частот процесора справді дає набагато кращі результати в синтетичних тестах.

Нижче ви можете побачити графік продуктивності в часі з супутніми температурами, як ми хотіли визначити чи є теплова релаксація під час гри, чи була різниця в балах під час тривалого бенчмаркінг.

Ми налаштували тести GeekBench 4 з двосекундною перервою між екраном результатів і початком іншого тесту; температуру зовнішнього пристрою (а не температуру батареї, як повідомляє Android) було виміряно за допомогою термометра FLIR камери після секунди калібрування, усереднюючи три безпосередні вимірювання за дві секунди між біжить. Я був досить здивований, побачивши, що загалом ці два пристрої нагрівалися приблизно з однаковою швидкістю, і жоден із них не помітив зниження оцінки. Усі результати в кожному наборі даних знаходяться в межах очікуваної дисперсії, що свідчить про відсутність термічного дроселювання. При ближчому розгляді це справді не повинно стати несподіванкою, враховуючи стійку продуктивність одна з притаманних сильних сторін ядер Cortex-A73, на яких базуються ядра Kryo Snapdragon 835 на. Постраждалі ядра – це енергоефективні ядра, і той факт, що GeekBench 4 спеціально поставляється з заходи для запобігання троттлінгу, який змінює оцінки підтестів ближче до кінця прогону щось ми дізналися з нашого інтерв'ю з Джоном Пулом.

Досить цікаво, що не всі популярні тести підпадають під дію механізму обману OnePlus. 3DMark, наприклад, фактично не бачив жодної з цих проблем під час виконання тестів або навіть відкриття програми. Однак інші тести, такі як GFXBench, націлені, і ми бачимо таку саму поведінку ЦП під час їх відкриття та запуску. Фактично, під час тривалої роботи за допомогою Manhattan Battery Test від GFXBench OnePlus 5 досяг температури понад 50°C | 122°F (зовнішня температура), a дуже рідкісне явище серед пристроїв, які я тестував у минулому, усі вони відчувають певний ступінь теплового дроселювання, що заважає їм отримати саме те, що гарячий.


Обдури мене раз, соромно мені; Обдури мене двічі, соромно

Трохи засмучує те, що дійшло до того, що нам доводиться двічі звинувачувати одну і ту ж компанію в маніпулюванні результатами тестів. Той факт, що все це також було зроблено на одиницях перегляду, ще більше загострює проблему: цей механізм обману спрямований на максимізацію продуктивності та надання пристрою кращого або швидшого вигляду в розділах оглядів про продуктивність. Система націлювання та маніпуляції була упакована в попередні випуски, надіслані журналістам, які створять їх на своїх пристроях від OnePlus, багато з них не можуть або не бажають перевірити наявність шахрайства у своїх блок огляду. Це ні в якому разі не їхня провина, але XDA шукає маніпуляції з тестами тільки тому, що ми виявили це в минулому, і ми вважали за краще повідомити наших читачів і потенційних покупців телефонів.

Ми сподіваємося, що ця стаття може відновити ширшу розмову про тести, їхню роль і корисність у сьогоднішніх оглядах смартфонів. Не помиляйтеся, такі компанії, як Qualcomm і Samsung робити дбають про контрольні показники, і вони дійсно вважають їх дійсним, хоча й неповним, способом оцінки клієнтами продуктивності своїх пристроїв, навіть якщо вони мають більш складні інструменти, на які можна звернутись під час розробки процесори. Зрештою, контрольні показники можуть мати велике значення, якщо розуміти, що вимірює програмне забезпечення, і в якій мірі його результати можуть бути використані для визначення рейтингу певного процесора, певної конфігурації апаратного забезпечення або, кажучи більш цілісно, ​​конкретного телефону зі змінами в поведінці, які вносить його програмне забезпечення Ну. Я вважаю, що ми настали в той час, коли важливіше зосередитися на реальній продуктивності та енергоефективності, ніж на необроблених обчисленнях чи обробці доблесть, тому що на даний момент очевидно, що вузьке місце для продуктивності в реальному світі походить від Android і його конкретних реалізацій OEM-виробники.

Повертаючись до OnePlus, я справді не знаю, чому команда програмного забезпечення компанії та яка саме сторона команди програмного забезпечення знову запровадила маніпуляції тестами після того, як їх викликали. Цього разу все гірше, з очевидною метою завищити оцінки, отримані від телефонів рецензентів. OnePlus 5 все ще є неймовірно продуктивним пристроєм, якому справді не потрібні шахрайські тести, щоб зробити заяву – справді, я був вражений його плавністю та загальним чуйність, і після мого часу з пристроями компанії, а також інтерв’ю та розмов з їхнім керівництвом мені стало зрозуміло, що вони знають, що ефективність є сильним аспектом їхні телефони. Швидше за все, це прорахований крок, оскільки вони могли зрозуміти, що варто дратувати невеликий сектор перш за все-західна сторона ринку ентузіастів, щоб, можливо, здобути в Інтернеті найвищі результати тестування міг зібрати. У будь-якому випадку, я щиро сподіваюся, що компанія виправдає цю помилку, оскільки, хоча я маю багато чого сказати про їх апаратне забезпечення, вони почали випуск не з тієї точки зору.


Заява OnePlus

Ми звернулися до OnePlus, щоб отримати коментар щодо цієї проблеми, і ось що вони сказали:

Люди використовують програми для тестування, щоб перевірити продуктивність свого пристрою, і ми хочемо, щоб користувачі бачили справжню продуктивність OnePlus 5. Таким чином, ми дозволили тестовим програмам працювати в стані, подібному до щоденного використання, включаючи запуск ресурсомістких програм та ігор. Крім того, під час запуску програм OnePlus 5 працює в подібному стані, щоб збільшити швидкість відкриття програм. Ми не розганяємо пристрій, а показуємо потенціал продуктивності OnePlus 5.

Почути цю заяву, яку ми отримали сьогодні вранці, дещо шокувало, оскільки обман тесту переводить пристрій у стан, який явно ні як пристрій працюватиме під час повсякденного використання, і він представляє продуктивність, яку ви не побачите в інших програмах, на які не націлені такі прискорення.

Майте на увазі, що на відміну від конкурентного розгону, більшість тестів телефонів розроблено для того, щоб показати, як телефон працюватиме під час щоденного використання. Це не просто оцінка, щоб спробувати досягти найвищих результатів, а скоріше спроба показати, як працює телефон за регулярних теплових профілів і використання батареї. Спроба представити, як телефон насправді працює під час щоденного використання. Ці контрольні показники не призначені для вимірювання якогось «потенціалу продуктивності», якого неможливо досягти в реальному світі використання, і будь-які спроби націлити їх за допомогою шахрайського коду порівняльного тесту в стилі «знищити пристрій» вводять користувачів в оману. Якщо ви заблокуєте тактову частоту процесора до максимального значення та дозволите температурі корпусу телефону піднятися до непридатного для використання рівні, коли відкриваються певні програми, то це не вказує на те, як телефон працюватиме насправді використовувати.

Хоча тепловий профіль був відносно нормальним у Geekbench 4 із важким процесором, де фантастична стабільна продуктивність ядер Kryo 280 на базі ARM Cortex-A73 дозволяє щоб телефон працював із підвищеним рівнем використання батареї, яке принесло шахрайство тесту, не перегріваючись, ми побачили зовсім іншу історію з додатками, що інтенсивно використовують GPU. Як згадувалося, під час тестування стійкої продуктивності за допомогою Manhattan Battery Test від GFXBench OnePlus 5 досяг температура близько 50°C | 122°F (зовнішня температура), що дуже жарко для телефону, і цілком незручно тримати. Спроба грати у відеоігри чи використовувати інші додатки, що інтенсивно використовують графічний процесор, при температурі 50°C | Телефон із температурою 122°F буде просто поганим користуванням.

Навіть якщо OnePlus також націлюється на програми, які не є тестовими, за допомогою свого коду тестування, це все одно буде проблемою, оскільки це означатиме, що продуктивність, яку ви бачите в інтенсивні програми сьогодні будуть повністю відрізнятися від того, що ви бачите в поточних програмах, яких немає в списку, або в майбутніх інтенсивних програмах, коли OnePlus перестане оновлювати список. Це можна змінити, дозволивши користувачам додавати в білий список програми, які отримують переваги від прихованих посилень, а також прозоро відображати, які отримують переваги від умовчання – ми пропонували це в нашому останньому звіті, але цього не було реалізовано.

Ми розчаровані діями OnePlus у цьому питанні та сподіваємося, що OnePlus вдруге видалить шахрайський код тесту зі свого програмного забезпечення. Це неправдиве представлення їхніх телефонів своїм клієнтам, і це не та поведінка, яку ми хотіли б бачити з такими приголомшливими пристроями, як OnePlus 3T і OnePlus 5.


ОНОВЛЕНА ЗАЯВА

OnePlus надала оновлену заяву, яка краще пояснює їхню позицію з цього питання:

«Ми налаштували OnePlus 5 на виконання тестів на високопродуктивному рівні, який є природним і стійким для всіх пристроїв, засобів масової інформації та споживачів, щоб користувачі могли бачити справжній потенціал пристрою під час запуску програм, що потребують ресурсів, і ігри. Ми жодного разу не розганяємо ЦП і не встановлюємо мінімальну частоту ЦП.

Ми впевнені, що наш підхід найкраще відображає справжню продуктивність OnePlus 5».

У заяві правильно зазначено, що розгін не передбачається (що було б на один крок вище поточного механізм, з точки зору отримання неправомірних оцінок), і немає мінімальної частоти ЦП, як ми фактично бачили останнього разу. Завдяки цій заяві та після розмов із представниками OnePlus мені стало ясно, що вони не запровадили цей механізм із чистого злого наміру, але тому, що вони хотіли показати продуктивність «можливостей» пристрій. Але, ще раз, ми повинні зазначити, що «здатності» тут (і до них) стосуються максимального потенціалу, а не фактичний рівень продуктивності, який користувач зобов’язаний забезпечити через традиційну частоту масштабування. Погодьтеся чи ні, підтверджено, що ця маніпуляція тестами залишиться, хоча ми запропонували можливість зробити такий профіль продуктивності доступним для користувачів для вибраних програм, і я вважаю, що OnePlus сприйме це ідея. Є й інші компанії, які роблять такі налаштування доступними для користувачів, зокрема HTC і Samsung, хоча їхні рішення в основному спрямовані на зменшення споживання енергії (хоча зміни роздільної здатності для кожної програми підвищують продуктивність в іграх, теж).

Факт залишається фактом: виробники тестів, інженери та ентузіасти Android вважають ці механізми несправедливими, нерепрезентативними досвід користувача, трохи оманливий і, зрештою, марна трата ресурсів, які могли б піти на інший аспект розробки продукту. Якщо ви хочете побачити, наскільки сильно OnePlus 5 може просувати своє апаратне забезпечення, то ви, швидше за все, погодитеся з рішенням OnePlus. Якщо ви хочете побачити, як у OnePlus 5 поєднання апаратного забезпечення та стандартного програмного забезпечення порівнюється з іншими пристроями схоже обладнання, вам не пощастило, тому що маніпулювання частотами ЦП таким чином повністю дає оцінки несумірний.

Нарешті, ризикуючи виглядати конфронтаційним, я також хотів би згадати те, що мені не сподобалося у сприйнятті цього звіту: він був тисячі разів поширювався по всьому світу, а також повторно публікувався в блозі тисячами джерел, але його повідомлення та деталі або оповиті туманом, або повністю опущені шлях. Я бачив таке відверте та жахливе некоректне висвітлення цієї статті, з жахливим спотворення того, що ми сказали, що ми знайшли, самого механізму та заяви OnePlus і плани на майбутнє. Насправді, ось деякі речі, які я хочу, щоб такі блоги знали: OnePlus не «підтасовував» блоки рецензентів; питання також поширюється на споживчі одиниці; це свідоме рішення OnePlus; ні, вони не сказали нам, що зміниться; терморегулювання може бути послабленим, але телефон не загрожує вибухом; відсутній «чіт-код»; ми насправді задоволені фактичною продуктивністю пристрою, не перекручуйте слів; Qualcomm не має до цього відношення; ми ніколи не «ганьбили» HTC і Samsung у наших звітах, ми згадували їх побіжно та для контексту в нашій першій статті через набагато давніший інцидент. Це лише частина поширених помилок, які я хотів би вирішити. Забагато статей і відео, які ми бачили, мали фундаментальний недолік і непорозуміння, які, на нашу думку, знищили години ретельного збору й аналізу даних, які були використані для цієї статті. Що ще гірше, проблема загострюється, коли ми читаємо індійські чи китайські блоги, які ще більше руйнують наші висновки через притаманні труднощі перекладу. Зрештою, ми надзвичайно розчаровані тим, як технічні ЗМІ поставилися до цього звіту, особливо тими, хто використав наш висновок, щоб написати «хітові статті» проти OnePlus, чого ми насправді ніколи не збиралися. Ми сказали це вище, ми сказали це під час наших перших вражень, і ми повторили це ще раз: сам продукт хороший, продуктивність феноменальна.