Kecurangan Benchmark Terjadi Kembali: Bagaimana OnePlus dan Lainnya Tertangkap, dan Apa yang Telah Mereka Lakukan Tentang Hal Itu

OnePlus dan Meizu ketahuan melakukan kecurangan pada benchmark. XDA menyelidiki bagaimana hal itu terjadi, dan apa yang dapat dilakukan untuk mencegah hal itu terjadi lagi.

Beberapa tahun yang lalu terjadi keributan besar, ketika banyak pabrikan besar ketahuan melakukan kecurangan dalam benchmark. OEM dari semua ukuran (termasuk Samsung, HTC, Sony, dan LG) mengambil bagian dalam perlombaan senjata ini dalam upaya untuk menipu pengguna tanpa ketahuan, namun untungnya mereka akhirnya menghentikan kecurangan benchmark setelah beberapa diskusi jujur dengan pakar industri dan jurnalis.

Kembali pada tahun 2013, itu terjadi telah menemukan bahwa Samsung secara artifisial meningkatkan kecepatan jam GPU-nya pada aplikasi tertentu, sehingga memicu serangkaian investigasi menjadi kecurangan benchmark di seluruh jajaran produsen. Pada saat itu, penyelidikan menemukan bahwa hampir semua produsen kecuali Google/Motorola terlibat dalam kecurangan benchmark. Mereka semua menginvestasikan waktu dan uang dalam upaya untuk meningkatkan kinerja ekstra dari ponsel mereka dalam benchmark, dengan cara yang tidak akan memberikan efek positif pada penggunaan sehari-hari, sebagai upaya untuk membodohi pengguna dengan berpikir bahwa ponsel mereka lebih cepat dari yang sebenarnya adalah. Upaya pengembangan ini dilakukan secara keseluruhan, mulai dari menetapkan kecepatan jam minimum, memaksa kecepatan jam ke pengaturan maksimum, hingga menciptakan pengaturan khusus yang lebih tinggi. status daya dan kecepatan clock khusus yang hanya tersedia saat melakukan benchmarking, dengan upaya ini sering kali hanya menghasilkan peningkatan beberapa poin persentase tolok ukur.

Ada kemarahan yang besar ketika hal ini diketahui, karena upaya kecurangan benchmark ini bertentangan dengan inti dari benchmark itu sendiri. Sebagian besar tolok ukur tidak ada untuk memberi tahu Anda kinerja maksimum teoritis ponsel dalam kondisi laboratorium dapat direproduksi dalam penggunaan sehari-hari, namun mereka ada untuk memberi Anda referensi untuk perbandingan dunia nyata antara telepon. Setelah sedikit kecaman publik (dan beberapa percakapan pribadi) dari publikasi teknologi, pemimpin industri, dan perusahaan masyarakat umum, sebagian besar produsen mendapat pesan bahwa kecurangan benchmark tidak dapat diterima, dan dihentikan sebagai a hasil. Sebagian besar dari sedikit yang tidak berhenti pada saat itu berhenti segera setelahnya, karena ada perubahan besar yang dilakukan terhadap berapa banyak tolok ukur yang dijalankan, dalam upaya untuk mencegah kecurangan tolok ukur (dengan mengurangi manfaat dari dia). Banyak tolok ukur yang dibuat lebih panjang sehingga pelambatan termal dari pemaksimalan kecepatan clock akan segera terlihat.

ketika kita diwawancarai John Poole, pencipta Geekbench, topik kecurangan benchmark dan apa yang dapat dilakukan perusahaan seperti Primate Labs untuk mencegahnya muncul. Primate Labs khususnya membuat Geekbench 4 sedikit lebih lama dibandingkan Geekbench 3, sebagian untuk mengurangi efek kecurangan benchmark. Mengurangi manfaat untuk menjamin pembangunan biaya kecurangan benchmark tidak sepadan.

“Masalahnya adalah ketika kita memiliki waktu proses yang besar, Anda harus mulai bermain game dengan meningkatkan jam kerja Anda kecepatan atau menonaktifkan gubernur atau sesuatu seperti itu, Anda akan mulai menimbulkan bahaya nyata telepon... Jika Anda ingin memainkannya... Anda tidak akan mendapatkan banyak manfaat darinya. Anda mungkin masih mendapatkan beberapa persen, tapi apakah itu benar-benar layak?" - John Poole

Apa yang telah terjadi

Sayangnya, kami harus melaporkan bahwa beberapa OEM mulai melakukan kecurangan lagi, yang berarti kami harus mewaspadainya sekali lagi. Untungnya, produsen semakin responsif terhadap masalah seperti ini, dan dengan perhatian yang tepat, masalah ini dapat diperbaiki dengan cepat. Agak mengejutkan melihat produsen menerapkan kecurangan benchmark mengingat betapa buruknya reaksi yang ditimbulkan terakhir kali dicoba (dengan beberapa tolok ukur yang sepenuhnya mengecualikan perangkat curang dari kinerjanya daftar). Hal ini kontras dengan betapa kecilnya peningkatan kinerja yang biasanya didapat dari kecurangan benchmark (pada sebagian besar kasus). dari upaya yang menghasilkan peningkatan skor kurang dari 5% terakhir kali), kami benar-benar berharap bahwa semua ini akan tertinggal kita.

Pemilihan waktu untuk upaya ini sangat tidak tepat, karena beberapa bulan yang lalu kecurangan benchmark membuat dunia menjadi murni sebuah kesalahan perhatian antusias, dan memasuki ranah publik ketika Volkswagen dan Fiat Chrysler sama-sama ketahuan melakukan kecurangan dalam emisi mereka tolak ukur. Kedua perusahaan menerapkan perangkat lunak untuk mendeteksi kapan mobil diesel mereka sedang menjalani uji emisi, dan mengalihkannya ke mode rendah emisi yang mengalami penurunan penghematan bahan bakar, dalam upaya untuk bersaing dengan mobil berbahan bakar bensin dalam hal efisiensi bahan bakar namun tetap berada dalam batas peraturan emisi tes. Sejauh ini skandal tersebut telah mengakibatkan denda miliaran dolar, biaya penarikan kembali sebesar puluhan miliar, dan tuntutan yang dikenakan – tentu saja bukan bentuk pembalasan. OEM akan melihat peningkatan skor benchmark mereka, yang murni untuk perbandingan pengguna dan tidak digunakan untuk mengukur peraturan apa pun. persyaratan.

Ketika menyelidiki bagaimana Qualcomm mencapai kecepatan pembukaan aplikasi yang lebih cepat pada Qualcomm Snapdragon 821 yang baru, kami melihat sesuatu yang aneh pada OnePlus 3T bahwa kami tidak dapat mereproduksi di Xiaomi Mi Catatan 2 atau itu Google Piksel XL, di antara perangkat Snapdragon 821 lainnya. Pemimpin redaksi kami, Mario Serrafero, menggunakan Qualcomm Trepn dan Snapdragon Performance Visualizer untuk memantau bagaimana Qualcomm “meningkatkan” CPU kecepatan jam saat membuka aplikasi, dan memperhatikan bahwa aplikasi tertentu di OnePlus 3T tidak kembali ke kecepatan idle normal setelahnya pembukaan. Sebagai pedoman umum, kami menghindari pengujian tolok ukur dengan alat pemantauan kinerja terbuka bila memungkinkan karena tambahan overhead kinerja yang ditimbulkannya. (khususnya pada perangkat non-Snapdragon yang tidak memiliki alat desktop resmi), namun dalam kejadian ini mereka membantu kami memperhatikan beberapa perilaku aneh yang mungkin kami lewatkan. jika tidak.

Saat memasuki aplikasi benchmarking tertentu, core OnePlus 3T akan tetap berada di atas 0,98 GHz untuk core kecil dan 1,29 GHz untuk core besar, bahkan ketika beban CPU turun hingga 0%. Ini cukup aneh, karena biasanya kedua set inti turun menjadi 0,31 GHz pada OnePlus 3T saat tidak ada beban. Saat pertama kali melihat ini, kami khawatir bahwa penskalaan CPU OnePlus diatur agak aneh, namun setelah pengujian lebih lanjut kami sampai pada kesimpulan bahwa OnePlus harus menargetkan secara spesifik aplikasi. Hipotesis kami adalah OnePlus menargetkan tolok ukur ini berdasarkan nama, dan memasuki mode penskalaan CPU alternatif untuk meningkatkan skor tolok ukurnya. Salah satu kekhawatiran utama kami adalah OnePlus mungkin menetapkan pembatasan termal yang lebih longgar dalam mode ini untuk menghindari masalah yang mereka alami dengan OnePlus. Satu, OnePlus X, dan OnePlus 2, di mana ponsel menangani inti tambahan yang online untuk bagian multi-inti Geekbench dengan buruk, dan akibatnya kadang-kadang melambat secara substansial (sampai pada titik di mana OnePlus X kadang-kadang mendapat skor lebih rendah di bagian multi-inti daripada di bagian tunggal bagian inti). Anda dapat menemukan pelambatan berat di kami Ulasan OnePlus 2, di mana kami menemukan bahwa perangkat tersebut dapat kehilangan hingga 50% skor multi-core Geekbench 3-nya. Kemudian, ketika kami mulai membandingkan pelambatan dan termal di seluruh perangkat, OnePlus 2 menjadi contoh buku teks tentang apa yang harus dihindari oleh OEM.

Kami menghubungi tim di Laboratorium Primata (pencipta Geekbench), yang berperan penting dalam mengungkap gelombang pertama kecurangan benchmark, dan bermitra dengan mereka untuk pengujian lebih lanjut. Kami membawa OnePlus 3T ke kantor Primate Labs di Toronto untuk beberapa analisis awal. Pengujian awal termasuk dump ROM yang menemukan bahwa OnePlus 3T secara langsung mencari beberapa aplikasi berdasarkan nama. Terutama, OnePlus 3T mencari Geekbench, AnTuTu, Androbench, Quadrant, Vellamo, dan GFXBench. Karena pada titik ini kami memiliki bukti yang cukup jelas bahwa OnePlus terlibat dalam kecurangan benchmark, Primate Labs membuat a “Putt Golf Mini Bob” versi Geekbench 4 untuk kami. Terima kasih kepada perubahan substansial antara Geekbench 3 dan 4, itu “Golf Mini” versi harus dibangun kembali dari awal khusus untuk pengujian ini. Versi Geekbench 4 ini dirancang untuk menghindari deteksi benchmark apa pun, agar Geekbench dapat berjalan seperti biasa aplikasi pada ponsel yang curang (melampaui penggantian nama paket yang mengelabui sebagian besar upaya benchmark curang).

Contoh yang Mengejutkan

Segera setelah membuka aplikasi, perbedaannya terlihat jelas. OnePlus 3T berhenti pada 0,31 GHz, seperti yang terjadi pada sebagian besar aplikasi, bukan pada 1,29 GHz untuk inti besar dan 0,98 GHz untuk inti kecil seperti pada aplikasi Geekbench biasa. OnePlus menjadikannya pengatur CPU lebih agresif, menghasilkan kecepatan jam buatan yang praktis di Geekbench yang tidak ada di build Geekbench yang tersembunyi. Itu tidak didasarkan pada beban kerja CPU, melainkan pada nama paket aplikasi, yang dapat ditipu oleh build tersembunyi. Meskipun perbedaan dalam setiap proses lari sangat kecil, relaksasi pelambatan termal terlihat jelas dalam uji performa berkelanjutan kami, yang ditunjukkan di bawah ini.

Dari pengujian kami, tampak bahwa ini telah menjadi “fitur” dari Hydrogen OS selama beberapa waktu, dan tidak ditambahkan ke Oxygen OS hingga komunitas membangunnya menjelang rilis Nougat (setelah peluncuran Nougat). dua ROM digabungkan). Agak mengecewakan untuk dilihat, terutama mengingat masalah perangkat lunak yang dialami OnePlus bulan ini setelah penggabungan ROM, dari kerentanan bootloader ke Masalah kepatuhan GPL. Kami berharap ketika masalah mereda setelah penggabungan kedua tim, OnePlus akan kembali ke performa terbaiknya, dan terus memposisikan diri sebagai opsi yang ramah pengembang.

Dengan “Golf Mini” versi Geekbench di tangan, kami keluar dan mulai menguji ponsel lain untuk kecurangan benchmark juga. Syukurlah pengujian kami tidak menunjukkan adanya kecurangan yang dilakukan oleh perusahaan-perusahaan yang terlibat dalam skandal tersebut setengah dekade lalu. HTC, Xiaomi, Huawei, Honor, Google, Sony, dan lainnya tampaknya memiliki skor yang konsisten antara Geekbench biasa dan “Golf Mini” membangun perangkat pengujian kami.

Sayangnya, kami menemukan kemungkinan bukti kecurangan benchmark yang belum dapat kami konfirmasi dari beberapa perusahaan lain, yang akan kami selidiki lebih lanjut. Contoh terburuk dari hal ini terjadi pada Meizu Pro 6 Plus yang didukung Exynos 8890, yang membawa kecurangan benchmark ke tingkat yang ekstrim.

Contoh yang Mengerikan

Meizu secara historis mengatur skala CPU mereka dengan sangat konservatif. Khususnya, mereka sering mengatur ponsel mereka sehingga inti-inti besar jarang online, bahkan ketika dalam “mode kinerja”, menjadikan prosesor andalan (seperti prosesor unggulan). Exynos 8890) yang mereka masukkan ke dalam ponsel andalan mereka bertindak seperti prosesor kelas menengah. Hal ini mencapai puncaknya tahun lalu ketika Anandtech menyebut Meizu karena kinerjanya yang buruk pada benchmark JavaScript Anandtech pada Meizu Pro 6 berbasis Mediatek Helio X25, dan mencatat bahwa core besar tetap offline untuk sebagian besar pengujian (saat pengujian seharusnya berjalan hampir secara eksklusif pada core besar inti). Anandtech memperhatikan minggu lalu bahwa pembaruan perangkat lunak telah diterapkan ke Meizu Pro 6 yang akhirnya memungkinkan Meizu untuk menggunakan inti tersebut secara maksimal. Editor Senior Ponsel Cerdas Anandtech, Matt Humrick, berkomentar itu “Setelah memperbarui ke Flyme OS 5.2.5.0G, kinerja PRO 6 jauh lebih baik. Skor Kraken, WebXPRT 2015, dan JetStream meningkat sekitar 2x-2,5x. Meizu rupanya menyesuaikan nilai ambang batas beban, memungkinkan thread untuk bermigrasi ke inti A72 lebih sering untuk kinerja yang lebih baik."

Sayangnya, tampaknya alih-alih meningkatkan penskalaan CPU agar perangkat baru mereka menjadi lebih baik skor benchmark, mereka tampaknya telah mengatur ponsel untuk beralih menggunakan inti besar ketika aplikasi tertentu digunakan berlari.

Saat membuka aplikasi pembandingan, Meizu Pro 6 Plus kami menyarankan Anda beralih ke "Mode Kinerja" (yang mana saja sudah cukup untuk mengonfirmasi bahwa mereka mencari nama paket tertentu), dan tampaknya hal ini membuat perbedaan besar. Ketika berada dalam “Mode Keseimbangan” standar, ponsel ini secara konsisten mendapat skor sekitar 604 dan 2220 pada bagian single-core dan multi-core Geekbench, namun dalam “Mode Performa” mendapat skor 1473 dan 3906, sebagian besar berkat inti besar yang tidak aktif selama sebagian besar pengujian dalam “Mode Keseimbangan”, dan menyala di "Mode performa". Meizu tampaknya mengunci inti kecil ke kecepatan maksimum 1,48 GHz, dan menetapkan batas keras untuk dua inti besarnya sebesar 1,46 GHz saat dijalankan. Geekbench saat berada dalam “Mode Performa” (dengan dua core besar lainnya diizinkan untuk melakukan penskalaan secara bebas, dan cukup agresif), yang tidak kita lihat saat menjalankan “Golf Mini” membangun.

Meskipun dapat memilih antara mode daya tinggi dan mode daya rendah dapat menjadi fitur yang bagus, dalam hal ini tampaknya tidak lebih dari sekadar trik ruang tamu. Meizu Pro 6 Plus mendapatkan skor yang layak dalam “Mode Kinerja” untuk aplikasi Geekbench biasa, tetapi saat menggunakan “Golf Mini” dibangun di Geekbench, kinerjanya turun kembali ke tingkat yang sama seperti saat disetel ke "Mode Keseimbangan". Status kinerja yang lebih tinggi pada Meizu Pro 6 Plus hanya untuk benchmarking, bukan untuk penggunaan sehari-hari.

Satu hal yang perlu diperhatikan adalah saat kami menguji Meizu Pro 6 Plus dalam “Performance Mode” dengan rahasianya dibangun dari Geekbench, core besar menjadi online jika kami merekam kecepatan clock dengan Qualcomm Trepn. Kami belum menentukan apakah Meizu mengenali Trepn sedang berjalan dan mengaktifkan inti besar sebagian karena itu, atau jika itu hanya menyalakan inti besar karena beban CPU tambahan yang dimilikinya menciptakan. Meskipun mungkin terdengar berlawanan dengan intuisi bahwa beban tambahan di latar belakang (seperti saat kami terus mengaktifkan grafik kinerja selama pengujian) akan meningkatkan Sebagai hasil dari tolok ukur, penskalaan konservatif Meizu dapat berarti bahwa terdapat overhead tambahan cukup untuk mendorongnya melampaui batas, dan menggerakkan inti-inti besar untuk bertindak, sehingga meningkatkan kinerja untuk semua tugas.

Saat OEM yang reseptif menanggapi umpan balik...

Setelah pengujian kami, kami menghubungi OnePlus tentang masalah yang kami temukan. Sebagai tanggapan, OnePlus dengan cepat berjanji untuk berhenti menargetkan aplikasi benchmarking dengan kecurangan benchmark mereka, namun tetap berniat menyimpannya untuk game (yang juga mendapatkan benchmark). Pada versi OxygenOS mendatang, mekanisme ini tidak akan dipicu oleh benchmark. OnePlus telah menerima saran kami untuk menambahkan tombol sakelar juga, sehingga pengguna mengetahui apa yang sedang terjadi di bawah tenda, dan paling tidak seharusnya ada keuntungan yang tidak adil dan menyesatkan dalam tolok ukur dikoreksi. Namun, karena libur Tahun Baru Imlek dan simpanan fitur-fiturnya, mungkin perlu beberapa saat sebelum kita melihat opsi penyesuaian yang dapat dilihat pengguna untuk fitur kinerja ini. Meskipun memperbaiki perilaku saja sudah merupakan kemajuan, namun masih sedikit mengecewakan jika dilihat secara teratur aplikasi (seperti game), karena ini merupakan penopang untuk menargetkan aplikasi tertentu, alih-alih meningkatkan kinerja sebenarnya penskalaan. Dengan secara artifisial meningkatkan agresivitas prosesor, dan juga kecepatan clock untuk aplikasi tertentu, alih-alih meningkatkan kemampuan ponsel untuk mengidentifikasi kapan aplikasi tersebut benar-benar memerlukan aplikasi yang lebih tinggi. kecepatan jam, OnePlus menciptakan kinerja yang tidak konsisten untuk ponsel mereka, yang hanya akan menjadi lebih jelas seiring bertambahnya usia ponsel dan semakin banyak game yang tidak ditargetkan oleh OnePlus. dilepaskan. Namun, implementasinya saat ini memungkinkan game untuk tampil lebih baik. OnePlus juga memberikan pernyataan untuk artikel ini, yang dapat Anda baca di bawah:

'Untuk memberikan pengalaman pengguna yang lebih baik kepada pengguna dalam aplikasi dan game yang intensif sumber daya, terutama intensif grafis pertama, kami menerapkan mekanisme tertentu di komunitas dan Nougat dibuat untuk memicu prosesor agar berjalan lebih banyak secara agresif. Proses pemicu untuk pembandingan aplikasi tidak akan ada di OxygenOS mendatang yang dibangun pada OnePlus 3 dan OnePlus 3T.'

Kami senang mendengar bahwa OnePlus akan menghapus kecurangan benchmark dari ponsel mereka. Ke depan, kami akan terus berupaya menekan OEM agar lebih ramah konsumen jika memungkinkan, dan akan mewaspadai kecurangan benchmark di masa mendatang.

Sayangnya, satu-satunya jawaban nyata terhadap penipuan jenis ini adalah kewaspadaan terus-menerus. Sebagai komunitas penggila ponsel pintar, kita perlu mewaspadai upaya penipuan terhadap pengguna seperti ini. Kami tidak tertarik pada skor benchmark itu sendiri, melainkan apa yang dikatakan benchmark tentang kinerja ponsel. Sedangkan kecurangan benchmark belum aktif di OnePlus 3 ketika kami meninjaunya, pembaruan perangkat lunak sederhana sudah cukup untuk menambahkan “fitur” yang menyesatkan ini, dan menggambarkan dengan jelas bahwa memeriksa perangkat untuk mengetahui kecurangan benchmark saat pertama kali diluncurkan tidaklah demikian cukup. Masalah seperti ini dapat terjadi beberapa hari, minggu, bulan, atau bahkan bertahun-tahun setelah perangkat diluncurkan, secara artifisial menggembungkan rata-rata global yang dikumpulkan berdasarkan tolok ukur beberapa bulan ke depan, sehingga memengaruhi basis data akhir hasil. Perlu dicatat bahwa bahkan dengan perubahan ini, produsen harus menginvestasikan waktu dan uang untuk mengembangkannya, kami biasanya hanya melihat peningkatan beberapa poin persentase dalam skor benchmark (tidak termasuk beberapa kasus pinggiran seperti Meizu, di mana kecurangan tersebut menutupi masalah yang jauh lebih besar). Beberapa poin persentase, yang jauh lebih kecil dibandingkan kesenjangan antara perangkat berperforma terbaik dan perangkat berperforma terburuk. Namun kami berargumentasi bahwa dengan perangkat yang menjalankan perangkat keras yang semakin mirip, poin persentase tambahan tersebut mungkin menjadi faktor penentu dalam grafik peringkat yang pada akhirnya dicari oleh pengguna. Pengoptimalan driver yang lebih baik dan penskalaan CPU yang lebih cerdas dapat memberikan dampak yang sangat besar pada kinerja perangkat, apa pun perbedaannya skor perangkat berbasis Qualcomm Snapdragon 820 dengan performa terbaik dan perangkat dengan performa terburuk (dari OEM besar) melebihi 20% pada meja geek. Dua puluh persen dari pengoptimalan pengemudi, dibandingkan beberapa poin persentase dari menghabiskan waktu dan uang untuk menipu pengguna Anda. Dan itu baru berbicara tentang upaya pengembangan yang dapat mempengaruhi skor benchmark. Banyak manfaat terbesar dari berinvestasi dalam peningkatan perangkat lunak perangkat tidak selalu muncul di benchmark, dengan OnePlus menawarkan kinerja dunia nyata yang luar biasa di perangkat mereka. Dalam hal ini, harus jelas di mana upaya pengembangan perusahaan harus difokuskan. Kami menjangkau lebih banyak perusahaan yang melakukan kecurangan pada benchmark saat kami menemukannya, dan kami berharap mereka menerima hal yang sama seperti OnePlus.

Kami sekali lagi mengucapkan terima kasih kepada tim di Primate Labs yang telah bekerja sama dengan kami untuk mengungkap masalah ini. Akan jauh lebih sulit untuk menguji Kecurangan Benchmark dengan benar tanpa Geekbench edisi “Mini Golf”.