レビューでの OnePlus 5 ベンチマークを信頼しないでください

OnePlus 5 は、レビュアーと顧客をだますために、再びベンチマーク不正行為に参加しています。 彼らがどのようにそれを実現したのかは、特集記事でご覧ください。

今年の初めに、私たちは OnePlusを非難するレポートを発表 OxygenOS の新しいビルドでのベンチマーク操作に関する不適切な行為に対して (および他の企業)。 本日、同社が再びベンチマークスコアを不適切に操作していたとして、残念ながら私たちの告発を追跡調査しなければなりません。 ワンプラス5.

デバイスを手に持っている顧客はいませんが (結局のところ、発売されたばかりです)、私たちは OnePlus の新しいベンチマーク不正行為メカニズムについて学びました。 私たちのレビューユニットを通じてこれは、禁輸措置が解除されレビュー担当者がデバイスについて報告できるようになる日の約 10 日前に受け取ったものです。 残念ながら、ほぼ確実なのは、 ベンチマークを含む OnePlus 5 のレビューはどれも誤解を招く結果を使用しています、OnePlusがベンチマークを不正行為するデバイスをレビュワーに提供したためです。 これは許しがたい行為です。なぜなら、これは最終的には顧客だけでなく、 ほとんどの人が精査できない誤解を招くデータで査読者やジャーナリストの仕事を汚す、または 確認する。 その結果、OnePlus 5 のすべてのレビューでは、スマートフォンの成功を称賛するためにベンチマーク スコアが引用されています。 作成者と読者の両方に誤解を与え、合成ベンチマークに基づくパフォーマンス分析は 無効化されました。 さらに悪いことに、今回は、 不正行為のメカニズムは露骨であり、パフォーマンスを最大化することを目的としています。前回とは異なり、平均してスコアはあまり増加しませんでしたが、分散とサーマルスロットルは減少しました。 私たちが見つけたように。

詳細に入る前に、このような慣行に再び頼った同社に失望していることを述べておきたいと思います。 また、完全なパフォーマンス分析は提供されません。 私たちが推奨するベンチマークの多くは不正行為メカニズムの影響を受けるため、含まれるすべてのテストが含まれます。 最後に、私たちは自信を持っているため、デバイス自体の総合的な判断からこのレポートを分割します。 このレポートと OnePlus との会話に従って、問題のコードはコンシューマー ビルドから削除される予定です。 代表者。 私たちはこの特集記事を信じていませんが、 

必然的に ハードウェア自体に対するあなたの認識を変える必要がありますが、これが 2 回目の違反であることを考えると、同社に対するあなたの意見を押しつけるのは正しいことです。


方法論についての簡単な説明

この記事のすべてのスコアは、OxygenOS バージョン 4.5.0 (A5000_22_170603) を実行している OnePlus 5 レビュー ユニットで取得されました。 これは試作ユニットであり、元々は上記のバージョンへの OTA を受信した試作ソフトウェアがロードされていました。 OnePlus は、ベンチマーク アプリケーションをダウンロードできるようにするためのレビュー担当者の指示を転送しました。 おそらくこれは、Play ストアに先立ってベンチマーク スコアが漏洩しないようにするために行われたものと考えられます。 時間。 これは、OnePlus が ROM 内のベンチマーク パッケージを名前で参照しているという事実を知る手がかりとなりました。 テストに関しては、ROM には最小限のバックグラウンド プロセスがあり、サードパーティ製アプリケーションはなく、該当する場合は機内モードが実行されていました。 CPU 周波数は不正行為の程度を判断するためにのみ記録されており、この記事のスコアを生成するテストでは記録されませんでした。 すべての温度は、 FLIR C2 コンパクト 各耐久ランは外気温 28.5°C から始まります。 83.3°F。


ベンチマーク操作 -- その方法

昨年 1 月、私たちのレポートでは、OxygenOS ベータ版のビルドと、OxygenOS の出荷用ソフトウェアに存在する不正行為のメカニズムが明らかになりました。 ワンプラス 3T. これらの変化は最近の出来事によるものであると考えられます。 当時は異なっていた OxygenOS と HydrogenOS の合併 開発者チームと、OxygenOS の基礎となるコードベースは HydrogenOS と共有される予定ですが、この推測はまだ確認されていません。 当時の私たちにとってそれは理にかなっていて、OnePlus の代表者から XDA-Developers に寄せられたコメントにより、私たちの理論に信頼性が加わりました。 OnePlus 5 では、別の種類の不正行為メカニズムが見られますが、これが最初に追加したのと同じ開発者によって意識的に導入されたかどうかを特定することはできません。 私たちが知っているのは、それが同じパッケージをターゲットにしていることだけです。

では、それはどのように機能し、何が違うのでしょうか? 前回、OnePlus は、ベンチマーク アプリケーションが開かれたことを検出するたびに、ROM の動作に変更を加えました。 このようなアプリケーション名は、ターゲットを指定するマニフェスト内の ROM 内のパッケージ ID によって明示的にリストされていました。 次に、調整された CPU 負荷に応じて ROM が周波数を変更します。私たちのツールでは、CPU 負荷が 0% に低下することが示されました。 アプリケーション内で明らかなアクティビティが発生し、CPU は、大きなコアでは 1.29 GHz、小さなコアでは 0.98 GHz という最小に近い周波数を認識します。 コア。 この最小周波数により有効周波数範囲が減少し、その結果、ステップ周波数の数が減少しました。 ベンチマークでは、これにより分散がわずかに低くなり、示されているように、より高い最小周波数がサーマル スロットリングによってオーバーライドされないため、持続的なパフォーマンスが向上しました。 つまり、不正行為は明らかであり、スコアの差異を観察することと、システム全体の CPU 周波数を監視することによって証明できました。 ベンチマークでは、ほとんどの場合、デバイスがその潜在能力の最大値に近いスコアを一貫して得ることができる周波数フロアが示されました。

一方、OnePlus 5 はまったく異なる猛獣です。これは、明白で計算された不正行為のメカニズムに頼っています。 Android の初期の主力製品で見られた、最も誤解を招きやすい領域でスコアを最大化することを明らかに意図したアプローチ ファッション。 ユーザーがベンチマークを開始するときにガバナ スイッチはありませんが (少なくとも、私たちはそうではないように見えます) 見る その場合)、パフォーマンス ガバナーの下で見られるように、小さなクラスターの最小周波数が最大周波数にジャンプします。 すべての小さなコアは影響を受けて 1.9 GHz に維持されます。このチートにより、OnePlus は最高の GeekBench 4 の一部を達成します。 これまでの Snapdragon 835 のスコア - 特定の機能を備えた妥協のない構成を考慮すると、おそらく達成可能な最高スコア 構成。 同様のデバイスやクアルコム独自の MSM8998 テストデバイスで得られたスコアよりも確実に高いスコア 幸運にもベンチマークを行うことができました. 以下は、影響を受けるベンチマーク アプリケーションのリストです。

  • アントゥトゥ (com.antutu.benchmark.full)
  • アンドロベンチ (com.アンドロメダ.アンドロベンチ2)
  • ギークベンチ 4 (com.primatelabs.geekbench)
  • GFXベンチ (com.glbenchmark.glbenchmark27)
  • 四分円 (com.aurorasoftworks.quadrant.ui.standard)
  • ネナマルク 2 (se.nena.nenamark2)
  • ベラモ (com.quicinc.vellamo)

まったく驚くべきことではないのは、 影響を受けるアプリケーションは前回とまったく同じです、そしてOnePlusは明らかにまったく同じパッケージをターゲットにしています。 スコアの差は、ほとんどの場合、予想どおりです。 前回のレポートでのテストと同様に、GeekBench 4 を使用してベンチマーク不正行為を偽装し、回避することができました。 Play ストアから GeekBench 4 を実行すると、デバイスはマルチコアで 6,700 以上のスコアを獲得したことがわかりました。 一方、デバイスが隠れたビルドで期待どおりに動作すると、6,500 のスコアを取得することはありませんでした。 ギークベンチ。 以下は、Play ストアから GeekBench 4 を実行したときの、OnePlus 5 の小さなクラスターの頻度の時間経過のプロットです。 そして、OnePlus の不正行為を欺くことができる識別子を取り除いた GeekBench 4 のビルドを実行する同じ構成 機構。

上のグラフからは明らかでない場合のために説明します。CPU 周波数を 100 ミリ秒ごとにポーリングしましたが、不正行為を無効にすると、読み取り値のわずか 24.4% だけが最大周波数 1.9Ghz を返しました。 その間、 不正行為を有効にして実行すると、最大周波数状態で測定値の驚異的な 95% が費やされました。. OnePlus がベンチマーク中にこれらのコアの CPU 周波数を人為的に高く維持していることは完全に明らかであり、その結果、パフォーマンスが大幅に高くなっています。 マルチコア テストの全体的なスコアは、すべてのテストの詳細な内訳 (特に整数と浮動小数点) における CPU バウンドのさまざまなサブスコアにも現れます。 オペレーション)。 ただし、違いはマルチコアのスコアで最も明確で有利であり、シングルコアの結果は実際には驚くほど似ています。 ベンチマーク不正行為を行った場合と行わなかった場合の実行間では、実際には操作を行わない場合のシングルコアスコアの方が平均して高くなっています。

それでも、この特定のベンチマークに関して、ほとんどの人が考慮し、すぐに気づくのはマルチコアという数字です。 Android は並列性の高いオペレーティング システムであり、何年にもわたってマルチスレッド アプリケーションをサポートしてきた結果、現在ではマルチスレッド アプリケーションが多数搭載されています。 コア。 たとえこの増加がマルチスレッドのベンチマークやテストにおいてのみ意味があるとしても、それでもかなりの不公平な結果が生じる可能性があります。 標準ガバナとパフォーマンス設定を以下の条件で動作させる他のデバイスに対する代表的な利点はありません。 基準; これらの変更された結果は、OnePlus 5 の実際のパフォーマンスをまったく表していません。 人工的な条件下および人工的な条件下でのデバイスのピークおよび他の方法では達成できないパフォーマンスを反映します。 制約。

不正行為メカニズムを使用して GeekBench 4 を実行した場合と使用しない場合のマルチコア スコアの差は、最大 6.5% になる可能性がありますが、平均では約 5% です。 かもしれない 見て 重要ではありませんが、その微調整は、このデバイスを他の Snapdragon 835 デバイスよりも先に進めるのに十分です。 上には、不正行為メカニズムを使用した場合と使用しない場合の GeekBench 4 の複数の独立した実行のドット プロットが表示されます。 溝は明らかであり、箱ひげ図から推測できるように、それが固有の分散の結果であるはずはありません。 つまり、CPU 周波数を人為的に高くすると、合成ベンチマークでは実際にはるかに優れた結果が得られます。

以下に、測定したかった温度に伴うパフォーマンスの経時的なプロットを示します。 熱緩和も作用しているのか、それとも持続中にスコアに差があったのか ベンチマーク。

GeekBench 4 テストは、結果画面と別のベンチマーク実行の開始の間に 2 秒の休憩を入れて設定しました。 外部デバイスの温度 (Android によって報告されるバッテリー温度ではありません) は FLIR サーマルを使用して測定されました 1 秒間のキャリブレーション後にカメラで測定し、その間の 2 秒間の 3 つの即時測定値を平均します。 走る。 全体として、これら 2 つのデバイスがほぼ同じ速度で加熱し、どちらもスコアの低下が見られなかったことにはかなり驚きました。 各データ セットのすべての結果は予想される分散の範囲内にあり、サーマル スロットルが機能していないことを示唆しています。 詳しく調べてみると、持続的なパフォーマンスを考慮すると、これは驚くべきことではありません。 Snapdragon 835 の Kryo コアのベースとなっている Cortex-A73 コア固有の強みの 1 つ の上。 影響を受けるコアは電力効率の高いコアであり、GeekBench 4 には特に 実行の終了近くにサブテストのスコアを変更するスロットリングを防ぐための対策は、 何か 私たちはインタビューから学びました ジョン・プールと一緒に。

興味深いことに、すべての人気ベンチマークが OnePlus の不正行為メカニズムの対象になっているわけではありません。 たとえば、3DMark では、テストの実行時やアプリケーションを開いたときにも、実際にはこれらの問題はまったく発生しませんでした。 ただし、GFXBench などの他のベンチマークも対象となっており、それらを開いて実行すると同じ CPU 動作が見られます。 実際、GFXBench のマンハッタン バッテリー テストを使用した持続的なパフォーマンス実行中に、OnePlus 5 の温度は 50°C 以上に達しました。 122°F (外気温)、 これは、私が過去にテストしたデバイスの中で非常にまれに発生しましたが、すべてのデバイスである程度のサーマル スロットリングが発生し、十分な温度上昇が妨げられました。 熱い。


一度私を騙したら、恥を知れ。 二度騙して、恥を知れ

ベンチマークスコアを操作するために同じ企業を2回呼び出さなければならない状況になっているのは少し腹立たしいです。 これらすべてがレビューユニットでも行われたという事実は、問題をさらに悪化させます。この不正行為のメカニズム パフォーマンスを最大化し、レビューのパフォーマンス セクションでデバイスの外観を向上または高速化することを目的としています。 ターゲティングおよび操作システムは、取材の拠点となるジャーナリストに送られる試作ユニットにパッケージ化されていました。 OnePlus からデバイスに関する調査結果が得られましたが、その多くは、不正行為の存在を確認できないか、確認する気がありませんでした。 レビューユニット。 それは決して彼らのせいではありませんが、XDA がベンチマーク操作に注意を払っているのは、単に私たちが過去にそれを発見し、読者と潜在的な携帯電話の購入者に知らせるのが最善であると考えたからです。

この記事が、今日のスマートフォンのレビューにおけるベンチマーク、その役割、有用性についての幅広い会話を再燃させることを願っています。 間違いなく、クアルコムやサムスンのような企業です。 する ベンチマークを重視しており、不完全ではあるが、顧客がベンチマークを判断するための有効な方法であると考えています。 開発時に参照できるより洗練されたツールがあるにもかかわらず、デバイスのパフォーマンスが低下する プロセッサー。 最終的に、ソフトウェアが何を測定しているのか、そしてその結果がランキングを推測するためにどの程度使用できるのかを理解していれば、ベンチマークは非常に重要になります。 特定のプロセッサ、ハードウェアの特定の構成、またはより包括的な用語では、ソフトウェアが導入する動作の変化を伴う特定の電話機のことです。 良い。 私たちは、生のコンピューティングや処理よりも現実世界のパフォーマンスと電力効率に焦点を当てることが重要な時代に来ていると思います。 なぜなら、現実世界のパフォーマンスに対するボトルネックが Android とその特定の実装に起因していることは、この時点で明らかに明らかだからです。 OEM。

OnePlus の話に戻りますが、なぜ同社のソフトウェア チーム、具体的にはソフトウェア チームのどの側が、非難を受けた後にベンチマーク操作を再導入したのか、本当にわかりません。 今回はさらに悪化しており、査読者の端末によって生成されたスコアを水増しするという明らかな目的があります。 OnePlus 5 は依然として信じられないほどパフォーマンスの高いデバイスであり、ベンチマークの不正行為を必要とせずにその性能を主張できます。本当に、その流動性と汎用性には驚かされました。 同社のデバイスを使用した後、また経営陣とのインタビューや会話を経て、彼らがパフォーマンスが重要な側面であることを知っていることは明らかです。 彼らの電話。 おそらく、これは計算された動きであり、彼らは、世界の小さな部門を困らせる価値があると判断したのかもしれない。 おそらく、最高のベンチマーク スコアをインターネットに張り付けるため、愛好家市場の主に西側の側にある 召集することができた。 いずれにせよ、私は正直に言って、同社がこの間違いを正してくれることを願っています。なぜなら、私は彼らのハードウェアについて素晴らしいことを言いたいのですが、彼らは私の目には間違った見方をしてリリースを開始したからです。


OnePlus からの声明

私たちはこの問題について OnePlus にコメントを求めました。彼らの意見は次のとおりです。

人々は自分のデバイスのパフォーマンスを確認するためにベンチマーク アプリを使用しますが、私たちはユーザーに OnePlus 5 の真のパフォーマンスを見てもらいたいと考えています。 したがって、リソースを大量に消費するアプリやゲームの実行を含め、ベンチマーク アプリを日常の使用状況と同様の状態で実行できるようにしました。 さらに、アプリを起動するとき、アプリが開く速度を上げるために、OnePlus 5 は同様の状態で実行されます。 私たちはデバイスをオーバークロックしているのではなく、OnePlus 5 の潜在的なパフォーマンスを示しています。

今朝私たちが受け取ったこの声明は、ベンチマークの不正行為によりデバイスが次のような状態になるため、聞くのは少々ショックです。 明示的にそうではありません これは、デバイスが日々の使用状況でどのように動作するかを示しており、特にそのような強化の対象になっていない他のアプリでは見られないパフォーマンスを表しています。

競争力のあるオーバークロックとは異なり、ほとんどの携帯電話のベンチマークは、日常の使用において携帯電話がどのように動作するかを表すように設計されていることに注意してください。 これは、可能な限り最高の結果を達成しようとするための単なるスコアではなく、通常の温度プロファイルとバッテリー使用量の下で携帯電話がどのように動作するかを表す試みです。 電話機が日常の使用状況で実際にどのように動作するかを表現する試み。 これらのベンチマークは、現実世界では達成できない「潜在的なパフォーマンス」を測定するように設計されているわけではありません。 「デバイスを無効にする」スタイルのベンチマーク不正行為コードを使用してそれらをターゲットにしようとする試みは、ユーザーに誤解を招くことになります。 CPU クロック速度を最大値にロックし、携帯電話の本体温度が使用不能になるまで上昇した場合 特定のアプリを開いたときのレベルは、実際の電話機の動作を示すものではありません。 使用。

CPU 負荷の高い Geekbench 4 では熱プロファイルは比較的正常でしたが、ARM Cortex-A73 ベースの Kryo 280 コアの素晴らしい持続パフォーマンスにより、 ベンチマーク不正行為によってもたらされたバッテリー使用量の増加レベルでも、スマートフォンが熱くなりすぎずに実行できるようにするため、GPU を集中的に使用するアプリではまったく異なる状況が見られました。 前述したように、GFXBench のマンハッタン バッテリー テストで持続的なパフォーマンスをテストしたところ、OnePlus 5 は次の性能に達しました。 気温約50℃ | 電話機にとっては灼熱の 122°F (外気温) で、徹底的に 持ちにくい。 50°C でビデオ ゲームをプレイしたり、GPU を大量に使用する他のアプリを使用しようとした場合 | 122°F のスマートフォンでは、ユーザー エクスペリエンスが低下します。

たとえ OnePlus がベンチマーク不正行為コードでベンチマーク以外のアプリもターゲットにしているとしても、それは依然として問題となるでしょう。 現在の集中アプリは、リストに載っていない現在のアプリや、OnePlus がリストの更新を停止した後の将来の集中アプリとは完全に異なります。 これは、どのアプリケーションが隠れたブーストから恩恵を受けるかをユーザーがホワイトリストに登録できるようにすることで変更できる可能性があります。 デフォルトの恩恵を受けているものを透過的に表示 -- 前回のレポートでこれを提案しましたが、まだ実現されていません。 実装されました。

私たちは、この件における OnePlus の行動に失望しており、OnePlus がもう一度、ソフトウェアからベンチマーク不正行為コードを削除することを期待しています。 これは自社の携帯電話を顧客に偽って伝えることであり、OnePlus 3T や OnePlus 5 のような優れたデバイスで見られるような行為ではありません。


更新された声明

OnePlus は、この件に関する自社の立場をより詳しく説明する最新の声明を提供しました。

「私たちは、すべての人にとって自然で持続可能な高性能レベルでベンチマークを実行するように OnePlus 5 を設定しました。 デバイス、メディア、コンシューマを統合することで、ユーザーはリソースを大量に消費するアプリを実行するときにデバイスの真の可能性を確認できます。 ゲーム。 いかなる時点でも CPU をオーバークロックしたり、CPU 周波数の下限を設定したりすることはありません。

私たちは、私たちのアプローチが OnePlus 5 の真のパフォーマンス能力を最もよく発揮すると確信しています。」

このステートメントは、オーバークロックが関与していないことを正確に述べています (これは、現在のものよりも 1 段階上のものになります) 不正なスコアを生成するという観点からのメカニズム)、そして私たちが実際に見たような CPU 周波数フロアはありません。 前回。 この声明を通して、そしてOnePlusの代表者との会話を経て、彼らがそうではないことは私には明らかです。 彼らは純粋な悪意からこのメカニズムを実装しましたが、彼らはパフォーマンスの「能力」を示したかったからです。 デバイス。 しかし、ここで(およびそれらの)「能力」とは、ピークの可能性を指すものではなく、ピークの可能性を指すことをもう一度指摘しなければなりません。 ユーザーエクスペリエンスが従来の頻度で提供するはずのパフォーマンスの実際のレベル スケーリング。 同意するかどうかは別として、このベンチマーク操作は今後も継続されることが確認されていますが、その可能性は示唆されています。 このようなパフォーマンス プロファイルを選択したアプリケーションに対してユーザーがアクセスできるようにすることは、OnePlus がそれを受け入れると信じています。 アイデア。 HTC や Samsung など、このような調整をユーザーが利用できるようにしている企業は他にもありますが、そのソリューションは 主に消費電力の削減を中心に展開します (アプリごとの解像度の変更によりゲームのパフォーマンスが向上しますが、 あまりにも)。

ベンチマーク作成者、Android エンジニア、愛好家は、これらのメカニズムが不公平で、Android の標準を代表していないとみなしているという事実が残っています。 ユーザーエクスペリエンスは少し欺瞞的で、最終的には製品開発の別の側面に費やすことができたかもしれないリソースの無駄です。 OnePlus 5 がそのハードウェアをどれほど強力にプッシュできるかを知りたい場合は、おそらく OnePlus の決定に同意するでしょう。 OnePlus 5 のハードウェアと標準ソフトウェアの組み合わせが他のデバイスとどのように比較されるかを確認したい場合は、 同様のハードウェアを使用している場合は、運が悪いです。そのような方法で CPU 周波数を操作すると、スコアがまったく違ってしまいます。 計り知れない。

最後に、対立的だと思われる危険を承知で、この報告書の受け取り方について私が不満に思ったことについて少し触れておきたいと思います。 世界中で何千回も共有され、何千ものメディアからもリブログされましたが、そのメッセージと詳細は霧に包まれているか、完全に削除されています。 道。 私はこの記事に関するこれほど露骨で恐ろしい誤った報道を見てきました。 私たちが言ったこと、私たちが発見したこと、メカニズム自体、OnePlus の声明に関する虚偽の表現、および 今後の計画。 実際、そのようなブログに知っておいてほしいことがいくつかあります。OnePlus はレビュアー ユニットを「改ざん」していません。 この問題は消費者ユニットにも及びます。 これは OnePlus による意識的な決定です。 いいえ、彼らはそれが変わるとは言いませんでした。 サーマルスロットリングは緩和される可能性がありますが、電話機が爆発する危険はありません。 「チートコード」はありません。 私たちは実際にデバイスの実際のパフォーマンスに満足していますが、言葉を曲げないでください。 クアルコムはこれとは何の関係もありません。 私たちはレポートの中で HTC と Samsung を「恥をかかせた」ことはありません。はるかに古い事件のため、最初の記事でついでに、文脈のために言及しました。 これは、私が対処したい一般的なエラーのほんの一部にすぎません。 私たちがこれまで見てきた記事やビデオには根本的な欠陥や誤解があり、それがこの記事に費やした何時間もの慎重なデータ収集と分析を台無しにしていると私たちは考えています。 さらに悪いことに、インドや中国のブログを読むと、翻訳特有の難しさのために、私たちの発見がさらに破壊されてしまい、問題はさらに悪化します。 結局のところ、私たちはテクノロジーメディアのこのレポートの扱い、特に私たちの結論を利用してOnePlusに対して「ヒット作」を書いたメディアの扱いに非常に失望していますが、それは私たちが実際には意図していませんでした。 上でも言いましたし、第一印象でも言いましたし、もう一度言います。製品自体は優れており、パフォーマンスは驚異的です。