CPUer, flaskehalser og spill: problemet med CPU-benchmarking

Å benchmarke en CPU i spill er ikke så enkelt som du tror.

Den etterlengtede Ryzen 7000X3D-serien er her, og alle er enige om at Ryzen 9 7950X3D er den raskeste CPU-en for spill... men hvor mye? Det er et vanskelig spørsmål å svare på fordi anmeldelsene er over alt. Noen publikasjoner fant at 7950X3D knapt var raskere enn Intels Core i9-13900K, mens andre fant større marginer på over 10 %. Det er ikke slik at anmeldere tester helt forskjellige spill, og i benchmarks som ikke er spill, som Cinebench R23, er poengsummen omtrent den samme over hele linja, gi eller ta et prosentpoeng.

Dette er ikke første gang anmeldere ikke kan bli enige om hvor raske CPUer er for spill. Faktisk skjer det med stort sett hver CPU, enten den har en fancy 3D V-Cache eller ikke. Vi ser egentlig ikke disse brede, varierende marginene for anmeldelser på GPUer, SSD-er eller til og med CPUer i benchmarks som ikke er spill. Så hva er greia? Det kommer til syvende og sist ned på den unike oppførselen til CPU-er i spill og de forskjellige testmetodene som brukes fra anmeldelse til anmeldelse.

Det merkelige tilfellet med CPU-flaskehalsen

Moderne GPUer har alt fra hundrevis til titusenvis av kjerner. Disse kjernene er svært fleksible og er ideelle for å takle arbeidsbelastninger som skaleres i vanskeligheter. Dette betyr beste spill-GPUer kan håndtere grafikkinnstillinger som resulterer i varierende visuell kvalitet og bilder per sekund. Å senke grafikkinnstillinger som oppløsning gjør regnestykket for gjengivelse av rammer enklere, noe som betyr at flere bilder kan gjengis per sekund. På den annen side, hvis rammer er vanskeligere å gjengi, vil færre bli laget per sekund.

Rollen til CPU i spill er veldig forskjellig fra den til GPU. Siden tidlig på 2000-tallet er mange prosesser som opprinnelig ble utført på CPU-en nå utført av GPU-en, noe som gir CPU-en relativt lite å gjøre. Den viktigste oppgaven til CPU er bare å få disse minimale oppgavene gjort så snart som mulig.

Men det er to store problemer. For det første kan disse oppgavene ikke spres jevnt til alle kjerner og tråder, så flere kjerner betyr ikke alltid bedre ytelse. For det andre vil større kjerner med mer beregningskraft ikke være nyttige siden disse arbeidsbelastningene er så grunnleggende. Disse faktorene gjør klokkehastighet og cachestørrelse uforholdsmessig viktig for spilling. Cache reduserer tiden brukt på å vente på data, noe som er en betydelig faktor i ytelsestap. Klokkehastighet, derimot, er den eneste realistiske måten å øke hastigheten på arbeidsmengder som ikke kan dra nytte av moderne brikkers rå hestekrefter.

En PCs spillytelse bestemmes hovedsakelig av GPU og CPU (lagring og RAM er vanligvis sekundære faktorer), men ikke samtidig fordi ytelsen din til enhver tid er enten begrenset av GPU eller CPU. Det fører naturligvis til ett stort spørsmål: Når er en PC begrenset av CPU eller GPU? Dette spørsmålet kommer faktisk til kjernen av en av de mest forvirrende tingene med gaming-benchmarks fordi forskjellen mellom GPU- og CPU-flaskehalser ikke er veldig intuitiv.

Når PC-en din er GPU-begrenset, vil grafikkortet kjøre på eller nær 100 % bruk, noe som betyr å bruke så mange ressurser som mulig og vanligvis nå det maksimale strømforbruket. Dette betyr at du kan bytte rammer for visuell kvalitet og omvendt. Men for de fleste spill påvirker ikke disse grafikkinnstillingene direkte CPU-en, og selv i spill med CPU-relaterte innstillinger er det vanligvis bare noen få.

Det er ikke nødvendig å øke grafikkinnstillingene for å skape en CPU-flaskehals i spill. Faktisk sikrer økende grafikkinnstillinger at du aldri vil se en CPU-flaskehals. Husk at CPU-en er ganske begrenset i mengden arbeid den kan gjøre, og selv om det er få, om noen, innstillinger du kan justere for å øke arbeidsmengden i spill, du kan øke bildehastigheten ved å senke grafikken innstillinger.

Siden tidlig på 2000-tallet er mange prosesser som opprinnelig ble utført på CPU-en nå utført av GPU-en, noe som gir CPU-en relativt lite å gjøre.

Å løpe inn i en CPU-flaskehals er enkelt hvis du øker rammehastigheten til der GPU-en kan gjengi flere rammer enn CPU-en kan håndtere. Dette betyr i utgangspunktet at en CPU har en grense for hvor mange bilder den kan vise i et gitt spill. Det er bare to realistiske måter å fjerne en CPU-flaskehals i spill. Du kan få raskere RAM med høyere frekvens og timing for en liten ytelsesøkning eller senke bildefrekvensen – og det er det andre alternativet som skaper problemer for benchmarking.

Tenk deg at en anmelder tester to hypotetiske CPUer, Gamma og Zeta. I et stort budsjett, grafisk intenst spill som Atomic Heart, Gamma kan få opptil 200 FPS mens Zeta kan oppnå 300. Avhengig av hvordan anmelderne tester CPU-ene og hvor hardt de presser frameraten opp, kunne de finne at begge CPUene er omtrent like, at Zeta har en liten fordel, eller at Zeta har en kommando lede. Dette er grunnen til at CPU-anmeldere ofte kommer til forskjellige konklusjoner om CPU-ytelse i spill.

Der liker det grunnleggende dilemmaet med å vurdere CPUer i spill. Du må presse framerate så høyt som mulig for å avsløre CPU-flaskehalser og dermed vise de sanne grensene for hver CPU, noe som ofte resulterer i en urealistisk benchmark. Som du kan forestille deg, har dette fenomenet skapt kontrovers i årevis.

Dilemmaet med benchmarking av CPUer i spill

De fleste entusiaster tar en av to posisjoner når det kommer til CPU-benchmarking. Den første posisjonen tar til orde for en mer vitenskapelig tilnærming som avslører flaskehalsen uten hensyn til realistiske omgivelser, mens den andre argumenterer for at anmeldere bør teste ved innstillinger som betyr mer for lesere som ønsker å ta kjøpsbeslutninger.

Hver tankeskole har sine styrker og svakheter. Tilhengerne av den vitenskapelige posisjonen (vanligvis anmeldelser og fans av selskapet med den raskeste CPU) har utvilsomt rett i at denne tilnærmingen avslører CPUens sanne grenser i spill. Imidlertid argumenterer de også ofte for at disse testene nøyaktig forutsier fremtidig ytelse. Når du oppgraderer GPUen din og plutselig har kapasitet til høyere bildehastigheter, vil du selvsagt ha en bedre CPU.

Dette argumentet om fremtidig ytelse har blitt avvist flere ganger. Mens AMDs FX-CPU-er opprinnelig ble lansert til dårlige resultater i spill sammenlignet med Intels tilbud, over tid ble brikker som FX-8350 vant faktisk terreng og overtok til og med Core i5-motpartene etter hvert som spillene begynte å bruke flere kjerner og tråder. I tillegg vil jeg hevde at spillere sjelden oppgraderer grafikkort kun for høyere bildehastigheter. Spillere vil ha bedre framerates og bedre kvalitetsinnstillinger, inkludert høyere oppløsninger. Dette reduserer sjansene for å avsløre en CPU-flaskehals etter en GPU-oppgradering.

Argumentet for "realistiske" innstillinger er mer intuitivt og lettere å følge, men det meste av retorikken handler bare om hvor dårlig 1080p er for testing av avanserte CPUer. Saken er, kan du til og med teste en high-end CPU mot en som er mellomtone eller lavere på en høyere Vedtak? Hvis du har en Core i9-13900K, er det ganske enkelt mer sannsynlig at du sikter etter høyere bildehastigheter, bare fordi PC-en din også har en avansert GPU som RTX 4090, mens en bruker med en Core i3-13100 er usannsynlig å sikte mye lenger forbi 60 FPS fordi de sannsynligvis også har en lavere GPU som en RX 6500 XT. Tester du med realistiske innstillinger for 13900K eller for 13100?

Når det er sagt, tror jeg at denne andre leiren har noen gyldige poeng. Jeg kan ikke si sikkert hva den gjennomsnittlige brukeren ønsker, men som lenge medlem av dette fellesskapet, vil jeg forestille meg at de fleste målretter seg mot hvor som helst 60 til 144 FPS siden 60Hz og 144Hz er veldig populære oppdateringsfrekvenser, kommer ofte med G-SYNC eller FreeSync, og å overgå oppdateringsfrekvensen bryter de teknologier. 144 FPS er ikke så mye høyere for moderne CPUer, så CPU-flaskehals er mindre sannsynlig, og følgelig er benchmarks som viser at CPUer får 300 FPS sannsynligvis ikke veldig nyttige for de fleste brukere.

Denne debatten går minst seks år tilbake i tid, og jeg møtte den først da førstegenerasjons Ryzen-serien ble lansert i 2017. Anmeldere har stort sett vært forpliktet til enten det vitenskapelige synspunktet eller generelt likegyldig til begge sider i testingen. På den annen side blir leserne stort sett opprørt når deres foretrukne merke taper i anmeldelsene, men de tar opp noen gode poeng. Imidlertid tror jeg det er en middelvei som kan tilfredsstille kravene til begge filosofier, en måte å benchmarke på som både bruker realistiske innstillinger og oppnår resultater som er relevante for lesere.

Hvorfor selve framerate er en viktig del av en CPU-referanse

Jeg har alltid vært fascinert av å teste metodikk og måter å vise folk resultater som faktisk betyr noe. Dette er mer et tankeeksperiment i stedet for et seriøst forslag, og det er noe jeg bruker for moro skyld, men jeg har kommet opp med min egen CPU-testmetodikk.

Vi kan ikke ignorere de potensielle maksimale bildehastighetene som er muliggjort av GPU-en fordi den bestemmer hvordan CPUer yter og hvor realistisk den er for brukerne. Det jeg foreslår er å snu dette konseptet på hodet og velge innstillinger for å oppnå en viss bildehastighet i stedet for å sette spesifikke forhåndsinnstillinger eller sette alt til et minimum.

Her er den grunnleggende metodikken. Velg en kontroll-CPU som annenhver CPU skal sammenlignes med. Siden CPU-er har en ytelsesgrense, bør kontrollbrikken være den raskeste CPU-en du tester, for eksempel en Core i9-13900K eller en Ryzen 9 7950X3D. Deretter starter du med høyere grafikkinnstillinger, kjører referansene dine og fortsett å finjustere innstillingene til kontroll-CPUen din oppnår ønsket bildehastighet. For eksempel i esports titler som Counter-Strike: Global Offensive, ønsket bildefrekvens bør sannsynligvis være minst 240 FPS i gjennomsnitt - hvis ikke høyere.

En CPU-gjennomgang skal vise hva som er verdt å kjøpe og hva som ikke er det, og selv om anmeldelser er et produkt av mange timers hardt arbeid, er det ikke hver anmeldelse som analyserer dataene kritisk.

Når du har funnet innstillingene som oppnår din foretrukne framerate på kontroll-CPU, bruk disse innstillingene når du tester andre brikker. Tanken er å vise hvor mye raskere kontroll-CPU kan sammenlignes med teoretisk tregere CPUer i en test som er både vitenskapelig og realistisk. Det folk vil vite er om en avansert CPU er verdt pengene, og denne typen metodikk er veldig god til å vise det.

Det er imidlertid ett åpenbart problem med denne typen benchmarking: Det tar tid. Justering av grafikkinnstillinger og kjøre benchmarks til kontroll-CPU har riktig bildehastighet tidkrevende, og å ikke bruke forhåndsinnstillinger kan bety å endre individuelle innstillinger på hver nye CPU for hver spill. I tillegg krever nye CPUer og spill ytterligere kalibrering, kanskje til det punktet hvor du må gjøre en annen CPU til kontrollen. Bare å velge en forhåndsinnstilling eller sette alt til minimum er mye enklere.

Det finnes alternativer til denne metodikken som er mye enklere å implementere. Mange anmeldere tester med flere oppløsninger for å vise den skiftende CPU-flaskehalsen, med 1080p som har mest CPU-flaskehals og 1440p eller 4K minst. Techspot og Anandtech noen ganger tester du flere GPUer for å oppnå samme effekt siden raskere GPUer vil ha en høyere potensiell framerate som kan avsløre CPU-flaskehalser.

Analyse er enda viktigere enn metodikk

En god testmetodikk og data av høy kvalitet er bare halvparten av det som gjør en anmeldelse omfattende. Den andre halvparten er analyse, som er når anmelderen informerer leserne om hva resultatene betyr. Mange brukere kan gjøre opp sine egne meninger om hva data betyr, men ikke alle som liker PC-spill er entusiast.

Hvis en anmeldelse viser en målestokk der én CPU treffer 500 FPS og en annen 300, bør det være en viss kontekst om hva det betyr. Hvis det er en esports-tittel, kan den forskjellen være viktig for alle som ønsker å spille konkurransedyktig og trenger de høyeste frameratene. For de fleste andre spill vil ytelsesfordelen som tilbys av den raskere CPU neppe bli fullt ut realisert eller verdsatt. Jeg har sett noen anmeldelser viser benchmarks med denne typen resultater i svært gamle spill og hype opp den raskere CPU, mens andre anmeldelser fant mye mer beskjedne marginer i mer realistiske tester.

Til syvende og sist skal en CPU-anmeldelse vise hva som er verdt å kjøpe og hva som ikke er det, og selv om anmeldelser er et produkt av mange timers hardt arbeid, er det ikke hver anmeldelse som analyserer dataene kritisk. Jeg setter pris på anmelderne som tar seg tid til å diskutere CPU-flaskehalser og hvordan de vokser eller krymper med forskjellige GPU-er og grafikkinnstillinger. Det er absolutt sant at noen CPUer er raskere enn andre, og er det bedre for spilling, men det er aldri entydig om det betyr at det er bedre for hver enkelt bruker.