Hvordan Qualcomm forbedret ytelse, spill og kunstig intelligens på Snapdragon 855

Den nye Qualcomm Snapdragon 855 mobilplattformen gir store forbedringer når det gjelder ytelse, spill og AI, og vi deler ned hvordan de har gjort det.

På Qualcomms Snapdragon Summit 2018, selskapet kunngjorde deres nyeste premium-tier, flaggskipbrikkesett: Snapdragon 855-plattformen. Dette nye produktet vil være i hjertet av de fleste av 2019s produktive flaggskip, og bringe med seg løftet om utrolige datahastigheter gjennom Snapdragon X50-modemet. Utover det bringer imidlertid Snapdragon 855 en rekke forbedringer til hver system-på-brikke-blokk, med noen dataenheter har sett de største ytelsesforbedringene fra år til år og strømeffektivitet i det siste historie.

Vi har allerede beskrevet Spectra 380 ISP-CV, for eksempel, som forbedrer smarttelefonfotografering ytterligere, samtidig som det gir brukerne sunne batterisparinger. Mens vi i økende grad har tatt hensyn til perifere komponenter som Hexagon DSP, betaler kjerneblokkene som entusiaster mest oppmerksomhet på - nemlig CPU og GPU - har også sett mer enn beskjedne gevinster med arkitektoniske forbedringer og overgangen til en ny prosess node. I denne artikkelen skal vi raskt samle opp hva som er nytt og hva som er kjent om Snapdragon 855s CPU, GPU og DSP, og hvordan forbedringene og nye funksjonene kan påvirke

din brukeropplevelse i 2019.


A76-basert Kryo 485 CPU og overgangen til 7nm

Snapdragon 855 flytter til TSMCs siste 7nm FinFET-produksjonsprosess. Vi ser vanligvis en noderevisjon hvert eller annet år, med nedskaleringer eller midtsyklusoptimaliseringer (som overgangen fra "Low-Power Early" (LPE) til "Low-Power Plus" (LPP) i Samsung-LSI-noder), så du har sannsynligvis hørt om disse beregningene i en eller annen nyhet artikkel. Men hva betyr det? I denne sammenhengen beskriver den størrelsen på prosessorens transistorens funksjoner, som igjen viser oss hva slags transistortetthetsforbedringer vi kan forvente med hver ny generasjon. Med flere transistorer per arealenhet kan den resulterende ytelsen til prosessoren skaleres opp. Denne funksjonen er også viktig ettersom mindre prosessnoder gjør at prosessordesign kan implementeres i mindre skala, noe som intuitivt krymper rommet mellom prosessorens elementer, og forkorter i sin tur avstanden elektronene må reise for å oppnå beregning. Dette gir forbedringer i ytelse, og mindre prosesser har også en lavere kapasitans, noe som betyr at transistorer kan slås av og på med lavere latens og med lavere energi. Som referanse hevder TSMC at overgangen til 7nm-prosessen deres oppnår ytelse og strømeffektivitet i størrelsesorden henholdsvis 20 % og 40 %, selv om det er sammenlignet med TSMCs egen 10nm FinFET-prosess.

For de siste Snapdragon flaggskipbrikkesett har vi sett Qualcomm samarbeide med Samsung og implementere deres 14nm og 10nm LPP/LPE-prosess. Flyttingen til TSMCs 7nm for Snapdragon 855 er imidlertid ikke uventet, gitt at Samsungs 7nm-prosess hadde kom nettopp i masseproduksjon i oktober, selv om det på det tidspunktet ble rapportert at et 5G Qualcomm-brikkesett ville bli bygget på det. Videre er Samsungs 7LPP-design produsert under en forbedret litografiteknikk kjent som ekstrem ultrafiolett litografi (EUVL), gir 40 % arealreduksjon ved lik designkompleksitet, med 20 % raskere hastigheter eller 50 % mindre strømforbruk sammenlignet med 10nm FinFET forgjengere. Hvert nye hopp til mindre prosessnoder feires nettopp fordi de er så vanskelige å oppnå. For eksempel, ettersom transistorer blir mindre, kan de vise større "lekkasje" eller strøm som flyter gjennom transistorer som er "av", noe som øker det statiske strømforbruket i inaktive tilstander. Og selv om mindre brikker med tettere transistorantall kan gjøre det mulig å få mest mulig ut av en gitt silisiumplate, har utbyttet en tendens til å være lavere på grunn av den nevnte lekkasjen, pluss vanskeligheter med å skaffe "høyere innskrevne" prosessorer som kjører på deres (høye) referanse frekvenser. Disse er bare noen av de mange utviklingshindrene som selvfølgelig er utryddet når en ny prosessnode treffer masseproduksjon, men i kort sagt, det er mange FoU- så vel som produksjonsutfordringer som øker kostnadene ved å bringe en ny prosessstørrelse til marked.

Den siste ARM A76-arkitekturen lisensiert for Kryo 485 er en annen stor bidragsyter til de betydelige forbedringene vi ser med Qualcomm Snapdragon 855 fra år til år. A76-kjernen er et helt nytt, blankt skiferdesign fra ARMs kontorer i Austin, med en ny mikroarkitektur bygget fra bunnen av for å levere det ARM kaller "bærbar ytelse med mobil effektivitet." Det er fortsatt en semi-tilpasset design, og Qualcomm har gjort forbedringer som optimalisert dataforhåndshenting for bedre effektivitet, og en større ut-av-ordre utførelse vindu. Denne nye designen tilbyr noen enorme ytelsesforbedringer i forhold til A75, som Snapdragon 845s gullkjerner var basert på: den lover en 35 % ytelsesforbedring og 40 % bedre strømeffektivitet. Når man sammenligner A75 på en 10nm-prosess versus A76 på en 7nm-prosess med samme effektkonvolutt som 750mW/kjerne, ytelsesfordelen vokser til 40% i den nye kjernens favør, og energibesparelsene kan også klatre til 50 %. Dessuten, andre forbedringer i Asymmetric Single Instruction Multiple Data (ASIMD) pipelines og punkt-produktinstruksjoner samlet til ~3,9x forbedringer i ytelsen til maskinlæringsoppgaver, som inferens i konvolusjonelle nevrale nettverk. Alt dette utgjør bransjeledende ytelse per område og et flott komplement til den nye 7nm-prosessen, med Qualcomms 2,84GHz 'Prime core' som kryper nær 3GHz referanseklokkehastighetene ARM hadde brukt ved detaljering av den nye kjernen. Alt i alt, Qualcomm lover en absolutt massiv 45% CPU-ytelsesforbedring over 845, den største økningen fra år til år hittil.

Når vi snakker om Snapdragon 855s 'Prime core', er det heller ikke overraskende å se Qualcomm flytte inn med dette nye klyngeoppsettet gitt forbedringene over store. LITT aktivert av ARM's DynamiIQ teknologiplattformer. I hovedsak tillater DynamIQ mer fleksibilitet og skalerbarhet i flerkjerneprosessordesign, noe som gir mulighet for flere kjernedesign i en gitt klynge, samt finkornet spenningskontroll per kjerne. (EDIT: I en spørsmål og svar bekreftet Qualcomm at Prime-kjernen deler kraftdomenet sitt med ytelsesklyngen, noe som begrenser verktøyet beskrevet her). A76 passer spesielt godt for en slik ensom premiumkjerne med sin egen klokke, gitt at den presser konvolutten når det kommer til entråds ytelse med 25 % flere heltallsinstruksjoner per klokke enn A75, og 35 % høyere ASIMD- og flyttallsytelse, samtidig som den tilbyr 90 % høyere minnebåndbredde. Kort sagt, A76 presenterer en større generasjonsløft enn tidligere generasjoner, noe som uten tvil bidro til Qualcomms også større enn vanlig ytelsesforskjell fra år til år for Snapdragon 855 (for referanse, Qualcomm siterte 25 til 30 % økning for 845 over 835). Dette kan være nok til å sette Qualcomm Snapdragon 855s resulterende ytelse foran Samsung LSIs Mongoose 3 (M3) kjerne som finnes i Exynos 9810, selv om den spesielle designen led av strømeffektivitet på en måte som Qualcomm-brikker ikke har, og at Snapdragon 855 mest sannsynlig ikke vil enten.

Hva betyr det for sluttbrukeren? Selvfølgelig bør vi forvente økte benchmark-kjerner – ARM prosjekterer 28 % høyere Geekbench-score for mobil og 35 % forbedret Javascript-ytelse. Utover benchmarks, som kanskje har liten relasjon til sluttbrukeropplevelsen, fortsetter A76 A75s fokus på vedvarende ytelse, noe som betyr at brukere bør forvente mindre struping under lengre spilløkter. Overgangen til 7nm kombinert med den nye kjernedesignen vil definitivt resultere i merkbart batteri livsforbedringer for sluttbrukere, og det er kanskje den mest tiltalende funksjonen i dette settet med oppgraderinger. Den nye 'Prime'-kjernen er også interessant, gitt at en ensom kjerne som fokuserer på topp entråds ytelse kan være fordelaktig gjennom applikasjoner og prosesser som ikke er satt opp for å dra riktig nytte av flertråding. Selvfølgelig påvirker 7nm-produksjonsprosessen ytterligere andre blokker av Snapdragon 855 også, med de samme strømbesparelsene til andre dataenheter som også er involvert i den daglige brukeropplevelsen, for eksempel bildebehandling for smarttelefonfotografering.


'Snapdragon Elite Gaming Experience' og Adreno 640 GPU

Qualcomm Snapdragon 855 fokuserer sterkt på spill denne gangen, en ikke overraskende vending gitt titlenes popularitet som Fortnite og PlayerUnknown's Battlegrounds, samt den økende populariteten til mobil eSport (ja, dette er en ting) i Asia. I følge tall vist av Qualcomm fra Newzoo 2017 Global Games Market-rapport, trender mobilspilling opp med en forventet totalinntekt i 2018 på 70,3 milliarder dollar, som utgjør 51 % av alle spillinntekter takket være en økning på 25,5 % fra år til år.

Adreno 640 GPU gir en sunn 20 % økning i grafikkytelsen, noe som ytterligere øker Qualcomms ledelse over konkurransen på dette bestemte området. Til referanse ga imidlertid Snapdragon 845 en 30% økning i forhold til Snapdragon 835, som i seg selv også tilbød en 30% forbedring i forhold til Snapdragon 821. Likevel bør dette holde Qualcomm foran i grafikkytelse, og viktigst av alt, ytelse per watt hvis de klarer å forbedre seg på den fronten også. Utover det tallet er Qualcomm like hemmelighetsfull som alltid når det kommer til Adreno: vi hørte om den integrerte mikrokontroller for strømstyring, og hvordan 640 har lavest driveroverhead, selv om selskapet nevnte inkludering av 50 % flere aritmetiske logiske enheter (ALUer) som vil akselerere AI-ytelsen ytterligere.

En ting Qualcomm brukte mye tid på å snakke om på briefinger, er deres ønske om å bringe «fysisk basert gjengivelse» (PBR) til flere mobile spillopplevelser. PBR er en skyggeleggingsmodell som muliggjør realistisk grafikkgjengivelse, nøyaktig modellering av lysstrøm i samsvar med materialet representert i teksturer eller tessellasjonen av overflaten. Dette gjør at objekter i spillet kan etterligne de visuelle egenskapene til materialer fra den virkelige verden, inkludert riktig gjengivelse av mikrooverflater som slitasje og speilhøydepunkter. De mest merkbare forbedringene kommer imidlertid i hvordan det gir en mer nøyaktig fremstilling av reflektiviteten og glansen til alle overflater, selv de fra flate og ugjennomsiktige (simulerte) materialer.

Qualcomm og utviklerne bak den populære Unity Engine har jobbet med å gjøre PBR mer tilgjengelig, men selskapet samarbeider også med andre motor- og spillutviklere for å optimalisere mobilspill for Snapdragon enheter. Spillmotorer som Unity, Unreal, Messiah og NeoX er allerede optimalisert for Snapdragon-enheter, for eksempel, og Snapdragon 855 støtter de nyeste grafikk-API-ene som den nye Vulkan 1.1. Studioer som NetMarble, som står bak Lineage II: Revolutions, har også jobbet med Qualcomm tidligere for å vise frem styrkene til Snapdragon-plattformen. Dessuten, med Snapdragon 675, så vi samtaler om en tilpasset algoritme som oppnådde opp til 90 % færre tøys sammenlignet med den samme plattformen uten optimaliseringer, og de samme endringene har gjort veien til Snapdragon 855. Det er fortsatt ikke klart hva disse optimaliseringene innebærer, og vi forventer ikke at de kan brukes i hvert spill, men det vil definitivt bety bedre ytelse i, i det minste, de større titlene på Android.

På toppen av det hele, mens Snapdragon 835 og 845 tillot avspilling og fangst (henholdsvis) 10-bits, ekte HDR-video, Qualcomm Snapdragon 855 vil være det første mobile brikkesettet som tillater ekte HDR-spill. Dette vil nødvendiggjøre ekte HDR-kompatible skjermer, som heldigvis er stadig mer vanlig blant flaggskip-smarttelefoner. På grunn av dette kan brukere forvente rikere farger med mer tonedybde, høyere dynamisk område (som antydet av navnet) og forbedret kontrast. Dette er ikke nødvendigvis en må-ha-funksjon, men det er absolutt hyggelig å ha gitt den nåværende HDR-spillingen oppsett krever dyre HDR-klare TV-er og skjermer, samt kompatible datamaskiner og spesifikke spill konsoller. Med Qualcomm Snapdragon 855 vil HDR i spill uten tvil være mer tilgjengelig og praktisk (uten berøringsskjermkontrollene, selvfølgelig).


En ny Hexagon 690 DSP for AI-arbeidsbelastninger

Selv om selskapet ikke eksplisitt kaller det en "nevral prosesseringsenhet" i markedsføringsmateriellet sitt, vil AI-arbeidsmengder også dra nytte av den nye og forbedrede Hexagon 690 DSP. Qualcomm introduserte stille disse co-prosessorene for mange generasjoner siden (med den riktige introduksjonen av QDSP6 v6 sammen med 820), men det var ikke før nylig at de begynte å presentere dem som noen av de bedre SoC-blokkene for AI. Opprinnelig designet for å akselerere bildebehandlingsbelastninger, ble arkitekturen til DSP – spesielt med inkluderingen av Hexagon Vector eXtensions (HVX) – en perfekt passform for ML-oppgaver. DSP-en er mer programmerbar enn maskinvare med fast funksjon, samtidig som den beholder noe av ytelsen og effektivitetsfordeler som karakteriserer applikasjonsspesifikke prosessorblokker, og akselererer kraftig skalar og vektor operasjoner. Dette viste seg utmerket for de stadig skiftende bildebehandlingsalgoritmene som kan overføres til DSP, men som også naturlig egner seg til AI-arbeidsbelastninger. Hexagon DSP har vært en velsignelse for maskinlæring on edge-enheter på grunn av sin utmerkede multi-threading på maskinvarenivå og parallell databehandling, som er i stand til å håndtere tusenvis av biter av vektorenheter per prosesseringssyklus, sammenlignet med en gjennomsnittlig CPU-kjernes hundrevis av biter per syklus, og betjener flere avlastninger økter.

Hexagon DSP er spesielt godt egnet for bildeoppgaver siden den kan strømme data direkte fra bildesensoren til DSPs lokale minne (L2 Cache), og omgå enhetens DDR-minnekontroller. Google brukte for eksempel Hexagon DSPs bildebehandling for å drive Pixel og Pixel 2s HDR+ algoritmer, før de introduserte sine egne Pixel Visual Core. Det er også Hexagon-klare enheter som ser de beste resultatene fra de populære Google Camera-portene, som du kan utforske her. Den har blitt brukt i virtuelle og utvidede virkelighetsarbeidsbelastninger, som er kjent for å drive nå nedlagt Prosjekt Tango på Lenovo Phab 2 Pro og ASUS ZenFone AR. Når det er sagt, bruker de fleste OEM-er som implementerer Snapdragon flaggskipenheter Hexagon DSP for bildebehandling på en eller annen måte, som du kan verifisere ved å bruke verktøy som Snapdragon Profiler.

Så hva er nytt med den nye DSP? Hexagon 690 doblet antall vektorakseleratorer (HVX) fra to til fire for å fungere sammen med de fire skalartrådene, som også ser forbedret ytelse på 20 %. På toppen av det, bringer Hexagon 690 den første tensorakseleratoren for mobil med Hexagon Tensor Accelerator (HTA). Dette er et betydelig tillegg: det fungerer som maskinvareakselerasjon for kostbar matrisemultiplikasjon, og integrerer også ikke-linearitetsfunksjoner (som sigmoid og ReLU) på maskinvarenivå, noe som gir ytterligere hastighet slutning. Disse endringene i DSP bør oversettes til bedre stemmeassistentytelse, fra hot-word-deteksjon til kommandoparsing på enheten, og tilbyr for eksempel forbedret ekko-kansellering og støydemping. Qualcomm understreker at de tilbyr en komplett heterogen dataplattform som lar AI-arbeidsmengden utnytte enten CPU, GPU eller DSP, eller en hvilken som helst kombinasjon av de tre blokkene -- med ordene til Qualcomms Gary Brotman, dette det er "mer enn én kjerne, det er mer enn maskinvare, det er et komplett system". Deres fjerde generasjon "Qualcomm AI Engine" går utover maskinvare også, da vi også finner støtte for Snapdragon Neural Processing SDK og Hexagon NN for å få tilgang til de nevnte blokkene, så vel som Android NN API, og populære ML-rammeverk som Caffe/Caffe 2, TensorFlow/Lite og ONNX (Open Neural Network Utveksling). Til sammen kan Snapdragon 855 tilby tre ganger den rå AI-ytelsen av forgjengeren (og to ganger sammenlignet med Huawei), som topper 7 billioner operasjoner per sekund (TOP). Husk imidlertid at Qualcomm fortsetter å fokusere på en heterogen dataløsning fremfor å fokusere på en enkelt dedikert blokk.

For å lære mer om Hexagon DSP, sjekk ut fjorårets stykke beskriver hvordan det hjelper med AI-arbeidsbelastninger.


Oppsummert gir datapakken til Snapdragon 855 noen av de mer virkningsfulle forbedringene fra år til år vi har sett de siste årene. Spectra 380 ISP-CV, som vi dekket i en egen artikkel, gir også enorme løft til ytelse og strømeffektivitet, og muliggjør utmerkede nye funksjoner som 4K 60FPS HDR-videoopptak med portrettmodus eller bakgrunnsbytte (ganske fleksibelt!).

Som forklart i denne artikkelen, bør disse fremskrittene og nye funksjonene gjøre seg konkret gjeldende gjennom hele brukeropplevelsen. Vi ser frem til Qualcomm Snapdragon 855 og å få teste den i dybden snart, så følg med på XDA-utviklere for de siste Snapdragon 855-nyhetene og analysen!