Hur Qualcomm förbättrade prestanda, spel och AI på Snapdragon 855

Den nya mobilplattformen Qualcomm Snapdragon 855 ger stora förbättringar när det gäller prestanda, spel och AI, och vi bryter ner hur de har gjort det.

Vid Qualcomms Snapdragon Summit 2018, företaget tillkännagav deras senaste premium-tier, flaggskeppschipset: Snapdragon 855-plattformen. Den här nya produkten kommer att vara kärnan i de flesta av 2019:s produktiva flaggskepp, och föra med sig löftet om otroliga datahastigheter genom Snapdragon X50-modemet. Utöver det, men Snapdragon 855 ger en rad förbättringar till varje system-på-chip-block, med vissa datorenheter har sett de största prestanda- och energieffektivitetsförbättringarna jämfört med föregående år på senare tid historia.

Vi har redan beskrivit Spectra 380 ISP-CV, till exempel, vilket ytterligare förbättrar smartphonefotografering samtidigt som det ger användarna hälsosamma batteribesparingar. Medan vi i allt högre grad har uppmärksammat perifera komponenter som Hexagon DSP, är de kärnblock som entusiaster betalar mest uppmärksamhet på – nämligen CPU och GPU – har också sett mer än blygsamma vinster med arkitektoniska förbättringar och övergången till en ny process nod. I den här artikeln kommer vi snabbt att sammanfatta vad som är nytt och vad som är känt om Snapdragon 855:s CPU, GPU och DSP, och hur förbättringarna och nya funktionerna kan påverka

din användarupplevelse under 2019.


A76-baserad Kryo 485 CPU och övergången till 7nm

Snapdragon 855 flyttar till TSMC: s senaste 7nm FinFET-tillverkningsprocess. Vi ser vanligtvis en nodrevidering vartannat år, med neddragningar eller optimeringar i mitten av cykeln (som övergången från "Low-Power Early" (LPE) till "Low-Power Plus" (LPP) i Samsung-LSI-noder), så du har sannolikt hört talas om dessa mätvärden i någon eller annan nyhet artikel. Men vad betyder det? I detta sammanhang beskriver den storleken på processorns transistorfunktioner, som i sin tur visar oss vilken typ av transistortäthetsförbättringar vi kan förvänta oss med varje ny generation. Med fler transistorer per ytenhet kan den resulterande prestandan hos processorn skalas upp. Denna funktion är också viktig eftersom mindre processnoder tillåter att processordesigner implementeras i mindre skala, vilket intuitivt krymper utrymmet mellan processorns element, vilket i sin tur förkortar avståndet som elektroner måste resa för att uppnå beräkning. Detta ger förbättringar i prestanda, och mindre processer har också en lägre kapacitans, vilket innebär att transistorer kan slås på och av med lägre latens och med lägre energi. Som referens hävdar TSMC att övergången till deras 7nm-process uppnår prestanda och effekteffektivitet i storleksordningen 20 % respektive 40 %, även om det jämförs med TSMC: s egen 10nm FinFET-process.

Under de senaste Snapdragons flaggskeppskretsar har vi sett Qualcomm arbeta med Samsung och implementera deras 14nm och 10nm LPP/LPE-process. Flytten till TSMC: s 7nm för Snapdragon 855 är dock inte oväntat med tanke på att Samsungs 7nm-process hade gick precis in i massproduktion i oktober, även om det vid den tidpunkten rapporterades att en 5G Qualcomm-chipset skulle byggas på den. Dessutom är Samsungs 7LPP-design tillverkad under en förbättrad litografiteknik känd som extrem ultraviolett litografi (EUVL), ger 40 % ytreduktion vid samma designkomplexitet, med 20 % högre hastigheter eller 50 % mindre strömförbrukning jämfört med 10nm FinFET föregångare. Varje nytt hopp till mindre processnoder hyllas just för att de är så svåra att uppnå. Till exempel, när transistorer blir mindre kan de visa upp större "läckage" eller ström som flyter genom transistorer som är "av", vilket ökar den statiska strömförbrukningen i vilolägen. Och medan mindre chips med tätare transistorantal kan göra det möjligt att få ut det mesta av en given kiselskiva, tenderar utbytet att vara lägre på grund av det ovannämnda läckaget, plus svårigheter att få tag på "högre arkiverade" processorer som körs på deras (höga) referens frekvenser. Dessa är bara några av de många utvecklingshinder som naturligtvis är utjämnade när en ny processnod träffar massproduktion, men i kort sagt, det finns många FoU- såväl som tillverkningsutmaningar som ökar kostnaderna för att få en ny processstorlek till marknadsföra.

Den senaste ARM A76-arkitekturen licensierad för Kryo 485 är en annan stor bidragsgivare till de betydande förbättringar vi ser med Qualcomm Snapdragon 855 från år till år. A76-kärnan är en helt ny, blank skifferdesign från ARMs kontor i Austin, med en ny mikroarkitektur byggd från grunden för att leverera vad ARM kallar "prestanda i laptopklass med mobil effektivitet." Det är fortfarande en semi-anpassad design, och Qualcomm har gjort förbättringar som optimerad dataförhämtning för bättre effektivitet och en större out-of-order exekvering fönster. Den här nya designen erbjuder några enorma prestandaförbättringar jämfört med A75, som Snapdragon 845:s guldkärnor var baserade på: den lovar en 35 % prestandaförbättring och 40 % bättre energieffektivitet. När man jämför A75 på en 10nm-process jämfört med A76 på en 7nm-process med samma effektenvelopp som 750mW/kärna, prestandafördelen växer till 40% till den nya kärnans fördel, och energibesparingarna kan också klättra till 50 %. Vad mer är, andra förbättringar i Asymmetric Single Instruction Multiple Data (ASIMD) pipelines och punkt-produkt instruktioner aggregerade till ~3,9x förbättringar i prestanda för maskininlärningsuppgifter, som slutledning i konvolutionella neurala nätverk. Allt detta motsvarar branschledande prestanda per område och ett utmärkt komplement till den nya 7nm-processen, med Qualcomms 2,84GHz "Prime core" som kryper nära 3GHz referensklockhastigheterna ARM hade använt när du beskriver den nya kärnan. Allt som allt, Qualcomm lovar en helt enorm förbättring av CPU-prestanda med 45 % över 845, den största ökningen hittills från år till år.

På tal om Snapdragon 855:s "Prime core", är det inte heller förvånande att se Qualcomm flytta in med denna nya klusteruppsättning med tanke på förbättringarna över stora. LITTLE aktiverat av ARM's Dynamik tekniska plattformar. I huvudsak tillåter DynamIQ mer flexibilitet och skalbarhet i flerkärnig processordesign, vilket möjliggör flera kärndesigner i ett givet kluster, samt finkornig spänningskontroll per kärna. (EDIT: I en Q&A bekräftade Qualcomm att Prime-kärnan delar sin kraftdomän med prestandaklustret, vilket begränsar verktyget som beskrivs här). A76 passar särskilt bra för en sådan ensam premiumkärna med sin egen klocka, eftersom den trycker på kuvertet när det kommer till entrådig prestanda med 25 % fler heltalsinstruktioner per klocka än A75, och 35 % högre ASIMD- och flyttalsprestanda, samtidigt som den erbjuder 90 % högre minnesbandbredd. Kort sagt, A76 presenterar en större generationslyft än tidigare generationer, vilket utan tvekan bidrog till Qualcomms också högre än vanligt prestandauppgång från år till år för Snapdragon 855 (för referens, Qualcomm citerade 25 till 30% ökning för 845 över 835). Detta kan vara tillräckligt för att sätta Qualcomm Snapdragon 855:s resultat före Samsung LSI: s Mongoose 3 (M3) kärna som finns i Exynos 9810, även om just den designen led av energieffektivitet på ett sätt som Qualcomm-chips inte har gjort, och att Snapdragon 855 troligen inte kommer att antingen.

Vad betyder det för slutanvändaren? Naturligtvis bör vi förvänta oss ökade benchmark-kärnor – ARM projekterar 28 % högre Geekbench-poäng för mobila enheter och 35 % förbättrad Javascript-prestanda. Utöver riktmärken, som kanske inte har något samband med slutanvändarupplevelsen, fortsätter A76 A75:s fokus på ihållande prestanda, vilket innebär att användare bör förvänta sig mindre gaspådrag under långa spelsessioner. Övergången till 7nm i kombination med den nya kärndesignen kommer definitivt att resultera i ett märkbart batteri livsförbättringar för slutanvändare, och det är kanske den mest tilltalande funktionen i denna uppsättning uppgraderingar. Den nya "Prime"-kärnan är också intressant, med tanke på att en ensam kärna som fokuserar på topp entrådig prestanda kan visa sig fördelaktigt genom applikationer och processer som inte är inställda för att dra rätt nytta av flertrådig. Naturligtvis påverkar 7nm-tillverkningsprocessen ytterligare andra block av Snapdragon 855 också, vilket ger samma energibesparingar till andra beräkningsenheter som också är involverade i den dagliga användarupplevelsen, såsom bildbehandling för smartphonefotografering.


"Snapdragon Elite Gaming Experience" och Adreno 640 GPU

Qualcomm Snapdragon 855 fokuserar hårt på spel den här gången, en föga överraskande händelseutveckling med tanke på titlarnas popularitet som Fortnite och PlayerUnknown's Battlegrounds samt den ökande populariteten för mobil eSport (ja, det här är en sak) i Asien. Enligt siffror som Qualcomm visar från Newzoo 2017 Global Games Market rapport, trendar mobilspel uppåt med en förväntad total intäkt för 2018 på 70,3 miljarder USD, vilket utgör 51 % av alla spelintäkter tack vare en ökning på 25,5 % jämfört med föregående år.

Adreno 640 GPU ger en hälsosam 20 % ökning av grafikprestanda, vilket ytterligare bidrar till Qualcomms ledning över konkurrenterna inom detta specifika område. Som referens gav dock Snapdragon 845 en höjning på 30 % jämfört med Snapdragon 835, som också erbjöd en 30 % förbättring jämfört med Snapdragon 821. Ändå borde detta hålla Qualcomm före i grafikprestanda, och viktigast av allt, prestanda per watt om de lyckas förbättra på den fronten också. Bortom den siffran är Qualcomm lika hemlighetsfull som någonsin när det kommer till Adreno: vi hörde om den integrerade mikrokontroller för strömhantering och hur 640 har lägst drivrutinkostnader, även om företaget nämnde inkludering av 50 % fler aritmetiska logiska enheter (ALU) som ytterligare skulle accelerera AI-prestandan.

En sak som Qualcomm spenderade mycket tid på att prata om på genomgångar är deras önskan att ta med "fysiskt baserad rendering" (PBR) till fler mobila spelupplevelser. PBR är en skuggningsmodell som möjliggör realistisk grafikåtergivning, exakt modellering av ljusflödet i enlighet med materialet som representeras i texturer eller ytans tessellation. Detta gör det möjligt för objekt i spelet att korrekt efterlikna de visuella egenskaperna hos material i den verkliga världen, inklusive korrekt återgivning av mikroytor som skavsår och spegelhöjdpunkter. De mest märkbara förbättringarna kommer dock i hur det möjliggör en mer exakt skildring av reflektiviteten och glansen på alla ytor, även de från platta och ogenomskinliga (simulerade) material.

Qualcomm och utvecklarna bakom den populära Unity Engine har arbetat med att göra PBR mer tillgängligt, men företaget samarbetar även med andra motor- och spelutvecklare för att optimera mobilspel för Snapdragon enheter. Spelmotorer som Unity, Unreal, Messiah och NeoX är redan optimerade för Snapdragon-enheter, till exempel, och Snapdragon 855 stöder de senaste grafik-API: erna som den nya Vulkan 1.1. Studior som NetMarble, som ligger bakom Lineage II: Revolutions, har också arbetat med Qualcomm tidigare för att på bästa sätt visa upp styrkorna hos Snapdragon-plattformen. Dessutom med Snapdragon 675, såg vi samtal om en anpassad algoritm som uppnådde upp till 90 % färre skräp jämfört med samma plattform utan optimeringar, och samma förändringar har gjort sin väg till Snapdragon 855. Det är fortfarande inte klart vad dessa optimeringar innebär, och vi förväntar oss inte att de ska vara tillämpliga i varje spel, men det kommer definitivt att innebära bättre prestanda i åtminstone de större titlarna Android.

Ovanpå allt det, medan Snapdragon 835 och 845 tillät uppspelning och fånga (respektive) av 10-bitars, äkta HDR-video, Qualcomm Snapdragon 855 kommer att vara den första mobila styrkretsen som tillåter äkta HDR-spel. Detta kommer att kräva äkta HDR-kompatibla skärmar, som lyckligtvis blir allt vanligare bland flaggskeppssmarttelefoner. På grund av detta kan användare förvänta sig rikare färger med mer tondjup, högre dynamiskt omfång (som antyds av namnet) och förbättrad kontrast. Detta är inte nödvändigtvis en måste-ha-funktion, men det är verkligen trevligt att ha gett det nuvarande HDR-spelandet installationer kräver dyra HDR-förberedda TV-apparater och bildskärmar, såväl som kapabla datorer och specifikt spel konsoler. Med Qualcomm Snapdragon 855 kommer HDR i spel utan tvekan att vara mer tillgängligt och bekvämt (utan pekskärmskontrollerna, förstås).


En ny Hexagon 690 DSP för AI-arbetsbelastningar

Även om företaget inte uttryckligen kallar det en "neural bearbetningsenhet" i sitt marknadsföringsmaterial, kommer AI-arbetsbelastningar också att dra nytta av den nya och förbättrade Hexagon 690 DSP. Qualcomm introducerade tyst dessa medprocessorer för många generationer sedan (med den korrekta introduktionen av QDSP6 v6 tillsammans med 820), men det var inte förrän nyligen som de började presentera dem som några av de bättre SoC-blocken för AI. Ursprungligen designad för att accelerera bildbehandlingsbelastningar, blev DSP-arkitekturen – särskilt med inkluderandet av Hexagon Vector eXtensions (HVX) – en utmärkt passform för ML-uppgifter. DSP: n är mer programmerbar än hårdvara med fasta funktioner, samtidigt som den behåller en del av prestanda och effektivitetsfördelar som kännetecknar applikationsspecifika processorblock, vilket kraftigt accelererar skalär och vektor operationer. Detta visade sig vara utmärkt för de ständigt föränderliga bildbehandlingsalgoritmerna som kan överföras till DSP, men som naturligtvis också lämpar sig för AI-arbetsbelastningar. Hexagon DSP har varit en välsignelse för maskininlärning on edge-enheter på grund av dess utmärkta flertrådiga hårdvarunivå och parallell beräkning, som kan hantera tusentals bitar av vektorenheter per bearbetningscykel, jämfört med en genomsnittlig CPU-kärnas hundratals bitar per cykel, och betjänar flera avlastningar sessioner.

Hexagon DSP är särskilt väl lämpad för avbildningsuppgifter eftersom den kan strömma data direkt från bildsensorn till DSP: s lokala minne (L2 Cache) och kringgå enhetens DDR-minneskontroller. Google använde till exempel Hexagon DSP: s bildbehandling för att driva Pixel och Pixel 2:s HDR+ algoritmer, innan de introducerade sina egna Pixel Visual Core. Det är också Hexagon-förberedda enheter som ser de bästa resultaten från de populära Google Camera-portarna, som du kan utforska här. Det har använts i virtuella och augmented reality-arbetsbelastningar, vilket är berömt att driva nu nedlagd Projekt Tango på Lenovo Phab 2 Pro och ASUS ZenFone AR. Som sagt, de flesta OEM-tillverkare som implementerar Snapdragons flaggskeppsenheter använder Hexagon DSP för bildbehandling på ett eller annat sätt, vilket du kan verifiera med hjälp av verktyg som Snapdragon Profiler.

Så vad är nytt med den nya DSP? Hexagon 690 fördubblade antalet vektoracceleratorer (HVX) från två till fyra för att fungera tillsammans med de fyra skalära trådarna, som också ser förbättrad prestanda på 20 %. Utöver det har Hexagon 690 den första tensoracceleratorn för mobilen med Hexagon Tensor Accelerator (HTA). Detta är ett betydande tillägg: det fungerar som hårdvaruacceleration för dyr matrismultiplikation, och integrerar även icke-linjäritetsfunktioner (som sigmoid och ReLU) på hårdvarunivå, vilket ökar ytterligare slutledning. Dessa ändringar av DSP bör översättas till bättre prestanda för röstassistenten, från detektering av heta ord till kommandotolkning på enheten, som erbjuder förbättrad ekosläckning och brusreducering, till exempel. Qualcomm betonar att de tillhandahåller en komplett heterogen datorplattform som gör att AI-arbetsbelastningen kan utnyttjas antingen CPU, GPU eller DSP, eller vilken kombination som helst av de tre blocken - med Qualcomms Gary Brotmans ord, detta dess "mer än en kärna, det är mer än hårdvara, det är ett komplett system". Deras fjärde generationens "Qualcomm AI Engine" går utöver hårdvara också, eftersom vi också hittar stöd för Snapdragon Neural Processing SDK och Hexagon NN för att komma åt de tidigare nämnda blocken, såväl som Android NN API, och populära ML-ramverk som Caffe/Caffe 2, TensorFlow/Lite och ONNX (Open Neural Network Utbyta). Sammantaget kan Snapdragon 855 erbjuda tre gånger den råa AI-prestandan av sin föregångare (och två gånger jämfört med Huawei), toppar 7 biljoner operationer per sekund (TOPP). Kom dock ihåg att Qualcomm fortsätter att fokusera på en heterogen datorlösning framför att fokusera på ett enda dedikerat block.

För att lära dig mer om Hexagon DSP, kolla in förra årets stycke beskriver hur det hjälper med AI-arbetsbelastningar.


Sammanfattningsvis, beräkningspaketet för Snapdragon 855 ger några av de mer effektfulla förbättringar från år till år som vi har sett de senaste åren. Spectra 380 ISP-CV, som vi behandlade i en separat artikel, ger också enorma ökningar av prestanda och energieffektivitet, vilket möjliggör utmärkta nya funktioner som 4K 60FPS HDR-videoinspelning med porträttläge eller bakgrundsbyte (ganska smidigt!).

Som förklaras i den här artikeln bör dessa framsteg och nya funktioner påtagligt göra sig gällande genom hela användarupplevelsen. Vi ser fram emot Qualcomm Snapdragon 855 och att snart få testa den på djupet, så håll ögonen öppna för XDA-utvecklare för de senaste Snapdragon 855-nyheterna och analyserna!