Qualcomms Hexagon 685 DSP er et maskinlæringskraftcenter

Qualcomms Snapdragon 845 indeholder en kraftfuld maskinlæringschip indeni. Det hedder Hexagon 685 DSP, og det er et stort skridt fremad inden for AI-hardware.

Snapdragon 845 - den nyeste system-on-chip i Qualcomms Snapdragon-familie - er et kraftcenter i en processor. Den kan prale af hurtige CPU-kerner, en tredje generation af Spectra-billedsignalprocessor (ISP) og en arkitektur, der er 30 procent mere strømeffektiv end den forrige generation. Men dens mest imponerende komponent er uden tvivl en co-processor - Hexagon 685 DSP - der er skræddersyet til kunstig intelligens og maskinlæring.

Hvad får Qualcomms Hexagon 685 DSP til at tikke?

Hexagon DSP-arkitekturen i Snapdragon 835. Kilde: Qualcomm

"Vektormatematik er grundlaget for dyb læring." - Travis Lanier, Senior Director of Product Management hos Qualcomm

For at forstå, hvad der gør Hexagon DSP så unik, hjælper det at vide, at AI er drevet af den slags matematik, ingeniørstudier, som er fortrolige med. Maskinlæring involverer beregning med store vektorer, hvilket udgør en udfordring for smartphone-, tablet- og pc-processorer. Det er svært for almene chips at beregne algoritmer som stokastisk gradientnedstigning - den slags algoritmer, der er kernen i AI-drevne apps - hurtigt og effektivt. Qualcomms Hexagon DSP blev introduceret delvist for at løse dette: Den er fantastisk til at håndtere billed- og sensordata, især fotografering.

Men Hexagon DSP er i stand til meget mere end at pifte selfies op. De inkluderede HVX-kontekster (mere om dem senere) giver den fordelen af ​​både generelle processorer og kerner med fast funktion; Hexagon 685 DSP er fantastisk effektiv til at beregne matematikken bag maskinlæring på enheden, men bevarer fleksibiliteten fra mere programmerbare processorer.

AI-chips som Hexagon 685 DSP, der nogle gange omtales som "neurale behandlingsenheder", "neural engines" eller "machine learning cores" er skræddersyet specifikt til AI-algoritmers matematiske behov. De er meget mere stive i design end traditionelle CPU'er og indeholder specielle instruktioner og arrangementer (i Hexagon 685 DSP's tilfælde, den førnævnte HVX-arkitektur), der accelererer visse skalar- og vektoroperationer, som bliver mærkbare i stor skala implementeringer.

Snapdragon 845's Hexagon 685 DSP kan håndtere tusindvis af bits af vektorenheder pr. behandlingscyklus sammenlignet med den gennemsnitlige CPU-kernes hundredvis af bits pr. cyklus. Det er ved design. Med fire parallelle skalære tråde til Very Long Instruction Word-operationer (VLIW) og flere HVX-kontekster er DSP'en i stand til at jonglere med flere eksekveringsenheder på en enkelt instruktion og flamme gennem heltal og fast punktdecimal operationer.

I stedet for at presse ydeevnen gennem rå MHz, sigter Hexagon 685's design efter høje niveauer af arbejde pr. cyklus ved en reduceret clockhastighed. Det inkluderer hardware multi-threading, der fungerer godt for VLIW, da multi-threading skjuler pipeline-forsinkelser muliggør bedre udnyttelse af VLIW-pakker. Multi-threading af DSP betyder, at den kan betjene flere offload-sessioner -- dvs. samtidige apps til lyd, kamera, computersyn og så videre -- og fremskynde forskellige opgaver samtidigt, hvilket forhindrer applikationer i at skulle kæmpe for udførelsestid.

Kilde: Qualcomm

Men det er ikke Hexagon DSP'ens eneste styrker. Dens instruktionssætarkitektur (ISA) kan prale af forbedret effektivitet i forhold til traditionelle VLIW takket være forbedret kontrolkode, og den anvender smarte tricks til at genoprette ydeevne fra tomgang og gået i stå tråde. Den implementerer også nul-latency round-robin trådplanlægning, hvilket betyder, at DSP'ens tråde behandler nye instruktioner umiddelbart efter at have afsluttet den forrige datapakke.

Kilde: Qualcomm

Intet af dette er nyt, for at være klar. Qualcomm introducerede 'første generation' (eller korrekt) Hexagon DSP -- Hexagon 680 eller QDSP6 v6 -- sammen med Snapdragon 820 i 2015, og Hexagon 680 blev efterfulgt af den aldrig så lidt forbedrede Hexagon 682. Men den seneste generation er den mest sofistikerede til dato og leverer op til tre gange den samlede ydeevne af Snapdragon 835's DSP.

Det er i høj grad takket være HVX, som fungerede meget godt til billedbehandling (tænk augmented reality, computersyn, video og billeder). DSP's HVX-registre kan styres af to af de skalarregistre, og HVX-enhederne og skalarenhederne kan bruges samtidigt, hvilket resulterer i betydelige præstationsgevinster og samtidighed.

Her er Qualcomms forklaring:

"Sig, at du behandler på den mobile CPU i kontrolkodetilstand, og du skifter til beregningstilstand på coprocessoren. Hvis du har brug for en kontrolkode, skal du stoppe og gå tilbage fra coprocessoren til hoved-CPU'en. Med Hexagon kan både kontrolkodeprocessoren på DSP'en og beregningskodeprocessoren på HVX køre på samme tid for tæt kobling af kontrol og beregningskode. Det giver DSP'en mulighed for at tage resultatet af en HVX-beregning og bruge det i en kontrolkodebeslutning i den næste clock-cyklus."

HVX giver en anden stor fordel i billedsensorbehandling. Snapdragon-enheder med Hexagon 685 DSP kan streame data direkte fra billedsensoren til DSP'ens lokale hukommelse (L2 Cache) og omgå enhedens DDR-hukommelsescontroller. Det reducerer ventetiden, selvfølgelig, men forbedrer også batterilevetiden - Snapdragon-processoren er designet til at være inaktiv under hele operationen.

Det er specifikt optimeret til 16-bit floating point-netværk og styret af Qualcomms maskinlæringssoftware: Snapdragon Neural Processing Engine.

"Vi har [taget] det meget alvorligt," sagde en talsmand for Qualcomm. "Vi har arbejdet med partnere i de sidste tre år for at få dem til at bruge [...] vores silicium til kunstig intelligens og billeddannelse."

Disse partnere inkluderer Google, som brugte Hexagon DSP's billedbehandlingsdel til for eksempel at drive Pixel og Pixel 2's HDR+ algoritme. Mens Google også har introduceret deres egen Pixel Core, er det værd at bemærke, at Hexagon 685 DSP-aktiverede enheder er dem, der ser de bedste resultater med den berømte Google Camera-port, delvist på grund af (som vi har bekræftet) af HVX udnyttelse. Facebook, en anden partner, arbejdede tæt sammen med Qualcomm for at accelerere Messengers kamerafiltre og effekter i realtid.

Oppos har optimeret sin ansigtslås-teknologi til Hexagon 685 DSP, og Lenovo har udviklet sin Landmark Detection-funktion omkring det.

En grund til platformens rigdom af support er dens enkelhed. Qualcomms omfattende Hexagon SDK understøtter Halide-sproget til højtydende billedbehandling, og det er ikke nødvendigt at bekymre sig om maskinlæringstræningsrammer -- implementering af en model er lige så simpelt som at foretage et API-kald i de fleste sager.

"Vi konkurrerer ikke [...] med folk som IBM og Nvidia [i AI], men vi har områder, som udviklere kan gribe ind - og allerede har," sagde Qualcomm til XDA Developers.

Hexagon vs. konkurrencen

Snapdragon 845’s Hexagon 685 DSP kommer i takt med, at et stigende antal originaludstyrsproducenter (OEM) forfølger deres egne mobile og on-device AI-løsninger. Huaweis Kirin 970 -- systemet-på-chippen inde i makker 10 og Mate 10 Pro -- har en "neural processing unit" (NPU), der efter sigende kan genkende mere end 2.000 billeder i sekundet på kun 1/50 af strømforbruget af en gennemsnitlig smartphone CPU. Og Apple A11 Bionic system-on-chip i iPhone 8, iPhone 8 Plus og iPhone X har en "Neural Engine", der udfører ansigtsmodellering i realtid og op til 600 milliarder operationer i sekundet.

Men Qualcomm siger, at Hexagons platformagnosticisme giver det en fordel. I modsætning til Apple og Huawei, som stort set tvinger udviklere til at bruge proprietære API'er, søgte Qualcomm at understøtte nogle af de mest populære open source-frameworks fra starten. For eksempel fungerede det sammen med Google om at optimere TensorFlow, Googles maskinlæringsplatform, for Hexagon 685 DSP -- Qualcomm siger, at den kører op til otte gange hurtigere og 25 gange mere strømeffektiv end på ikke-Hexagon-enheder.

Kilde: Qualcomm

På Qualcomms DSP-arkitektur, Googles GoogLeNet Inception Deep Neural Network -- en maskinlæringsalgoritme designet til at vurdere kvaliteten af ​​objektdetekterings- og klassifikationssystemer -- demonstreret gevinster i en demo, der viser en TensorFlow-drevet billedgenkendelsesapp på to smartphones: En, der kører appen på CPU'en, og den anden, der kører den på Qualcomms Hexagon DSP. Den DSP-accelererede smartphone-app tog flere billeder i sekundet, identificerede objekter hurtigere og havde større tillid til sin konklusion om, hvad objektet var end den kun CPU-app.

Google bruger også Hexagon 685 DSP til at accelerere Project Tango, dets augmented reality-platform til smartphones. Lenovos Phab 2 Pro, Asus's ZenFone AR og andre enheder med Tangos dybdefølende IR-modul og billedsporingskameraer drager fordel af Qualcomms Heterogen Processing Architecture, som uddelegerer behandlingsopgaver blandt Snapdragon-chipsættets Hexagon 685 DSP, sensorhubben og billedsignalet processor (ISP). Resultatet er en "mindre end 10 procent" overhead på systemet-på-chippens CPU, ifølge Qualcomm.

"Så vidt vi ved, er vi de eneste mobile fyre derude, der optimerer for ydeevne og strømeffektivitet," sagde en talsmand for Qualcomm.

Selvfølgelig arbejder konkurrenter også på at udvide deres indflydelsessfære og fremme udviklersupport på deres platforme. Kirin 970's neurale chip lanceret med understøttelse af TensorFlow og Caffe (Facebooks åbne API-ramme) udover Huaweis Kirin API'er, med TensorFlow Lite og Kaffe 2 integration på vej senere i år. Og Huawei arbejdede sammen med Microsoft for at optimere sin AI-drevne oversætter til Mate 10.

Men Qualcomm har en anden fordel: Reach. Chipproducenten rådede over 42 procent af smartphone-chipmarkedet i første halvdel af 2017, efterfulgt af Apple og MediaTek med 18 procent hver, ifølge Strategy Analytics. Det er tilstrækkeligt at sige, at den ikke ryster i sine støvler endnu.

Og Qualcomm forudser, at det kun vil vokse. Chipproducenten forventer $160 milliarder i omsætning inden 2025 med AI-softwareteknologier som computervision og ser smartphonemarkedet - som forventes at nå op på 8,6 milliarder enheder afsendt i 2021 - som det største platform.

Med Hexagon 685 DSP og andre "tertiære" forbedringer, der konstant går nedstrøms til mellemklassen hardware, er det også nemmere for Qualcomm-chips at bringe maskinlæring på enheden til alle slags enheder i den nærmeste fremtid. De tilbyder også en praktisk SDK til udviklere (ingen grund til at rode med DSP-assembly-sprog) for at drage fordel af Hexagon 685 DSP og HVX i deres applikationer og tjenester.

"Der er behov for disse dedikerede behandlingsenheder til neural behandling, men du skal også udvide det, så du kan understøtte [open source] rammer," sagde en talsmand for Qualcomm. "Hvis du ikke skaber det økosystem, er der ingen måde [...] udviklere kan skabe på det."