Interviu: Qualcomm despre Kryo 485 și Hexagon 690 de la Snapdragon 855

Travis Lanier de la Qualcomm a discutat cu XDA pentru un interviu despre procesorul Kryo 485 din platforma mobilă Snapdragon 855 și pentru a comercializa Hexagon 690 DSP.

Luna trecută, Qualcomm a dezvăluit Platforma mobilă Snapdragon 855. Snapdragon 855 este platforma mobilă care va alimenta majoritatea smartphone-urilor emblematice Android în 2019. Qualcomm a adus îmbunătățiri substanțiale de la an la an cu platforma lor mobilă de următoarea generație. Platforma mobilă Snapdragon 855 este construită pe un proces de producție de 7 nm și oferă un salt impresionant de 45% în performanța procesorului față de Snapdragon 845. Îmbunătățirile la nivel de calcul permit Qualcomm să se laude cu performanțe excelente AI pe noul Snapdragon 855. Sunt multe informații de despachetat aici și am făcut tot posibilul să le arătăm modul în care Qualcomm a îmbunătățit performanța și AI pe Snapdragon 855. Cu toate acestea, încă mai aveam întrebări proprii după dezvăluirea produsului, așa că ne-am întâlnit cu Travis Lanier, senior Director de management de produs la Qualcomm, pentru a vorbi despre procesorul Kryo 485 și AI pe noul mobil Qualcomm platformă.

Mario Serrafero: „45% [sări], este ca cel mai mare din toate timpurile. Să desfacem asta. Avem baza A76, 7nm - aceștia sunt contribuitori mari. Se pare că de când v-ați îndepărtat de nucleele personalizate, unele publicații și audiențe nu am avut nicio idee despre ce presupune licența Built on ARM în ceea ce privește ceea ce poate permite tu să faci. Ai fost destul de secretos cu privire la ceea ce implică asta [și]. Acum pe scenă pentru prima dată când ai avut, cel puțin dincolo de întrebări și răspunsuri,... dar pentru prima dată ai arătat care au fost unele dintre îmbunătățirile, și asta e grozav. Așadar, ne întrebam dacă doriți să extindeți modul în care Qualcomm a reglat Kryo 485 pentru a strânge mai mult din Baza ARM, fie că este vorba despre extinderea lucrurilor pe care le-ați expus acolo sau ceva pe care nu le-ați prezentat.”

Travis Lanier: „Deci nu pot spune prea multe mai multe decât altele, ceea ce era în diapozitivele mele. Poate că la o dată viitoare putem, așa că putem să ne așezăm și să luăm niște experți care chiar au făcut treaba; Cunosc punctele de discuție la nivel înalt. Dar, după cum știți, A76 este deja un design de nivel înalt - este destul de bun. Și acesta este unul dintre motivele când am văzut foaia de parcurs ARM. Deci, bine, poate ar trebui să lucrăm mai îndeaproape cu acești tipi, pentru că arăta foarte puternic. Și mă întorc doar la comentariul tău despre personalizare versus ARM. Deci, bine, sunt toate aceste lucruri pe care le poți face. Și dacă faci ceva și trebuie să existe diferențiere, astfel încât să poți face ceva sută la sută sau să faci partener cu ei. Și [ca și în] anii anteriori, suntem puțin mai mult despre integrare. Deci, autobuzele și modul în care ne-am conectat la sistem, caracteristicile lor de securitate pe care le-am introdus în procesoare, configurațiile de cache. Acum că angajamentele au durat mai mult, am putut să facem o personalizare mai profundă a acestuia. Și așa am reușit să punem unele dintre aceste lucruri acolo, cum ar fi ferestre de execuție mai mari [în afara ordinii], corect, așa că aveți mai multe instrucțiuni în zbor, preluarea datelor este de fapt unul dintre domeniile în care există cele mai multe inovații în industria microprocesoarelor chiar acum. Multe dintre tehnicile pentru multe dintre aceste lucruri sunt destul de asemănătoare, toată lumea folosește un predictor de ramură TAGE în zilele noastre, cât de mare îl furnizați, oamenii știu cum să facă necomandă, și redirecționarea și toate astea pentru cache-uri mai mari. Dar pre-preluare, încă mai sunt multe, este unul dintre acele lucruri de tip artă întunecată. Deci, există încă o mulțime de inovații în acel spațiu. Deci am simțit că am putea ajuta cu asta.

Și apoi doar pentru că simțim că în general facem o treabă mai bună cu... de obicei putem implementa un design mai rapid decât alții pot integra un nod de proces. Și așa că, atunci când punem unele dintre aceste lucruri acolo, cum ar fi atunci când deranjați mai mult, este mai mult stres pe designul dvs., nu? Nu este gratuit să adăugați toate aceste lucruri de execuție acolo. Deci, pentru a putea face asta, și pentru a nu avea o lovitură asupra ta fmax. Da, asta face parte din angajamentul pe care îl avem cu ARM, cum ar fi cum le reușiți?"

Mario Serrafero: „Din curiozitate, în prezentare, ați vorbit despre îmbunătățirile viitoare ale eficienței de la pre-preluare, vorbeai despre eficiența energetică, îmbunătățiri ale performanței, un pic de ambii?"

Travis Lanier: "Toate cele de mai sus. Așa că, prin natura sa, facem preluare — ați scos lucruri în cache. Așadar, atunci când memoria cache nu face atât de multe accesări la memorie, acum există un revers în privința preluării: dacă faceți prea multă preluare, [folosește] mai multă memorie, deoarece, știi, [tu faci] prea multe preluări speculative, dar în măsura în care, dacă ai lucruri și iei lucrurile potrivite, atunci nu vei ieși din memorie pentru a le trage Acolo. Deci, dacă aveți un prefetcher mai eficient, economisiți energie și creșteți performanța.”

Mario Serrafero: „Bine, bine, da. Da, nu mă așteptam că te vei putea extinde mult mai mult dincolo de asta, dar este interesant că dacă spui asta Acum, băieți, personalizați mai mult și poate că veți putea să împărtășiți mai multe în viitor, apoi voi fi cu ochii deschisi pentru asta. Așa că celălalt fel de învârtire a capului, cel puțin printre oamenii de care sunt înconjurat, este nucleul principal. Așa că ne așteptam la un fel de aranjamente de cluster mai flexibile de câțiva ani încoace, odată cu includerea DynamIQ și ne așteptam ca alte companii să se îndepărteze de aranjamentul 4+4. Deci două întrebări: care a fost motivul din spatele nucleului principal? Cum beneficiază nucleul principal experiența utilizatorului, deoarece cititorii noștri ar dori să știe de ce există doar un nucleu singur acolo și, de asemenea, de ce nu este chiar un nucleu singur? Partajarea planului de alimentare cu clusterul de performanță nu ar atenua o parte din utilitatea pe care ați putea-o obține dacă ați folosi DynamIQ și ați sta singuri?"

Travis Lanier: „Deci să vorbim mai întâi despre diferite ceasuri și diferite planuri de tensiune. Deci, de fiecare dată când adăugați un ceas și de fiecare dată când adăugați o tensiune, costă bani. Deci, există o limită a numărului de pini pe care îi puneți pe pachet, trebuie să aveți mai multe PLL-uri pentru diferite ceasuri și există doar o complexitate crescută. Deci, există un compromis pentru a face lucruri. Am fost cam extremi la un moment dat; aveam patru domenii diferite pe patru ceasuri diferite, așa că aveam experiență cu asta și era scump. Cam atunci când începi să mergi mare. MIC, aveți nucleele mici pe [the] cluster mic și nu prea au nevoie de aceeași granularitate, ca să spunem așa, a unui ceas separat între nucleele mici. Da, e cam în aer ce faci cu acestea. Deci când ai un mare. MIC sistem, atunci dimpotrivă aveți aceste nuclee mari. Ei bine, le pui pe fiecare pe un ceas mare? Ei bine, nu rulați pe acelea tot timpul, dacă de fapt vă aflați într-o situație suficient de scăzută în care un ceas neocupat va funcționa oricum pe un nucleu mic. Deci, într-adevăr, un fel de două dintre ele sunt destul de bune acolo.

Și apoi ajungeți acolo unde am avut acest nucleu principal, unde bine, ei bine, avem un nucleu de ceas separat, care poate rula până la o frecvență mai mare. Dar aceste alte nuclee, celelalte clustere de performanță, nu pot ajunge la aceeași frecvență înaltă. Deci, dacă doriți să obțineți dreptul deplin al acelui nucleu, trebuie să aveți al treilea ceas pentru acesta. Deci, ce face acest nucleu? Am atins puțin la asta. Lucrurile mari vor fi lansatorul de aplicații și navigarea pe web. Și de ce doar un nucleu? Bine, lucrurile devin mai multifile acum. De exemplu, motoarele de joc - voi reveni la asta într-o secundă - se mișcă foarte agresiv către mai multe fire. Dar dacă te uiți la majoritatea aplicațiilor, chiar dacă au mai multe fire, voi folosi regula Pareto, ca majoritatea dintre ele, 80% din încărcare este într-un fir. Deci, puteți lansa [o] aplicație și se poate declanșa și se aprinde pe toate cele 8 nuclee. Dar, mai mult ca sigur, 80% din el este într-un fir dominant - este în acel nucleu. Navigarea web este încă în primul rând, ei bine, JavaScript, aș spune — navigarea pe web a devenit puțin mai bună cu multithreading, unde puteți avea mai multe imagini și le puteți decoda. Dar, de exemplu, JavaScript—[un] singur fir va rula pe un singur nucleu. Deci, există un număr mare de cazuri de utilizare care beneficiază de a avea acest nucleu care a mers foarte mult.

Acum avem trei nuclee care rulează puțin la o frecvență mai mică, dar sunt și mai eficiente din punct de vedere energetic. Și așa cum ar fi, ori de câte ori — nu știu cât de multe știi despre implementarea nucleelor — dar oricând începi să atingi vârful frecvenței și implementările acestor nuclee, există un compromis în ceea ce privește puterea, lucrurile încep să devină exponențiale în ultimii câțiva megaherți sau gigaherți pe care îi avea. Da, și așa am vorbit despre acum o secundă, unde, hei, toate jocurile încep să aibă mai multe fire, ca toate dintr-o dată, dacă te uiți în urmă, au existat câteva jocuri nu cu mult timp în urmă și doar folosesc unul fir. Dar este ciudat cât de repede se poate schimba industria. La fel ca în ultimul an, an și jumătate, au început să pună toate aceste jocuri în... Am devenit entuziasmat de aceste jocuri de înaltă fidelitate. Și așa că, în timp ce o mulțime de lucruri la fel ca în urmă cu șase luni până la un an, înainte, de fapt au fost răsturnate peste toată China. În China, aud „Nu prea îmi pasă de nucleele mari, dă-mi opt din orice, dă-mi opt din cele mai mici nuclee, astfel încât să pot avea opt nuclee.” S-au schimbat pentru că vor aceste jocuri, aceste jocuri necesită miezuri mari. Și acum primim feedback de la parteneri că „nu, de fapt vrem patru nuclee mari”, din cauza tuturor jocurilor avansate care apar. Și vor folosi toate aceste nuclee.

Deci, atunci când joci, nu joci timp de 30 de secunde sau 5 minute, joci mai mult. Deci, are sens, avem aceste trei alte nuclee în majoritatea cazurilor de utilizare a nucleelor mari multithreaded, ele vor să aibă puțin mai multă eficiență energetică. Se echilibrează într-un fel, aveți acest nucleu de performanță mai mare atunci când aveți nevoie de el pentru unele dintre aceste lucruri în unele dintre aceste cazuri susținute în care au și nuclee mari și aveți această soluție mai eficientă din punct de vedere energetic cu care să vă asociați acea. Acesta este un fel de gândire - este un fel de simetrie neobișnuită. Dar sperăm că asta răspunde de ce [există un] nucleu principal, de ce nu aveți ceasuri separate și de ce nu aveți tensiuni separate? Și așa cred că am atins toate acestea.”

Configurația de bază a procesorului Kryo 485. Sursa: Qualcomm.

Mario Serrafero: „Acum, calcule eterogene. Aceasta este ceea ce Qualcomm a subliniat de la trecerea de la vechiul branding la platforma mobilă, și acel tip de [un] descriptor și, de asemenea, blocuri de agregare de la descrierea anumitor valori de performanță, cum ar fi AI. Cum a fost această evoluție în trecerea la o abordare de calcul mai eterogenă? Oriunde, de la design la execuție la marketing, sau orice puteți atinge.”

Travis Lanier: „Se merge puțin înainte și înapoi. Dar, până la urmă, trebuie să ai aceste motoare pentru că numele jocului pe mobil este eficiența energetică. Acum vezi uneori că se întoarce la o generalizare din când în când. Dacă reveniți la original, chiar și pentru smartphone-uri, telefoanele cu caracteristici aveau multimedia și cameră capabilități într-o oarecare măsură și astfel au toate aceste mici lucruri dedicate pentru că nu ai putea Fă-o. Dacă reveniți la telefoanele care sunt construite pe ARM 9 sau pe un ARM 7, toate au avut un widget de accelerare hardware pentru orice.

Dar, pentru a vă da un exemplu, unde ceva a devenit general și apoi acum cer din nou hardware, ar fi JPEG. Pe vremuri exista un accelerator JPEG. CPU-ul a devenit în cele din urmă suficient de bun și a fost suficient de eficient din punct de vedere energetic, iar JPEG-urile au rămas într-un fel aceeași dimensiune care, hei, știi ce, pur și simplu vom merge mai departe și o vom face pe CPU [pentru că] este pur și simplu mai ușor de făcut aceasta. Acum, pe măsură ce imaginile devin din ce în ce mai mari, dintr-o dată, oamenii merg, știi, de fapt, vreau ca aceste dimensiuni de fișiere foto cu adevărat gigantice să fie accelerate. CPU-urile nu sunt destul de rapide sau ard prea multă putere. Doar dintr-o dată există interes pentru a avea din nou acceleratoare JPEG. Deci nu este întotdeauna o linie dreaptă cum merg lucrurile, atunci trebuie să te uiți la ce se întâmplă acum cu Legea lui Moore. Toată lumea continuă să vorbească despre, hei, poate că nu ești mort, dar încetinește puțin, nu? Deci, dacă nu obțineți acea creștere a puterii sau a performanței de la fiecare nod următor, cum puteți continua să puneți mai multe funcționalități pe telefon dacă nu aveți această suprasarcină? Deci ai putea să-l pui pe CPU. Dar dacă nu ai mai mult spațiu pentru procesorul tău, cum accelerezi aceste lucruri? Ei bine, răspunsul este că pui toate aceste nuclee specializate și lucruri mai eficient. Și așa este acea tensiune naturală.

Veți vedea că oamenii sunt forțați să facă aceste lucruri pentru funcții comune, deoarece poate nu toată lumea va fi pe marginea sângerării. Dar cu siguranță vom încerca să rămânem acolo cât mai mult posibil, dar nu putem forța faburile să treacă la următorul nod dacă nu este neapărat acolo. De aceea, trebuie să vă concentrați pe inovația continuă și pe aceste arhitecturi pentru a obține în continuare performanțe și eficiență energetică mai bune. Deci asta este puterea noastră și fundalul nostru.”

Mario Serrafero: „Chiar dacă a existat această trecere către calculul eterogen, din partea Qualcomm, multe audiențe și cu siguranță multe publicații, cu siguranță mulți entuziaști, în mod surprinzător, care crezi că ar cunoaște mai bine, încă se gândesc, consideră și evaluează blocurile ca fiind separate entitati. Ei încă se concentrează pe „Vreau să văd numerele CPU pentru că îmi pasă de asta”. Vor să vadă numerele GPU pentru că le plac jocurile, așa mai departe și așa mai departe. Ei nu le consideră părți comunicate ale unui produs integral. Cum credeți că Qualcomm a, și este și poate, să distrugă această paradigmă, deoarece concurenții continuă să se concentreze pe acel tip specific de îmbunătățiri bloc cu bloc în marketing? Mai exact, [vom] trece la rețelele neuronale, chestia cu motorul neuronal mai târziu.”

Travis Lanier: „Sper că am atins unele dintre acestea astăzi. Ne concentrăm, de exemplu, pe jocul susținut, așa că poate că obții un scor bun la toate benchmark-urile de jocuri. Oamenii devin obsedați de asta. Dar, într-adevăr, ceea ce contează este că, dacă îți joci jocul, cadrele pe secundă rămân constant acolo unde vrei să fie la cel mai înalt punct pentru aceste lucruri? Cred că oamenii pun mult prea multă greutate într-un număr pentru unul dintre aceste blocuri. Este atât de greu și înțeleg acea dorință de a-mi da un număr care să-mi spună care este cel mai bun. Este atât de convenabil, mai ales în AI în acest moment, este doar o nebunie. Chiar și cu benchmark-uri CPU, ce măsoară un benchmark CPU? Toate măsoară lucruri diferite. Luați oricare dintre punctele de referință, cum ar fi GeekBench are o grămadă de componente secundare. Vezi pe cineva să se destrame și să se uite care dintre aceste componente secundare este cea mai relevantă pentru ceea ce fac eu de fapt?"

Mario Serrafero: — Uneori, facem.

Travis Lanier: „Poate voi, băieți. Voi sunteți ca un anormal. Dar poate că un procesor este mai bun la asta și poate unul este mai bun cu altul. Același lucru cu SPEC, oamenii vor evidenția singurul SPEC, bine, bine, există o mulțime de sarcini de lucru diferite în cadrul acestuia. Și sunt lucruri destul de stricte, dar chiar și SPEC, pe care le folosim de fapt pentru dezvoltarea procesoarelor, dacă te uiți la sarcinile de lucru reale, sunt de fapt relevante? Este grozav pentru a compara sarcinile stațiilor de lucru, dar chiar fac modelare moleculară pe telefonul meu? Nu. Dar din nou, asta e ideea mea este că majoritatea acestor benchmark-uri sunt utile într-un fel, dar trebuie să înțelegi contextul pentru ce [este] și cum ajungi acolo. Și așa că este foarte greu să distilați lucrurile la un număr.

Și văd asta în special – mă învârte puțin aici – dar văd asta cu AI chiar acum, este o prostie. Văd că există câteva lucruri diferite care nu ar primi un număr pentru AI. Și așa de mult am vorbit despre CPU, și aveți toate aceste sarcini de lucru diferite și încercați să obțineți un număr. Holy Moly, AI. Există atât de multe rețele neuronale diferite și atât de multe sarcini de lucru diferite. Îl rulați în virgulă mobilă, îl rulați în int, îl rulați cu precizie de 8 sau 16 biți? Și ceea ce s-a întâmplat este că văd că oamenii încearcă să creeze aceste lucruri și, ei bine, am ales această sarcină de muncă și am făcut-o în virgulă mobilă și vom pondera 50% din testele noastre pe această rețea și alte două teste și le vom pondera pe acest. Bine, chiar folosește cineva acea sarcină de lucru pe acea rețea? Ceva aplicații reale? AI este fascinantă pentru că se mișcă atât de repede. Orice vă spun probabil va fi incorect într-o lună sau două. Așa că asta este și mișto la asta, pentru că se schimbă atât de mult.

Dar cel mai mare lucru nu este hardware-ul din AI, ci software-ul. Pentru că toată lumea îl folosește, eu folosesc această rețea neuronală. Și, practic, există toți acești multiplicatori acolo. Ați optimizat acea rețea neuronală anume? Și așa ați optimizat-o pe cea pentru benchmark, sau ați optimizat-o pe aceea, astfel încât unii oameni să spună, dvs. Știți ce am creat un benchmark care măsoară super rezoluție, este un benchmark pentru o super rezoluție AI. Ei bine, ei folosesc această rețea și poate că au făcut-o în virgulă mobilă. Dar fiecare partener cu care ne angajăm, am reușit fie să o facem pe 16 biți și/sau pe 8 biți și să utilizăm o rețea diferită. Deci asta înseamnă că nu suntem buni la super rezoluție, pentru că această lucrare nu se potrivește cu asta? Așadar, singurul meu punct este că benchmarkingul AI este cu adevărat complicat. Crezi că CPU și GPU sunt complicate? AI este pur și simplu nebun.”

Mario Serrafero: „Da, există prea multe tipuri de rețele, prea multe parametrizări — parametrizarea diferită duce la impacturi diferite, cum este calculată.”

Travis Lanier: „Va ține ocupați recenzenții.”

Mario Serrafero: „Dar dacă vrei să măsori întregul larg de lucruri, ei bine, este mult mai dificil. Dar da, nimeni nu o face.”

Mishaal Rahman: „De aceea, băieți, vă concentrați mai mult pe cazurile de utilizare.”

Travis Lanier: „Cred că, în cele din urmă, odată ce arăți cazuri de utilizare, atât de bună este AI-ul tău acum. Se reduce la software, cred că se va maturiza puțin mai mult în câțiva ani. Dar acum, trebuie făcută atât de multă muncă de software și apoi se schimbă, cum ar fi, Bine, ei bine, această rețea este fierbinte și apoi cum ar fi, anul viitor, „Oh, nu, am găsit o nouă rețea care este mai eficientă în toate aceste lucruri”, așa că atunci trebuie să refaceți software. Este destul de nebunesc.”

Mario Serrafero: „Vorbind de NN, ai cam făcut tranziția pentru mine, gândirea de tranziție mai puțin incomodă pentru mine. Trecerea la Hexagon. Aceasta este un fel de una dintre componentele cel mai puțin înțelese, aș spune, de către consumatori, chiar și cei mai mulți pasionați, cu siguranță colegii mei. Știi, mai ales având în vedere că nu a fost introdus ca un bloc AI și, ca un fel de idee de procesare a semnalului digital, știi, când introduci ceva acea idee originală se cam lipește, așa că dacă faci ceva, bine, este un lucru neural cu inteligența neuronală, neuronală, a creierului neural, se cam lipește oameni. Au etichete neuronale, neuronale, neuronale de învățare automată AI pentru alte soluții. Deci vrem să vă oferim o șansă de a explica evoluția Hexagon DSP, de ce nu v-ați îndepărtat de asta un fel de nume de sunet de inginerie, cum ar fi Hexagon DSP, extensii vectoriale și așa mai departe, care nu sunt ca marketing prietenos. Dar da, la fel ca poate ca o scurtă prezentare a modului în care a fost pentru dvs. în fruntea DSP-ului să vedeți cum trece de la începuturile încărcăturii de imagistică la noul accelerator tensor.”

Travis Lanier: „Este de fapt un punct interesant pentru că unii dintre concurenții noștri au de fapt ceva pe care îl vor numi un motor neural sau un accelerator neural – este de fapt un DSP, este același lucru. Deci, cred că numele este important, dar ați atins un punct important și, sincer, când am pus asta acolo, era pentru imagini, sa întâmplat să acceptăm 8 biți. Și îmi amintesc că prezentam la Hot Chips și Pete Warden de la Google ne-a cam urmărit și ne-a spus: „Hei, voi... deci acceptați 8 biți, nu?” Da, facem. Și de acolo, am ieșit imediat și am zis, hei, avem toate [aceste] proiecte în desfășurare. Atunci am mers și am portat TensorFlow la Hexagon, pentru că este ca, hei, avem un procesor vectorial suportat pe 8 biți acolo pentru a face asta și era pe Hexagon DSP-ul nostru. Dacă ar fi să merg din nou, probabil că l-aș numi Hexagon Neural Signal Processor. Și încă mai avem celălalt DSP, avem DSP-uri scalare și acesta este un DSP în cel mai adevărat sens. Și apoi numim acest tip de vector DSP. Poate ar trebui să-l redenumim, poate ar trebui să-l numim un procesor de semnal neuronal pentru că probabil că nu ne acordăm atât de mult credit ca noi ar trebui pentru asta pentru că, așa cum am spus, unii oameni au doar DSP-uri vectoriale și o numesc oricum și nu au dezvăluit nimic este. Ți-am răspuns la întrebare?”

Prezentare generală Hexagon 690. Sursa: Qualcomm.

Mario Serrafero: „Deci, da, asta este, probabil, cea mai mare parte.”

Travis Lanier: "Care a fost a doua întrebare?"

Mario Serrafero: „Așa cum ați văzut această evoluție în interior. Cum a fost: experiența, dificultățile, provocările, despre ce vrei să ne spui? Cum ați văzut evoluția de la începutul procesării imaginii la acceleratorul tensor?"

Travis Lanier: „A fost puțin frustrant pentru că este ca și cum lucrul care mă face să mă încremenesc este ca și cum o parte din presă își va ridica mâna și va spune: „Qualcomm, ce ești atât de în urmă! De ce nu ai... Când vei deveni ca un procesor de semnal neuronal dedicat? și vreau doar să-mi placă să-mi bat capul. Parcă am fost primii care au avut un procesor vectorial! Dar acestea fiind spuse, edităm acest lucru și probabil că vor continua să existe mai multe lucruri pe măsură ce aflăm mai multe despre AI. Așadar, am adăugat și un alt lucru și da, acesta este - face doar AI, nu face procesare de imagini ca parte a complexului hexagonal, așa că oferiți... deoarece încă îl numim Hexagon DSP, numim întregul complex procesor Hexagon [pentru a] încerca să obținem un nume capturat pentru întregul lucru cu hexagon acum. Am adăugat chestii care de fapt [este] calcule mai directe, nu ar trebui să spun că calculează direct, cum ar fi are această gestionare automată a modului în care faceți această hartă de ordine superioară a locurilor în care vă înmulțiți matrici”.

Mario Serrafero: „Tensorii îmi sunt de fapt destul de greu să-mi înțeleg capul. Este ca și cum se înfășoară și ei în jurul lor, oricum.”

Travis Lanier: „Da, m-am gândit că mi-am luat orele de algebră liniară la facultate. Am făcut asta ca un om, „Sper să nu mai fiu nevoit să mai fac asta niciodată!” Și s-au întors cu răzbunare. Cred că am spus: „O, omule, ecuațiile diferențiale și algebra liniară au revenit cu răzbunare!”.

Mario Serrafero: "Simt că mulți dintre colegii mei nu au ajuns din urmă la asta. Ei încă mai cred că există acest aspect mistificator la NPU atunci când este doar o grămadă de înmulțiri de matrice, produse punctiforme, funcții de neliniaritate, convoluții [și] așa mai departe. Și nu cred că, personal, acest tip de nume de motor de procesare neuronală ajută, dar asta e treaba, nu? Cât de mult din ea nu este extinsă, ofuscată, un fel de matematică subiacentă lopată de convențiile de numire și ce se poate face? Nu știu dacă te-ai gândit la asta. [Ce] se poate face pentru a informa oamenii despre cum funcționează acest lucru? Cum nu este doar, de exemplu, de ce DSP-ul poate face ceea ce pot face celelalte noi motoare de procesare neuronală? Adică e doar matematică, dar nu se pare că utilizatorii, cititorii, unii jurnaliști, înțeleg asta. Ce poate, nu spun că este responsabilitatea Qualcomm, dar ce credeți că ar putea fi făcut diferit? Probabil este responsabilitatea mea.”

Travis Lanier: „Sincer, încep să mă predau. Poate că trebuie doar să numim lucrurilor „neurale”. Tocmai am vorbit despre modul în care algebra liniară și ecuațiile diferențiale ne-au făcut capetele să se învârtească când am început să ne uităm la acestea. lucruri, și atunci când începi să încerci să explici asta oamenilor, cum ar fi atunci când începi să faci analiza de regresie, te uiți la ecuații și chestii, la capetele oamenilor. exploda. Îi poți învăța pe cei mai mulți oameni programare de bază, dar când începi să-i înveți cum funcționează ecuațiile de propagare inversă, ei se vor uita la asta și le va exploda capetele. Deci da, chestii distractive. Ei nu vor să vadă derivate parțiale...”

Mario Serrafero: „Lanțuri de derivate parțiale, nu între scalari, ci între vectori și inclusiv funcții neliniare.”

Travis Lanier: „Mult noroc cu asta! Da, deci este greu și nu știu că majoritatea oamenilor vor să știe despre asta. Dar încerc: am introdus ceva de genul „Hei, tot ce facem aici este matematică vectorială. Avem un procesor vectorial.” Și cred că oamenii se uită la asta și spun: „Bine, dar, omule, îmi doresc cu adevărat un neural accelerator." „Tensorul” este încă matematic, dar cred că oamenii pot asocia asta puțin mai mult cu AI prelucrare."

Mario Serrafero: „Ar putea fi ca o punte de decalaj, decalajul semantic.”

Travis Lanier: „În cele din urmă, cred că s-a ajuns la, probabil că trebuie doar să venim cu un alt nume.”

Toate graficele din acest articol provin din prezentarea lui Travis Lanier la Snapdragon Tech Summit. Puteți vizualiza diapozitivele de prezentare Aici.