Intervista: Qualcomm sul Kryo 485 e Hexagon 690 dello Snapdragon 855

Travis Lanier di Qualcomm ha incontrato XDA per un'intervista sulla CPU Kryo 485 nella piattaforma mobile Snapdragon 855 e sul marketing del DSP Hexagon 690.

Il mese scorso, Qualcomm ha presentato il Piattaforma mobile Snapdragon 855. Lo Snapdragon 855 è la piattaforma mobile che alimenterà la maggior parte degli smartphone Android di punta nel 2019. Qualcomm ha apportato miglioramenti sostanziali anno dopo anno con la piattaforma mobile di prossima generazione. La piattaforma mobile Snapdragon 855 è costruita su un processo di produzione a 7 nm e offre un impressionante incremento del 45% nelle prestazioni della CPU rispetto allo Snapdragon 845. I miglioramenti nel calcolo su tutta la linea consentono a Qualcomm di vantare eccellenti prestazioni IA sul nuovo Snapdragon 855. Ci sono molte informazioni da scompattare qui e abbiamo fatto del nostro meglio per mostrarle come Qualcomm ha migliorato le prestazioni e l'intelligenza artificiale sullo Snapdragon 855. Tuttavia, avevamo ancora delle domande dopo la presentazione del prodotto, quindi ci siamo incontrati con Travis Lanier, Senior Direttore del Product Management di Qualcomm, per parlare della CPU Kryo 485 e dell'intelligenza artificiale sul nuovo cellulare di Qualcomm piattaforma.

Mario Serrafero: "45% [salto], è come il più grande di sempre. Scartiamolo. Abbiamo la base A76, 7 nm: questi sono i grandi contributori. Sembra che da quando vi siete allontanati dai nuclei personalizzati, alcune pubblicazioni e alcuni pubblici non ho avuto la minima idea di cosa comporti la licenza Built on ARM in termini di ciò che può consentire da fare. Sei stato piuttosto riservato su ciò che ciò comporta [anche]. Ora sei sul palco per una delle prime volte, almeno al di là delle domande e risposte,... ma per la prima volta hai mostrato quali erano alcuni dei miglioramenti, ed è fantastico. Quindi ci chiedevamo se ti piacerebbe approfondire il modo in cui Qualcomm ha messo a punto il Kryo 485 per spremere di più La base di ARM, che si tratti di espandere le cose che hai esposto laggiù o qualcosa che non hai presentato."

Travis Lanier: "Quindi non posso dire molto di più rispetto a quello che c'era nelle mie diapositive. Forse in futuro potremo farlo, così potremo sederci e chiamare alcuni esperti che hanno effettivamente svolto il lavoro; Conosco i punti di discussione ad alto livello. Ma come sai, l'A76 ha già un design di alto livello: è piuttosto buono. Ed è uno dei motivi per cui abbiamo visto la roadmap di ARM. Quindi dico, okay, forse dovremmo lavorare con questi ragazzi più da vicino, perché sembrava molto forte. E torniamo al tuo commento sulla personalizzazione rispetto a ARM. Quindi okay, ci sono tutte queste cose che puoi fare. E se stai facendo qualcosa, ed è necessario che ci sia una differenziazione, puoi fare qualcosa al cento per cento o collaborare con loro. E [come negli] anni precedenti, siamo un po' più incentrati sull'integrazione. Quindi i bus e il modo in cui ci siamo collegati al sistema, le loro funzionalità di sicurezza che inseriamo nelle CPU, le configurazioni della cache. Ora che gli impegni sono durati più a lungo, siamo stati in grado di effettuare una personalizzazione più profonda su questo. Ed è così che siamo riusciti a inserire alcune di queste cose, come finestre di esecuzione [fuori ordine] più grandi, giusto, in modo da avere più istruzioni in volo, la prelettura dei dati è in realtà una delle aree in cui si registra la maggiore innovazione nel settore dei microprocessori Proprio adesso. Molte delle tecniche per molte di queste cose sono abbastanza simili, al giorno d'oggi tutti usano un predittore di ramo TAGE, quanto è grande il tuo provisioning, le persone sanno come eseguire operazioni fuori ordine, inoltro e tutto il resto per cache più grandi. Ma ce n'è ancora parecchio prima del recupero, è una di quelle cose di tipo arte oscura. Quindi c'è ancora molta innovazione in quello spazio. Quindi è qualcosa in cui sentivamo di poter aiutare.

E poi, solo perché riteniamo che generalmente facciamo un lavoro migliore con... di solito possiamo implementare un progetto più velocemente di quanto altri possano integrare un nodo di processo. E quindi quando inseriamo alcune di queste cose, come quando vai più fuori ordine, c'è più stress sul tuo design, giusto? Non è gratuito aggiungere tutte queste cose di esecuzione lì dentro. Quindi, per essere in grado di farlo, e non avere un colpo sul tuo fmax. Sì, fa parte dell'impegno che abbiamo con ARM, ad esempio come riuscirci?"

Mario Serrafero: "Solo per curiosità, nella presentazione, avevate parlato di miglioramenti in termini di efficienza in arrivo dal precaricamento, stavi parlando di efficienza energetica, miglioramenti delle prestazioni, un po' di... Entrambi?"

Travis Lanier: "Tutto quanto sopra. Quindi, per sua natura, stiamo eseguendo il precaricamento: hai inserito elementi nella cache. Quindi, quando la cache non esegue tanti accessi alla memoria, ora c'è un rovescio della medaglia nel prerecupero: se fai troppo prerecupero, stai [usando] più memoria perché, tu sai, [stai] facendo un precaricamento troppo speculativo, ma per quanto riguarda, se hai delle cose e stai inserendo le cose giuste, allora non andrai in memoria per inserirle Là. Quindi, se disponi di un prefetcher più efficiente, risparmi energia e aumenti le prestazioni."

Mario Serrafero: "Va bene, bello, sì. Sì, non mi aspettavo che saresti stato in grado di espanderti molto oltre, ma è interessante che se dici questo ora voi ragazzi state personalizzando di più e forse potrete condividere di più in futuro, quindi terrò gli occhi aperti per questo. Quindi l'altro tipo di persona che fa girare la testa, almeno tra le persone da cui sono circondato, è il nucleo principale. Quindi ci aspettavamo accordi di cluster più flessibili da un paio d'anni a questa parte con [l'] inclusione di DynamIQ e che ci aspettavamo che altre società si allontanassero [dall'accordo] 4 + 4. Quindi due domande: qual era il motivo dietro il nucleo primario? In che modo il nucleo principale avvantaggia l'esperienza dell'utente, perché i nostri lettori vorrebbero sapere perché c'è solo un nucleo solitario laggiù, e anche perché non è proprio un nucleo solitario? Condividere il piano di potenza con il cluster di prestazioni non attenuerebbe in qualche modo parte dell'utilità che potresti ottenere se utilizzassi DynamIQ e lo sedessi da solo?"

Travis Lanier: "Quindi parliamo prima dei diversi clock e dei diversi piani di tensione. Quindi ogni volta che aggiungi un orologio e ogni volta che aggiungi una tensione, costa denaro. Quindi c'è un limite al numero di pin che inserisci nel pacchetto, ci sono più PLL che devi avere per orologi diversi e c'è solo una maggiore complessità. Quindi c’è un compromesso nel fare le cose. Ad un certo punto siamo diventati un po' estremi; avevamo quattro domini diversi su quattro orologi diversi, quindi avevamo esperienza con questo ed era costoso. Un po' quando inizi a diventare grande. PICCOLO, hai i piccoli core sul [] piccolo cluster e non hanno proprio bisogno della stessa granularità, per così dire, di un orologio separato tra i piccoli core. Sì, è un po' nell'aria quello che fai con quelli. Quindi quando hai un grande. PICCOLO sistema, quindi al contrario hai questi grandi nuclei. Bene, ok, li metti ciascuno su un grande orologio? Bene, non li usi tutto il tempo, se in realtà ti trovi in una situazione sufficientemente bassa in cui un orologio non occupato funzionerà comunque su un piccolo core. Quindi davvero, è abbastanza buono che siano in due lì.

E poi arriviamo a dove avevamo questo core principale dove okay, beh, abbiamo un core clock separato, che può raggiungere una frequenza più alta. Ma questi altri core, gli altri cluster di prestazioni, non possono raggiungere la stessa alta frequenza. Quindi, se vuoi ottenere il pieno diritto a quel core, devi avere quel terzo orologio per quello. Quindi cosa fa questo nucleo? Ne abbiamo parlato un po'. Grandi cose saranno [il] launcher delle app e la navigazione sul web. E allora perché un solo core? Ok, le cose stanno diventando più multithread ora. Ad esempio, i motori di gioco – ci tornerò tra un secondo – si stanno muovendo in modo molto aggressivo verso più thread. Ma se guardi la maggior parte delle app, anche se hanno più thread, utilizzerò la regola di Pareto, come la maggior parte di esse, l'80% del carico è in un thread. Quindi potresti eseguire [un] avvio dell'app e potrebbe accendersi e accendersi su tutti gli 8 core. Ma più che probabile, l’80% di esso si trova in un thread dominante: è in quell’unico nucleo. La navigazione sul Web è ancora principalmente, beh, JavaScript, direi: la navigazione sul Web è migliorata leggermente con il multithreading in cui puoi avere più immagini e puoi decodificarle. Ma, ad esempio, JavaScript: [un] singolo thread verrà eseguito su un core. Quindi c'è un gran numero di casi d'uso che traggono vantaggio dall'avere questo core che è andato molto in alto.

Ora abbiamo tre core che funzionano un po' a una frequenza più bassa, ma sono anche più efficienti dal punto di vista energetico. E così, ogni volta che tu, non so quanto sai sull'implementazione dei core, ma ogni volta che inizi a raggiungere il massimo della frequenza, e le implementazioni di questi core, c'è un compromesso in termini di potenza, le cose iniziano a diventare esponenziali in quegli ultimi megahertz o gigahertz che si Avere. Sì, e quindi ne ho parlato un secondo fa, dove, ehi, tutti i giochi stanno iniziando a diventare multithread, come tutti all'improvviso, se guardi indietro, c'erano un paio di giochi non molto tempo fa e ne usano solo uno filo. Ma è strano quanto velocemente il settore possa cambiare. Come nell'ultimo anno, anno e mezzo, hanno letteralmente iniziato a inserire tutti questi giochi... Sono rimasto entusiasta di questi giochi ad alta fedeltà. E così, mentre molte cose, anche da sei mesi a un anno fa, prima, in realtà sono state ribaltate in tutta la Cina. In Cina sento dire: "Non mi interessano i nuclei grandi, dammi un otto di qualsiasi cosa, dammi un otto di core più piccoli, quindi posso avere otto core." Sono cambiati perché vogliono questi giochi, questi giochi richiedono grandi nuclei. E ora riceviamo feedback dai partner che dicono "no, in realtà vogliamo quattro core grandi" a causa di tutti i giochi avanzati che stanno per uscire. E utilizzeranno tutti questi core.

Quindi, quando giochi, non giochi per 30 secondi o 5 minuti, giochi per più tempo. Quindi, ha senso, abbiamo questi altri tre core nella maggior parte dei casi d'uso di big core multithread, vogliono avere un po' più di efficienza energetica. In un certo senso si bilancia, hai questo core con prestazioni più elevate quando ne hai bisogno per alcune di queste cose all'interno di alcune di questi casi prolungati in cui hanno anche core di grandi dimensioni e hai questa soluzione più efficiente dal punto di vista energetico da abbinare Quello. Questo è il modo di pensare: è una specie di simmetria insolita. Ma si spera che questo risponda al motivo per cui [c'è un] core principale, perché non hai orologi separati e perché non hai tensioni separate? E quindi penso di aver toccato tutti questi."

Configurazione core della CPU Kryo 485. Fonte: Qualcomm.

Mario Serrafero: "Ora, calcolo eterogeneo. Questo è ciò che Qualcomm sottolinea da quando è passato dal vecchio marchio alla piattaforma mobile, e quel tipo di [a] descrittore, e anche l'aggregazione di blocchi dalla descrizione di determinati parametri di prestazione come AI. Come è avvenuta questa evoluzione nel passaggio a un approccio informatico più eterogeneo? Ovunque, dalla progettazione all'esecuzione, al marketing, o qualunque cosa tu possa toccare."

Travis Lanier: "Va un po' avanti e indietro. Ma alla fine, devi avere questi motori perché il nome del gioco nel mobile è efficienza energetica. Ora a volte lo vedi tornare alla generalizzazione di tanto in tanto. Se torni all'originale, anche per gli smartphone, i feature phone avevano contenuti multimediali e fotocamera capacità in una certa misura e quindi hanno tutte queste piccole cose dedicate perché tu non potresti fallo. Se torni ai telefoni basati su ARM 9 o ARM 7, avevano tutti un widget di accelerazione hardware per tutto.

Ma per darti un esempio, dove qualcosa è diventato generale e poi ora chiedono di nuovo l’hardware, sarebbe JPEG. C'era un acceleratore JPEG. Alla fine la CPU è diventata abbastanza buona ed era abbastanza efficiente dal punto di vista energetico e i JPEG sono rimasti tali stessa dimensione che, ehi, sai una cosa, andremo avanti e lo faremo sulla CPU [poiché] è semplicemente più facile da fare Esso. Ora, man mano che le immagini diventano sempre più grandi, all'improvviso, la gente dice, sai, in realtà, voglio che queste dimensioni di file di foto davvero gigantesche vengano accelerate. Le CPU [non sono] abbastanza veloci o consumano troppa energia. È all'improvviso che c'è interesse ad avere di nuovo potenzialmente acceleratori JPEG. Quindi non è sempre lineare come vanno le cose, quindi bisogna guardare cosa sta succedendo in questo momento con la Legge di Moore. Tutti continuano a parlare di, ehi, potresti non essere morto, ma sta rallentando un po', giusto? Quindi, se non ottieni quell'aumento di potenza o di prestazioni da ciascun nodo successivo, come continui a aggiungere più funzionalità al telefono se non hai questo sovraccarico? Quindi potresti semplicemente metterlo sulla CPU. Ma se non hai più spazio per la tua CPU, come puoi accelerare queste cose? Bene, la risposta è: metti tutti questi nuclei specializzati e cose in modo più efficiente. E quindi è quella tensione naturale.

Vedrai persone costrette a fare queste cose per funzioni comuni perché forse non tutti saranno all'avanguardia. Ma certamente proveremo a restare lì il più a lungo possibile, ma non possiamo forzare le fab a spostarsi al nodo successivo se non è necessariamente lì. Ecco perché è necessario concentrarsi sull'innovazione continua e su queste architetture per continuare a ottenere prestazioni ed efficienza energetica migliori. Quindi questa è la nostra forza e il nostro background."

Mario Serrafero: "Anche se c'è stato questo passaggio al calcolo eterogeneo, da parte di Qualcomm, molti pubblici e certamente molte pubblicazioni, certamente molti appassionati, sorprendentemente, che ritieni possano conoscerlo meglio, pensano ancora, considerano e valutano i blocchi come separati entità. Si concentrano ancora su: "Voglio vedere i numeri della CPU perché mi interessa". Vogliono vedere i numeri della GPU perché gli piacciono i giochi, e così via. Non li considerano come parti comunicate di un unico prodotto integrale. Come pensi che Qualcomm abbia, sia, e possa, mandare in frantumi quel paradigma mentre i concorrenti continuano a concentrarsi su quello specifico tipo di miglioramento blocco per blocco nel marketing? Nello specifico, [passeremo] alle reti neurali, al materiale del motore neurale più tardi."

Travis Lanier: "Spero di aver toccato qualcosa di questo oggi. Ci concentriamo, ad esempio, sul gaming prolungato, quindi forse otterrai un buon punteggio in tutti i benchmark di gioco. La gente ne diventa ossessionata. Ma in realtà, ciò che conta è, se stai giocando, i tuoi fotogrammi al secondo rimangono costantemente dove vuoi che siano al punto più alto per queste cose? Penso che le persone diano troppo peso a un numero per uno di questi blocchi. È così difficile e capisco quel desiderio di darmi un numero che mi dica qual è il migliore. È così conveniente, soprattutto nell'intelligenza artificiale in questo momento, è semplicemente pazzesco. Anche con i benchmark della CPU, cosa misura un benchmark della CPU? Tutti misurano cose diverse. Prendi uno qualsiasi dei benchmark, come GeekBench ha un sacco di sottocomponenti. Vedi qualcuno che fa a pezzi e cerca in quale di questi sottocomponenti sia più rilevante per quello che sto realmente facendo?"

Mario Serrafero: "A volte, lo facciamo."

Travis Lanier: "Forse voi ragazzi sì. Ragazzi, siete come un valore anomalo. Ma forse una CPU è migliore su questo e forse l'altra è migliore su un'altra. La stessa cosa con SPEC, le persone evidenzieranno l'unico SPEC, beh, okay, ci sono molti carichi di lavoro diversi al suo interno. E sono cose piuttosto rigide, ma anche lo SPEC, che effettivamente utilizziamo per lo sviluppo delle CPU, se guardi i carichi di lavoro effettivi, sono effettivamente rilevanti? È ottimo per confrontare i carichi di lavoro delle workstation, ma sto davvero eseguendo la modellazione molecolare sul mio telefono? No. Ma ancora una volta, il punto è che la maggior parte di questi benchmark sono utili in qualche modo, ma devi capire il contesto di cosa serve e come arrivarci. E quindi è davvero difficile distillare le cose in un unico numero.

E lo vedo soprattutto - sto facendo perno un po' qui - ma lo vedo con l'intelligenza artificiale in questo momento, è pazzesco. Vedo che ci sono un paio di cose diverse che non otterrebbero un numero per l'intelligenza artificiale. E così, per quanto stessi parlando di CPU, e hai tutti questi carichi di lavoro diversi, e stai cercando di ottenere un numero. Santo cielo, AI. Esistono così tante reti neurali diverse e così tanti carichi di lavoro diversi. Lo stai eseguendo in virgola mobile, lo stai eseguendo in int, eseguendolo con precisione a 8 o 16 bit? E quindi quello che è successo è che vedo persone provare a creare queste cose e, beh, abbiamo scelto questo carico di lavoro e lo abbiamo fatto in virgola mobile e peseremo il 50% dei nostri test su questa rete e su altri due test, e li peseremo su Questo. Ok, qualcuno utilizza davvero quel particolare carico di lavoro su quella rete? Qualche applicazione reale? L’intelligenza artificiale è affascinante perché si muove così velocemente. Tutto ciò che ti dirò sarà probabilmente errato tra un mese o due. Quindi questo è anche ciò che è bello, perché sta cambiando così tanto.

Ma la cosa più importante non è l’hardware nell’intelligenza artificiale, è il software. Poiché tutti la usano, ad esempio, io sto usando questa rete neurale. E quindi, fondamentalmente, ci sono tutti questi moltiplicatori lì dentro. Hai ottimizzato quella particolare rete neurale? E così hai ottimizzato quello per il benchmark, o ottimizzi quello che alcuni diranno, tu sai cosa ho creato un benchmark che misura la super risoluzione, è un benchmark su una super risoluzione AI. Bene, usano questa rete e potrebbero averlo fatto in virgola mobile. Ma con ogni partner con cui collaboriamo, siamo riusciti a farlo a 16 bit e/o 8 bit e utilizzando una rete diversa. Quindi questo significa che non siamo bravi con la super risoluzione, perché questo lavoro non corrisponde a quello? Quindi il mio unico punto è che il benchmark dell'intelligenza artificiale è davvero complicato. Pensi che CPU e GPU siano complicate? L’intelligenza artificiale è semplicemente pazzesca”.

Mario Serrafero: "Sì, ci sono troppi tipi di reti, troppe parametrizzazioni: parametrizzazioni diverse portano a impatti diversi, come vengono calcolati."

Travis Lanier: "Terrà occupati i revisori."

Mario Serrafero: "Ma se vuoi misurare l'insieme delle cose, beh, è molto più difficile. Ma sì, nessuno lo fa."

Mishaal Rahman: "Ecco perché voi ragazzi vi state concentrando maggiormente sui casi d'uso."

Travis Lanier: "Penso che alla fine, una volta mostrati i casi d'uso, vedrai quanto è buona la tua intelligenza artificiale in questo momento. Dipende dal software, penso che maturerà un po’ di più tra qualche anno. Ma in questo momento c'è così tanto lavoro da fare sul software e poi cambia come, Ok, beh, questa rete è calda e poi tipo, l'anno prossimo, "Oh, no, abbiamo trovato una nuova rete che è più efficiente in tutte queste cose", quindi poi devi rifare il Software. È davvero pazzesco."

Mario Serrafero: "Parlando di NN, in un certo senso sei stato tu a fare la transizione per me, pensando a una transizione meno imbarazzante per me. Passando all'Esagono. Questo è un po' uno dei componenti meno compresi, direi, dai consumatori, anche dalla maggior parte degli appassionati, sicuramente dai miei colleghi. Sai, soprattutto dato che non è stato introdotto come un blocco AI, e come l'intera idea di elaborazione del segnale digitale, sai, quando introduci qualcosa quell'idea originale si attacca, quindi se stai facendo qualcosa, okay, è una cosa neurale con l'intelligenza neurale, neurale, neurale del cervello, si attacca persone. Hanno le etichette neurali, neurali e neurali dell'apprendimento automatico dell'intelligenza artificiale per altre soluzioni. Quindi vogliamo forse darti la possibilità di spiegare l'evoluzione del DSP Hexagon e perché non ti sei allontanato da quello tipi di nomi dal suono ingegneristico come Hexagon DSP, estensioni vettoriali e così via che non sono come marketing amichevole. Ma sì, proprio come forse un breve riassunto di come è stato per te in prima linea nel DSP vederlo passare dagli inizi del carico di lavoro di imaging al nuovissimo acceleratore tensore."

Travis Lanier: "In realtà è un punto interessante perché alcuni dei nostri concorrenti hanno effettivamente qualcosa che chiameranno motore neurale o acceleratore neurale: in realtà è un DSP, è la stessa cosa. Quindi immagino che il nome sia importante, ma hai toccato un punto importante e in tutta onestà quando l'abbiamo pubblicato era per l'imaging, ci è capitato di supportare 8 bit. E ricordo che stavamo presentando a Hot Chips e Pete Warden di Google ci ha rintracciato e ha detto: "Ehi, tu... quindi voi ragazzi supportate 8 bit, eh?" Sì, lo sappiamo. E così da lì, siamo immediatamente usciti e abbiamo detto, ehi, abbiamo tutti [questi] progetti in corso. È stato allora che abbiamo portato TensorFlow su Hexagon, perché è come, ehi, abbiamo questo processore vettoriale supportato a 8 bit là fuori per farlo, ed era sul nostro DSP Hexagon. Se dovessi ripetere tutto da capo, probabilmente lo chiamerei Hexagon Neural Signal Processor. E abbiamo ancora l'altro DSP, abbiamo DSP scalari e questo è un DSP nel vero senso della parola. E poi chiamiamo questo tipo di DSP vettoriale. Forse dovremmo rinominarlo, forse dovremmo chiamarlo processore di segnali neurali perché probabilmente non ci stiamo dando tutto il credito che vorremmo dovrebbe per questo perché, come ho detto, alcune persone hanno semplicemente DSP vettoriali e lo chiamano in qualunque modo, e non hanno rivelato nulla è. Ho risposto alla tua domanda?"

Panoramica dell'esagono 690. Fonte: Qualcomm.

Mario Serrafero: "Quindi sì, probabilmente è vero per la maggior parte."

Travis Lanier: "Qual era la seconda domanda?"

Mario Serrafero: "Proprio come hai visto questo sviluppo internamente. Com'è stata: l'esperienza, le difficoltà, le sfide, qualunque cosa tu voglia raccontarci? Come hai visto l'evoluzione dagli inizi dell'elaborazione delle immagini all'acceleratore tensore?"

Travis Lanier: "È stato un po' frustrante perché la cosa che mi fa rabbrividire è che alcuni giornalisti alzeranno la mano e diranno: "Qualcomm, quanto sei così indietro! Perché non... Quando diventerai un processore di segnali neurali dedicato?" e voglio solo sbattermi la testa. Ero come se fossimo stati i primi ad avere un processore vettoriale! Detto questo, lo modificheremo e probabilmente continueremo ad esserci più cose man mano che impareremo di più sull’intelligenza artificiale. Quindi, abbiamo aggiunto quest'altra cosa e sì, questa lo è: fa solo l'intelligenza artificiale, non fa l'elaborazione delle immagini come parte del complesso esagonale, quindi offri... poiché lo chiamiamo ancora Hexagon DSP, chiamiamo l'intero complesso processore Hexagon [per] cercare di ottenere un nome catturato per l'intera faccenda dell'esagono Ora. Abbiamo aggiunto cose che in realtà [sono] più direttamente computabili, non dovrei dire direttamente computabili, così ha questa gestione automatica di come esegui questa mappa di ordine superiore di dove stai moltiplicando matrici."

Mario Serrafero: "I tensori sono in realtà piuttosto difficili da comprendere per me. In ogni caso, è come se anche loro si avvolgessero su se stessi."

Travis Lanier: "Sì, pensavo di aver seguito il corso di algebra lineare al college. L'ho fatto da uomo, "Spero di non doverlo fare mai più!" E sono tornati con una vendetta. Immagino di aver pensato, 'Oh cavolo, le equazioni differenziali e l'algebra lineare sono tornate con una vendetta!'"

Mario Serrafero: "Sento che molti dei miei colleghi non se ne sono accorti. Pensano ancora che ci sia questo aspetto mistificante nell'NPU quando è solo un mucchio di moltiplicazioni di matrici, prodotti scalari, funzioni di non linearità, convoluzioni e così via. E non penso che personalmente, quel tipo di nome del motore di elaborazione neurale aiuti, ma è questo il punto, giusto? Quanto di esso non viene espanso, offuscato, una specie di matematica sottostante spalata, dalle convenzioni di denominazione, e cosa si può fare forse? Non so se ci hai pensato. [Cosa] si può fare per informare le persone su come funziona? Come non è semplicemente, ad esempio, perché il DSP può fare quello che possono fare gli altri nuovi motori di elaborazione neurale? Voglio dire, è solo matematica, ma non sembra che gli utenti, i lettori, alcuni giornalisti, lo capiscano. Cosa si può fare (non sto dicendo che sia responsabilità di Qualcomm), ma cosa pensi che si potrebbe fare diversamente? Probabilmente è mia responsabilità."

Travis Lanier: "Sinceramente inizio ad arrendermi. Forse dobbiamo semplicemente chiamare le cose “neurali”. Abbiamo appena parlato di come l'algebra lineare e le equazioni differenziali ci abbiano fatto girare la testa quando abbiamo iniziato a guardarle cose, e così quando inizi a provare a spiegarlo alle persone, come quando inizi a fare l'analisi di regressione, guardi le equazioni e cose del genere, le teste delle persone esplodere. Puoi insegnare alla maggior parte delle persone la programmazione di base, ma quando inizi a insegnare loro come funzionano le equazioni di backpropagation, lo guarderanno e le loro teste esploderanno. Quindi sì, cose divertenti. Non vogliono vedere le derivate parziali..."

Mario Serrafero: "Catene di derivate parziali, non tra scalari ma tra vettori e incluse funzioni non lineari."

Travis Lanier: "Buona fortuna! Sì, quindi è difficile e non so se la maggior parte delle persone voglia saperlo. Ma ci provo: inserisco una piccola cosa del tipo: “Ehi, tutto ciò che stiamo facendo qui è matematica vettoriale. Abbiamo un processore vettoriale. E penso che la gente lo guardi e dica: “Okay, ma amico, voglio davvero un neurale acceleratore." “Tensore” è ancora matematico, ma penso che le persone possano associarlo un po’ di più all’intelligenza artificiale in lavorazione."

Mario Serrafero: "Potrebbe essere come colmare il divario, il divario semantico."

Travis Lanier: "Alla fine, penso che il problema sia che probabilmente dovremmo solo inventare un nome diverso."

Tutta la grafica in questo articolo proviene dalla presentazione di Travis Lanier allo Snapdragon Tech Summit. È possibile visualizzare le diapositive della presentazione Qui.