Entrevista: Qualcomm sobre o Kryo 485 e Hexagon 690 do Snapdragon 855

Travis Lanier da Qualcomm conversou com o XDA para uma entrevista sobre a CPU Kryo 485 na plataforma móvel Snapdragon 855 e sobre o marketing do Hexagon 690 DSP.

No mês passado, a Qualcomm revelou o Plataforma móvel Snapdragon 855. O Snapdragon 855 é a plataforma móvel que irá equipar a maioria dos principais smartphones Android em 2019. A Qualcomm fez melhorias substanciais ano após ano com sua plataforma móvel de próxima geração. A plataforma móvel Snapdragon 855 é construída em um processo de fabricação de 7 nm e oferece um salto impressionante de 45% no desempenho da CPU em relação ao Snapdragon 845. As melhorias na computação em geral permitem que a Qualcomm ostente excelente desempenho de IA no novo Snapdragon 855. Há muitas informações para descompactar aqui e fizemos o nosso melhor para mostrar como a Qualcomm melhorou o desempenho e a IA no Snapdragon 855. No entanto, ainda tínhamos dúvidas após o lançamento do produto, então conversamos com Travis Lanier, Senior Diretor de gerenciamento de produtos da Qualcomm, para falar sobre a CPU Kryo 485 e IA no novo celular da Qualcomm plataforma.


Mário Serrafero: “45% [salto], é o maior de todos os tempos. Vamos desembrulhar isso. Temos a base A76, 7nm – esses são grandes contribuidores. Parece que desde que vocês se afastaram dos núcleos personalizados, algumas publicações e públicos não tenho muita ideia do que a licença Built on ARM implica em termos do que ela pode permitir você fazer. Você tem sido bastante reservado sobre o que isso implica [também]. Agora no palco por uma das primeiras vezes, pelo menos além das perguntas e respostas,... mas pela primeira vez você mostrou algumas das melhorias, e isso é legal. Então, estávamos nos perguntando se você gostaria de expandir como a Qualcomm ajustou o Kryo 485 para extrair mais [fora] de Base do ARM, seja expandindo o que você expôs lá ou algo que você não apresentou."

Travis Lanier: "Então não posso dizer muito mais do que estava nos meus slides. Talvez no futuro possamos, para que possamos sentar e conseguir alguns especialistas que realmente fizeram o trabalho; Conheço os pontos de discussão de alto nível. Mas como você sabe, o A76 já tem um design de alto nível – é muito bom. E é uma das razões pelas quais vimos o roteiro da ARM. Então eu pensei, ok, talvez devêssemos trabalhar com esses caras mais de perto, porque parecia muito forte. E voltando ao seu comentário sobre personalização versus ARM. Então, tudo bem, há todas essas coisas que você pode fazer. E se você está fazendo algo, e precisa ter diferenciação, então você pode fazer algo cem por cento ou fazer parceria com eles. E [como nos] anos anteriores, estamos um pouco mais voltados para a integração. Então, ônibus, e como nos conectamos ao sistema, seus recursos de segurança que colocamos nas CPUs, configurações de cache. Agora que os compromissos já duram mais, conseguimos fazer uma personalização mais profunda neste. E foi assim que conseguimos colocar algumas dessas coisas lá, como janelas maiores de execução [fora de ordem], certo, para que você tenha mais instruções em voo, a pré-busca de dados é na verdade uma das áreas onde há mais inovação acontecendo na indústria de microprocessadores agora mesmo. Muitas das técnicas para muitas dessas coisas são bastante semelhantes, todo mundo usa um preditor de ramificação TAGE hoje em dia, quão grande você provisiona, as pessoas sabem como fazer fora de ordem, encaminhar e tudo mais para caches maiores. Mas a pré-busca ainda tem muito, é uma daquelas coisas do tipo dark art. Portanto, ainda há muita inovação acontecendo nesse espaço. Então isso é algo em que sentimos que poderíamos ajudar.

E então, só porque sentimos que geralmente fazemos um trabalho melhor com... normalmente podemos implementar um design mais rápido do que outros podem integrar um nó de processo. E então quando colocamos algumas dessas coisas lá, como quando você fica mais fora de serviço, há mais estresse no seu design, certo? Não é gratuito adicionar todas essas coisas de execução ali. Então, para poder fazer isso e não ter um impacto no seu fmax. Sim, isso faz parte do envolvimento que temos com a ARM, como você consegue realizá-los?"

Mário Serrafero: "Só por curiosidade, na apresentação você falou sobre melhorias de eficiência que virão desde a pré-busca, você estava falando sobre eficiência de energia, melhorias de desempenho, um pouco de ambos?"

Travis Lanier: "Todos acima. Então, por natureza, estamos fazendo uma pré-busca – você extraiu coisas do cache. Então, quando o cache não faz tantos acessos à memória, agora há um outro lado da pré-busca: se você fizer muita pré-busca, estará [usando] mais memória porque, sabe, [você] está fazendo muita pré-busca especulativa, mas no que diz respeito, se você tem coisas e está puxando as coisas certas, então você não vai usar a memória para puxá-las lá. Portanto, se você tiver um pré-buscador mais eficiente, estará economizando energia e aumentando o desempenho."

Mário Serrafero: "Ok, legal, sim. Sim, eu não esperava que você fosse capaz de expandir muito mais além disso, mas é interessante que se você disser isso agora vocês estão personalizando mais e talvez possam compartilhar mais no futuro, então ficarei de olho nisso. Portanto, o outro tipo de pessoa que chama a atenção, pelo menos entre as pessoas que me rodeiam, é o núcleo principal. Portanto, esperávamos acordos de cluster mais flexíveis há alguns anos com a inclusão do DynamIQ e esperávamos que outras empresas estivessem se afastando do acordo 4 + 4. Portanto, duas questões: Qual foi o motivo por trás do núcleo principal? Como o núcleo principal está beneficiando a experiência do usuário, porque nossos leitores gostariam de saber por que existe apenas um núcleo solitário ali e também por que não é exatamente um núcleo solitário? Compartilhar o plano de energia com o cluster de desempenho não mitigaria parte da utilidade que você poderia obter se estivesse usando o DynamIQ e sentando-o por conta própria?"

Travis Lanier: "Então vamos falar primeiro sobre diferentes relógios e diferentes planos de tensão. Portanto, cada vez que você adiciona um relógio e cada vez que adiciona uma voltagem, isso custa dinheiro. Portanto, há um limite para o número de pinos que você coloca no pacote, há mais PLLs necessários para relógios diferentes e há apenas um aumento na complexidade. Portanto, há uma compensação em fazer as coisas. Chegamos ao extremo em certo ponto; tínhamos quatro domínios diferentes em quatro relógios diferentes, então tínhamos experiência com isso e era caro. Mais ou menos quando você começa a crescer. LITTLE, você tem núcleos pequenos no cluster pequeno e eles não precisam da mesma granularidade, por assim dizer, de um clock separado entre os núcleos pequenos. Sim, está no ar o que você faz com eles. Então, quando você tem um grande. Sistema PEQUENO, então, inversamente, você tem esses núcleos grandes. Bem, ok, você coloca cada um deles em um relógio grande? Bem, você não está executando isso o tempo todo, se estiver em uma situação baixa o suficiente, onde um relógio desocupado funcionará em um núcleo pequeno de qualquer maneira. Então, realmente, dois deles são bons o suficiente.

E então você chega onde tínhamos esse núcleo principal, onde tudo bem, bem, temos um núcleo de clock separado, que pode atingir uma frequência mais alta. Mas esses outros núcleos, os outros clusters de desempenho, não podem atingir a mesma alta frequência. Então, se você deseja obter o direito total desse núcleo, você precisa ter o terceiro clock para ele. Então, o que esse núcleo faz? Nós tocamos um pouco nisso. Grandes coisas serão o iniciador de aplicativos e a navegação na web. E então por que apenas um núcleo? Ok, as coisas estão ficando mais multithread agora. Por exemplo, motores de jogos – voltarei a isso em um segundo – estão se movendo de forma muito agressiva em direção a mais threads. Mas se você olhar para a maioria dos aplicativos, mesmo que tenham vários threads, usarei a regra de Pareto, como a maioria deles, 80% da carga está em um thread. Portanto, você pode iniciar um aplicativo e ele pode iniciar e acender em todos os 8 núcleos. Mas é mais do que provável que 80% disso esteja em um segmento dominante – está naquele núcleo. A navegação na Web ainda é principalmente, bem, JavaScript, eu diria - a navegação na Web ficou um pouco melhor com o multithreading, onde você pode ter várias imagens e decodificá-las. Mas, por exemplo, JavaScript – [um] único thread será executado em um núcleo. Portanto, há um grande número de casos de uso que se beneficiam por ter esse núcleo que foi realmente alto.

Agora temos três núcleos rodando em uma frequência um pouco mais baixa, mas também são mais eficientes em termos de energia. E assim, sempre que você - não sei o quanto você sabe sobre implementação de núcleos - mas sempre que você começa a atingir o topo da frequência, e nas implementações desses núcleos, há uma troca de energia, as coisas começam a ficar exponenciais nos últimos megahertz ou gigahertz que você ter. Sim, e então falei sobre um segundo atrás, onde, ei, todos os jogos estão começando a ficar multithread, como todos de repente, se você olhar para trás, houve alguns jogos não muito tempo atrás, e eles estão apenas usando um fio. Mas é estranho a rapidez com que a indústria pode mudar. Como no ano passado, ano e meio, eles literalmente começaram a colocar todos esses jogos em… Fiquei animado com esses jogos de alta fidelidade. E então, embora muitas coisas, de seis meses a um ano atrás, antes, na verdade tenham sido invertidas em toda a China. Na China, ouço "Eu realmente não me importo com núcleos grandes, me dê um oito de qualquer coisa, me dê oito dos menores núcleos, então posso ter oito núcleos." Eles mudaram porque querem esses jogos, esses jogos exigem grandes núcleos. E agora estamos recebendo feedback de parceiros de que “não, na verdade queremos quatro grandes núcleos”, por causa de todos os jogos avançados que estão sendo lançados. E eles vão usar todos esses núcleos.

Então, quando você joga, você não joga por 30 segundos, ou 5 minutos, você joga por mais tempo. Então, faz sentido, temos esses outros três núcleos na maioria dos casos de uso de grandes núcleos multithread, eles querem ter um pouco mais de eficiência de energia. Isso meio que se equilibra, você tem esse núcleo de desempenho mais alto quando precisa dele para algumas dessas coisas dentro de alguns desses casos sustentados onde eles também têm núcleos grandes e você tem esta solução mais eficiente em termos de energia para emparelhar que. Esse é o tipo de pensamento - é uma simetria um pouco incomum. Mas espero que isso responda por que [há] um núcleo principal, por que você não tem relógios separados e por que não tem tensões separadas? E então acho que toquei em tudo isso."

Configuração do núcleo da CPU Kryo 485. Fonte: Qualcomm.

Mário Serrafero: "Agora, computação heterogênea. É isso que a Qualcomm tem enfatizado desde a mudança da antiga marca para a plataforma móvel, e esse tipo de [a] descritor, e também agregando blocos de descrição de certas métricas de desempenho, como IA. Como foi essa evolução na mudança para uma abordagem de computação mais heterogênea? Em qualquer lugar, desde o design até a execução, passando pelo marketing, ou qualquer coisa que você possa abordar."

Travis Lanier: "Vai um pouco para frente e para trás. Mas, no final das contas, você precisa ter esses motores porque o nome do jogo no celular é eficiência de energia. Agora, às vezes, você vê isso voltar a uma generalização de vez em quando. Se você voltar ao original, mesmo para smartphones, os feature phones tinham multimídia e câmera capacidades até certo ponto e então eles têm todas essas pequenas coisas dedicadas porque você não poderia faça isso. Se você voltar aos telefones construídos no ARM 9 ou ARM 7, todos eles tinham um widget de aceleração de hardware para tudo.

Mas, para dar um exemplo, onde algo deu errado e agora eles estão pedindo hardware novamente, seria JPEG. Costumava haver um acelerador JPEG. A CPU eventualmente ficou boa o suficiente e foi eficiente em termos de energia e os JPEGs meio que permaneceram os mesmos mesmo tamanho que, ei, quer saber, vamos seguir em frente e fazer isso na CPU [pois] é mais fácil de fazer isto. Agora, à medida que as fotos ficam cada vez maiores, de repente, as pessoas estão pensando, você sabe, na verdade, eu quero que esses tamanhos de arquivo de fotos realmente gigantescos sejam acelerados. As CPUs não são rápidas o suficiente ou consomem muita energia. De repente, surge o interesse em ter aceleradores JPEG novamente. Portanto, nem sempre é uma linha reta como as coisas acontecem, então você tem que olhar para o que está acontecendo agora com a Lei de Moore. Todo mundo fica falando sobre, ei, você pode não estar morto, mas está desacelerando um pouco, certo? Então, se você não está obtendo esse aumento de potência ou de desempenho em cada nó seguinte, como continuar a colocar mais funcionalidades no telefone se não tiver essa sobrecarga? Então você pode simplesmente colocá-lo na CPU. Mas se você não tem mais espaço para sua CPU, como acelerar essas coisas? Bem, a resposta é: você coloca todos esses núcleos especializados e coisas com mais eficiência. E então é essa tensão natural.

Você verá pessoas sendo forçadas a fazer essas coisas para funções comuns, pois talvez nem todos estejam na vanguarda. Mas certamente tentaremos permanecer lá o maior tempo possível, mas não podemos forçar as fábricas a passar para o próximo nó se ele não estiver necessariamente lá. É por isso que você precisa se concentrar na inovação contínua e nessas arquiteturas para continuar a obter melhor desempenho e eficiência energética. Então essa é a nossa força e a nossa formação."

Mário Serrafero: “Mesmo que tenha havido essa mudança para a computação heterogênea, por parte da Qualcomm, muitos públicos e certamente muitas publicações, certamente surpreendentemente, muitos entusiastas que você acha que saberiam melhor, eles ainda pensam, consideram e avaliam os blocos como separados entidades. Eles ainda se concentram em “Quero ver os números da CPU porque me importo com isso”. Eles querem ver os números da GPU porque gostam de jogos e assim por diante. Eles não os consideram partes comunicadas de um produto integral. Como você acha que a Qualcomm quebrou, está e pode quebrar esse paradigma, à medida que os concorrentes continuam se concentrando nesse tipo específico de melhorias de marketing, bloco por bloco? Especificamente, [passaremos] para as redes neurais, o mecanismo neural mais tarde."

Travis Lanier: "Espero ter abordado um pouco disso hoje. Nós nos concentramos, por exemplo, em jogos sustentados, então talvez você tenha uma boa pontuação em todos os benchmarks de jogos. As pessoas ficam obcecadas com isso. Mas, realmente, o que importa é que, se você estiver jogando, seus frames por segundo permanecem consistentemente onde você deseja, no ponto mais alto para essas coisas? Acho que as pessoas colocam muito peso em um número para um desses blocos. É tão difícil e entendo essa vontade de me dar um número que me diga o que é o melhor. É tão conveniente, especialmente em IA agora, que é uma loucura. Mesmo com benchmarks de CPU, o que um benchmark de CPU mede? Todos eles medem coisas diferentes. Pegue qualquer um dos benchmarks, como se o GeekBench tivesse vários subcomponentes. Você já viu alguém se despedaçando e analisando qual desses subcomponentes é mais relevante para o que estou realmente fazendo?"

Mário Serrafero: "Às vezes, nós fazemos."

Travis Lanier: "Talvez vocês gostem. Vocês são como um estranho. Mas talvez uma CPU seja melhor nisso e talvez uma seja melhor em outra. A mesma coisa com o SPEC, as pessoas vão destacar aquele SPEC, bem, ok, há muitas cargas de trabalho diferentes nele. E são coisas bem rígidas, mas mesmo o SPEC, que realmente usamos para desenvolver CPUs, se você observar as cargas de trabalho reais, elas são realmente relevantes? É ótimo para comparar cargas de trabalho de estações de trabalho, mas estou realmente fazendo modelagem molecular no meu telefone? Não. Mas, novamente, o que quero dizer é que a maioria desses benchmarks é útil de alguma forma, mas você precisa entender o contexto para que serve e como chegar lá. E então é muito difícil resumir as coisas em um número.

E eu vejo isso especialmente – estou girando um pouco aqui – mas vejo isso com a IA agora, é maluco. Vejo que há algumas coisas diferentes que não receberiam um número para IA. E por mais que eu estivesse falando sobre CPU, você tem todas essas cargas de trabalho diferentes e está tentando obter um número. Santo Deus, AI. Existem tantas redes neurais diferentes e tantas cargas de trabalho diferentes. Você está executando em ponto flutuante, em int, com precisão de 8 ou 16 bits? E então o que aconteceu é que vejo pessoas tentando criar essas coisas e, bem, escolhemos essa carga de trabalho e fizemos isso em ponto flutuante, e vamos ponderar 50% dos nossos testes nesta rede e em dois outros testes, e vamos ponderá-los em esse. Ok, alguém realmente usa essa carga de trabalho específica nessa rede? Alguma aplicação real? A IA é fascinante porque está se movendo muito rápido. Qualquer coisa que eu disser provavelmente estará incorreta em um ou dois meses. Então é isso que também é legal, porque está mudando muito.

Mas o mais importante não é o hardware da IA, é o software. Porque todo mundo está usando, tipo, eu estou usando essa rede neural. E basicamente, há todos esses multiplicadores aí. Você otimizou essa rede neural específica? E você também otimizou aquele para o benchmark, ou você otimizou aquele para que algumas pessoas digam, você saiba o que eu criei um benchmark que mede a super resolução, é um benchmark em uma super resolução IA. Bem, eles usam essa rede e podem ter feito isso em ponto flutuante. Mas cada parceiro com quem nos envolvemos conseguiu fazer isso em 16 bits e/ou 8 bits e usando uma rede diferente. Então isso significa que não somos bons em super-resolução, porque este trabalho não corresponde a isso? Portanto, meu único ponto é que o benchmarking de IA é realmente complicado. Você acha que CPU e GPU são complicados? A IA é uma loucura."

Mário Serrafero: "Sim, existem muitos tipos de redes, muitas parametrizações - parametrizações diferentes levam a impactos diferentes na forma como são computadas."

Travis Lanier: "Isso manterá os revisores ocupados."

Mário Serrafero: "Mas se você quiser medir todas as coisas, bem, é muito mais difícil. Mas sim, ninguém está fazendo isso."

Mishaal Rahman: “É por isso que vocês estão se concentrando mais nos casos de uso.”

Travis Lanier: "Acho que, no final das contas, depois que você mostra os casos de uso, sua IA é boa no momento. Tudo se resume ao software, acho que vai amadurecer um pouco mais daqui a alguns anos. Mas agora há muito trabalho de software que precisa ser feito e depois mudanças como, Ok, bem, esta rede está quente e então tipo, no próximo ano, “Ah, não, encontramos uma nova rede que é mais eficiente em todas essas coisas”, então você tem que refazer o Programas. É muito louco."

Mário Serrafero: “Falando em NN, você meio que fez a transição para mim, uma transição menos estranha pensando para mim. Passando para o Hexágono. Este é um dos componentes menos compreendidos, eu diria, pelos consumidores, mesmo pelos mais entusiastas, certamente pelos meus colegas. Você sabe, especialmente considerando que não foi introduzido como um bloco de IA, e como toda a ideia de processamento de sinal digital, você sabe, quando você introduz algo essa ideia original meio que pega, então se você está fazendo algo, ok, é uma coisa neural com a inteligência neural, neural, neural do cérebro, meio que fica com pessoas. Eles têm rótulos neurais, neurais e neurais de aprendizado de máquina de IA para outras soluções. Então, talvez queiramos dar a você uma chance de explicar a evolução do Hexagon DSP, por que você não se afastou dele tipos de nomes que soam de engenharia, como Hexagon DSP, extensões vetoriais e assim por diante, que não são como marketing amigável. Mas sim, talvez como um rápido resumo de como tem sido para você na vanguarda do DSP vê-lo passar desde o início da carga de trabalho de imagem até o novo acelerador tensor.

Travis Lanier: "Na verdade, é um ponto interessante porque alguns de nossos concorrentes têm algo que chamarão de mecanismo neural ou acelerador neural - na verdade, é um DSP, é a mesma coisa. Acho que o nome é importante, mas você tocou em um ponto importante e, honestamente, quando divulgamos isso, era para geração de imagens, por acaso suportamos 8 bits. E eu lembro que estávamos apresentando no Hot Chips e Pete Warden do Google meio que nos localizou e disse: “Ei, vocês... então vocês suportam 8 bits, hein?” Sim, nós fazemos. E a partir daí, imediatamente saímos e tipo, ei, temos todos [esses] projetos em andamento. Foi quando portamos o TensorFlow para o Hexagon, porque é tipo, ei, temos um processador vetorial com suporte de 8 bits para fazer isso, e estava em nosso DSP Hexagon. Se eu tivesse que repetir tudo de novo, provavelmente o chamaria de Processador de Sinal Neural Hexagonal. E ainda temos o outro DSP, temos DSPs escalares e isso é um DSP no sentido mais verdadeiro. E então chamamos esse tipo de DSP vetorial. Talvez devêssemos renomeá-lo, talvez devêssemos chamá-lo de processador de sinais neurais, porque provavelmente não estamos nos dando tanto crédito quanto deveria fazer isso porque, como eu disse, algumas pessoas só têm DSPs de vetor e estão chamando-os de qualquer coisa, e não revelaram nada isso é. Eu respondi sua pergunta?"

Visão geral do hexágono 690. Fonte: Qualcomm.

Mário Serrafero: "Então, sim, provavelmente está certo a maior parte."

Travis Lanier: "Qual foi a segunda pergunta?"

Mário Serrafero: “Exatamente como você viu esse desenvolvimento internamente. Como tem sido: a experiência, as dificuldades, os desafios, o que você quiser nos contar? Como você viu a evolução desde o início do processamento de imagens até o acelerador tensor?"

Travis Lanier: "Tem sido um pouco frustrante porque o que me faz estremecer é como se alguns membros da imprensa levantassem a mão e dissessem: “Qualcomm, o que você está tão atrasado! Por que você não... Quando você vai ter um processador de sinal neural dedicado? e eu só quero bater na minha cabeça. Foi como se fôssemos os primeiros a ter um processador vetorial! Mas dito isso, editamos isso e provavelmente continuará a haver mais coisas à medida que aprendemos mais sobre IA. Então, adicionamos outra coisa e sim, esta é: ela só faz IA, não faz processamento de imagem como parte do complexo hexágono, então você oferece... como ainda o chamamos de Hexagon DSP, estamos chamando todo o complexo de processador Hexagon [para] tentar obter um nome capturado para todo o hexágono agora. Adicionamos coisas que na verdade são computadas mais diretamente, não deveria dizer computadas diretamente, como tem esse gerenciamento automático de como você faz esse mapa de ordem superior de onde você está multiplicando matrizes."

Mário Serrafero: "Na verdade, os tensores são muito difíceis de entender. É como se eles também se envolvessem."

Travis Lanier: "Sim, pensei, fiz minhas aulas de álgebra linear na faculdade. Eu fiz isso como cara: “Espero nunca mais ter que fazer isso!” E eles voltaram com força total. Acho que pensei, 'Cara, equações diferenciais e álgebra linear estão de volta com força total!'"

Mário Serrafero: "Sinto que muitos dos meus colegas não perceberam isso. Eles ainda pensam que há esse aspecto misterioso no NPU quando é apenas um monte de multiplicação de matrizes, produtos escalares, funções de não linearidade, convoluções, [e] assim por diante. E eu não acho que, pessoalmente, esse tipo de nome de mecanismo de processamento neural ajude, mas é isso, certo? Quanto disso não está sendo expandido, ofuscado, uma espécie de matemática subjacente eliminada pelas convenções de nomenclatura, e o que talvez possa ser feito? Não sei se você pensou sobre isso. [O que] pode ser feito para informar as pessoas sobre como isso funciona? Como não é apenas por que, por exemplo, por que o DSP pode fazer o que os outros novos mecanismos de processamento neural podem fazer? Quer dizer, é só matemática, mas parece que os usuários, os leitores, alguns jornalistas, não entendem isso. O que pode – não estou dizendo que seja responsabilidade da Qualcomm – mas o que você acha que poderia ser feito de forma diferente? Provavelmente é minha responsabilidade."

Travis Lanier: "Honestamente, estou começando a me render. Talvez apenas tenhamos que nomear as coisas como “neurais”. Acabamos de falar sobre como a álgebra linear e as equações diferenciais fizeram nossas cabeças girarem quando começamos a olhar para essas coisas, e então quando você começa a tentar explicar isso para as pessoas, como quando você começa a fazer a análise de regressão, você olha para as equações e outras coisas, as cabeças das pessoas explodir. Você pode ensinar programação básica à maioria das pessoas, mas quando começar a ensiná-las como funcionam as equações de retropropagação, elas vão olhar para isso e suas cabeças vão explodir. Então, sim, coisas divertidas. Eles não querem ver derivadas parciais..."

Mário Serrafero: "Cadeias de derivadas parciais, não entre escalares, mas entre vetores e incluindo funções não lineares."

Travis Lanier: "Boa sorte com isso! Sim, é difícil e não sei se a maioria das pessoas quer saber sobre isso. Mas eu tento: coloco algo como: “Ei, tudo o que estamos fazendo aqui é matemática vetorial. Temos um processador vetorial.” E acho que as pessoas olham para isso e pensam: “Ok, mas cara, eu realmente quero um teste neural acelerador." “Tensor” ainda é matemático, mas acho que as pessoas podem associar isso um pouco mais à IA em processamento."

Mário Serrafero: "Poderia ser como preencher a lacuna, a lacuna semântica."

Travis Lanier: "No final, acho que tudo se resume a que provavelmente só teremos que inventar um nome diferente."


Todos os gráficos neste artigo são provenientes da apresentação de Travis Lanier no Snapdragon Tech Summit. Você pode ver os slides da apresentação aqui.