Entrevista: Qualcomm sobre IA e Hexagon 690 DSP do Snapdragon 855

click fraud protection

Gary Brotman e Ziad Asghar da Qualcomm conversaram com o XDA para uma entrevista sobre o estado da IA ​​e o que há de novo no Hexagon 690 DSP no Snapdragon 855.

Quando a Qualcomm revelou seu novo Plataforma móvel Snapdragon 855, eles elogiaram melhorias substanciais em todos os aspectos da computação móvel. Para o usuário médio, é fácil entender o benefícios para o usuário final por trás das melhorias de CPU e GPU que a Qualcomm fez no Snapdragon 855. Melhor desempenho da CPU se traduz em aplicativos que carregam mais rápido e melhor desempenho da GPU se traduz em melhores taxas de quadros durante os jogos. O que é menos intuitivo para os usuários entenderem é a IA (inteligência artificial) e, especificamente, técnicas de aprendizado de máquina que aplicativos e serviços adotam cada vez mais, como neural artificial redes. A Qualcomm obteve enormes ganhos no desempenho da carga de trabalho de IA com o Snapdragon 855 graças a melhorias na computação em geral e especialmente devido ao renovado Hexagon 690 DSP. Conversamos com Gary Brotman, chefe de estratégia de IA e aprendizado de máquina e planejamento de produtos da Qualcomm, e Ziad Asghar, vice-presidente de Snapdragon Roadmap Planning e AI, XR, Estratégia Competitiva na Qualcomm, para saber mais sobre as melhorias que a Qualcomm fez nas cargas de trabalho de IA.


Mário Serrafero: "Então, o novo DSP. No ano passado, perguntei sobre a estratégia de ataque em relação à forma como a Qualcomm promoveu, comercializou e comunicou o DSP e o HVX, em particular. Na época, como bloco de IA, ainda era relativamente novo para a maioria dos leitores e consumidores. Então, estamos nos perguntando como você viu isso evoluir desde então, com a promoção do 845."

Gary Brotman: "Em primeiro lugar, quando começamos a fazer isso com o 820, ele ainda era muito centrado em CPU e GPU, e aproveitando o DSP e os recursos de processamento vetorial para isso realmente surgiram como resultado de onde o Google está tentando chegar com o TensorFlow e o 8 bits matemática. Então foi aí que realmente esticamos as pernas no DSP, ou digamos, nos processadores vetoriais. Dada a maturidade do processador vetorial que temos na Hexagon e a maneira como conseguimos avançar nesse roteiro tão rapidamente nos próximos dois gerações e os casos de uso que vimos, que na época, as redes de classificação básica eram bastante simples, sem muitos peso. Eles podem funcionar bem com matemática de 8 bits. Um acelerador dedicado, ainda no ano passado, era um risco por basicamente destinar área para algo que pode não ser aproveitado. A confluência para casos de uso, desde sua câmera única padrão, super resolução ou segmentação em tempo real. Essas coisas acontecem em alguns casos, simultaneamente, a demanda por ter pelo menos algum nível de aceleração dedicada que você possa bloquear e ainda ler ciclos no processador vetorial ou mesmo na GPU. Era a hora certa.

Certamente é algo que tivemos que planejar muito mais cedo do que quando conversamos da última vez, mas acho que todos em esta empresa está apostando que sabe exatamente, ou quase exatamente, quais serão essas cargas de trabalho. Que tipo de precisão deveria ser necessária e se você orçou ou não computação suficiente para satisfazer a confluência de casos de uso que estão por vir. Somos bastante deliberados nisso - a Qualcomm sempre foi centrada em casos de uso - e não queríamos executar o risco de ter aceleração dedicada que não seria utilizada porque poderia estar desatualizada no último ciclo. Vemos o suficiente apenas em termos de convolução geral para que um acelerador dedicado possa fazer um trabalho fantástico. Novamente, liberando os ciclos em outros lugares. Em termos da estratégia que temos com este novo acelerador: é dedicado, é uma nova arquitetura. Não é um derivado do hexágono. Mas se você pensar em uma rede hoje, há certas funções de não-linearidade que não funcionam bem em algumas das acelerações dedicadas...

Mário Serrafero: "Sim, sigmóide, ReLU -"

Gary Brotman: "Exatamente, Softmax. E você tem que colocá-los em outro lugar ou na CPU. Mas no nosso caso, da maneira como projetamos isso nos bastidores, o DSP é na verdade o controle. Ele determina onde a rede é executada e onde as camadas são executadas e pode decidir se há certas coisas que devem ser executadas no DSP como substituto ou executadas no processador tensor. Então esse emparelhamento realmente fez muito sentido para nós. Mas isso não diminui nossas crenças e nossa estratégia de que cada núcleo primário em nosso SoC tem um função, então otimizamos de forma geral, mas ainda há muita variabilidade e isso vai continuar."

Mário Serrafero: “Outro tópico sobre o qual queremos falar são os casos de uso. Como você disse, a Qualcomm é muito centrada em casos de uso, vimos a IA chegar aos dispositivos móveis em três áreas principais: reconhecimento de fala, previsão de sequência, como strings e digitação, e, obviamente, visão computacional, como filtros de IA, [e objetos reconhecimento]. A visão computacional explodiu, agora você a vê em todos os lugares. Já vi que com o reconhecimento de fala, todo mundo tem seu próprio assistente de IA, todo mundo tem seu próprio assistente. Agora, tudo isso pode ser feito no limite com pequena latência e segurança perfeita. Mas o que vem a seguir para os casos de uso de aprendizado de máquina, e todos esses casos de uso serão desenvolvidos pelas grandes empresas do mundo – todos os Snapchats do mundo, os Facebooks por aí? Como você vê isso acontecendo?"

Gary Brotman: "Acho que não posso apontar um caso de uso matador. Mas as capacidades permitem mais complexidade computacional e no caso da visão, a resolução de entrada pode ser maior. Você não está trabalhando em imagens de baixa resolução para criar bokeh. Houve uma discussão anteriormente em outra entrevista que tivemos em torno do streaming de 4K como exemplo. Não vou prever que isso seja possível, mas os desenvolvedores com quem trabalhamos, sejam grandes empresas como o Google ou nossos parceiros de desenvolvimento de software que estão realmente construindo os algoritmos que impulsionam muitos desses recursos móveis, eles só querem empurre mais. Eles querem ir mais longe. Se houver algo que eu veria em termos de próximas etapas, provavelmente seria menos sobre o que está acontecendo acima da linha ou no nível do aplicativo, e mais sobre o que está acontecendo no sistema, como melhorar a forma como o produto funciona, gerenciamento de energia e até mesmo no pipeline da câmera, não apenas isto. Você mencionou o áudio e quantas palavras-chave você suportará ou se poderia fazer cancelamento de ruído no dispositivo. A palavra-chave é interessante porque não é fácil construir a biblioteca – você tem memória limitada. Portanto, ainda haverá um equilíbrio entre o que é local e o que vai acontecer na nuvem.”

Ziad Asghar: "Posso acrescentar um pouco. Então, pelo menos os dois domínios onde está crescendo muito são áudio e imagem, hoje. Podemos ver que há muitos casos de uso. Jack falou sobre isso da perspectiva da câmera, tivemos o mecanismo de IA onde você pode aproveitar muito disso para casos de uso de imagens. Alguns dos que foram mostrados hoje. E então, se você olhar para o áudio, não falamos muito sobre isso, mas também adicionamos alguns recursos de áudio ao bloco de áudio. Conseguimos fazer uma melhor ativação por voz em ambientes mais barulhentos. Somos capazes de fazer um melhor cancelamento de ruído [em imagens]. Todas essas habilidades basicamente já estão acontecendo. Tem os parceiros que o Gary mostrou hoje para o ISP, tem muito mais vindo aí. Então acho que essas são as duas dimensões nas quais estamos mais focados hoje.”

Gary Brotman: "E então o próximo passo - não vou prever quando isso acontecerá - é se há computação suficiente agora onde o aprendizado no dispositivo e a experimentação em torno do aprendizado real no dispositivo provavelmente acontecerão no próximo ciclo."

Mário Serrafero: “Este é provavelmente um tópico mais divertido de discutir, e é o fato de que a Qualcomm está mantendo o apelido Hexagon DSP e HVX, enquanto outras empresas estão optando por “neural” fulano de tal. Como a Qualcomm vê essa discrepância e essas diferentes estratégias e abordagens principalmente com o marketing, mas podemos falar um pouco mais tarde sobre a computação heterogênea versus bits de bloco específicos como bem."

Gary Brotman: "Como a Hexagon já tem patrimônio acumulado em DSP, alguém imediatamente pensaria que estamos apenas estendendo nossa estratégia de DSP. Na verdade, por marca, se você olhar para todos os três processadores, seu escalar, seu vetor e agora seu acelerador tensor dedicado, nem todos são DSP. Hexagon é realmente uma marca de nível superior do que apenas DSP. Existem vários DSPs. Acho que as questões de marketing são provavelmente um pouco mais difíceis de responder porque cada região é diferente. A China é muito centrada no NPU porque esse é um apelido que foi introduzido no ano passado e parece ter criado raízes. Eu não diria que isso funcionou em outras partes do mundo. O Google tem um processador tensor, e o tensor parece ressoar."

As melhorias do Qualcomm Snapdragon 855 no desempenho da carga de trabalho de IA. Fonte: Qualcomm.

Mário Serrafero: "Muitas pessoas têm seus próprios nomes diferentes."

Gary Brotman: "Em última análise, tudo se resume ao que o OEM quer fazer. Se isso é importante para seus clientes, cabe a eles descobrir como podem aproveitar essa capacidade de processamento e diferenciá-la em termos de capacidades. Nosso mecanismo, e acho que grande parte da capacidade de processamento que temos, ainda seria muito centrado em vetores e tensores em termos do mix geral. O processamento dedicado em si, a forma como ele faz a multiplicação de matrizes, é o mesmo tipo de processador dedicado que um NPU estaria [usando]. A questão do marketing é interessante, e esqueci, qual foi a resposta de Keith?"

Ziad Asghar: "A resposta dele foi: 'você pode chamar como quiser, para poder vender mais produtos'."

Gary Brotman: "Foi basicamente isso; isso estava certo, foi uma resposta muito direta."

Ziad Asghar: "Acho que Gary cobriu isso muito bem. Algumas pessoas usam esse apelido como um termo de uma forma que quase afirma ou implica que o limita apenas a esse bloco. Mas o que vemos é que toda essa abordagem heterogênea de poder usar a CPU, ou uma GPU, ou um tensor hexágono vetor, oferece diferentes compensações em todo um espectro de precisão em potência e desempenho, e é disso que você precisa hoje. Porque não sabemos qual aplicação requer qual grau de precisão, o que requer desempenho sustentado ou o que não exige. Portanto, acreditamos que é uma solução completa e geral, porque é assim que você obtém a melhor experiência."

Gary Brotman: "E isso nunca mudou em nenhuma de nossas conversas, mesmo com um acelerador dedicado. É um acréscimo, não é uma substituição."

Mário Serrafero: “Sim, acho que foi Keith no ano passado quem disse, ‘onde há computação, haverá IA’. E agora há mais computação."

Gary Brotman: "Mais computação em cada bloco, isso é exatamente certo."

Mário Serrafero: "NAgora que entramos no assunto, ouvimos muitas comparações com um “misterioso” concorrente de 7nm no Android. Sim, ainda não temos ideia de quem é." (falada Na brincadeira)

Gary Brotman: "Nenhuma idéia." (falado em tom de brincadeira)

Mário Serrafero: “Mas, você poderia nos dar uma pista sobre essas comparações? Como eles foram medidos? Que advertências valem a pena considerar? Algum outro comentário que talvez vocês não tenham tido tempo de desenvolver nos slides ou nas perguntas e respostas? Eu sei que é meio difícil medir [e comunicar] por causa da variedade de modelos, então acho que é um assunto interessante para expandir para que as pessoas saibam por que não é tão fácil fazer essas coisas comparações."

Gary Brotman: "Na verdade, é muito simples. Darei uma resposta muito simples sobre uma métrica específica; faremos mais benchmarking em janeiro. Falaremos mais sobre as diferentes redes usadas para medir os números nos quais estamos nos baseando, e isso seria o Inception v3 padrão. É daí que derivamos esse desempenho e a nossa compreensão da posição da concorrência. Mas em termos daquele que anunciou e está com produtos no mercado, é aí que entra o 2x e o 3x de - bem, o 3x foi contra o que tínhamos em 845, enquanto o 2x é a medida de desempenho e o estado do desempenho relativo para o nosso."

Ziad Asghar: "Você tem dispositivos disponíveis, você pode adquiri-los e fazer alguns testes você mesmo. Mas acho que a única coisa contra a qual eu me protegeria seria uma espécie de Velho Oeste de benchmarking de IA. Algumas pessoas usam termos muito generalizados ou combinações de redes que podem beneficiá-las de uma forma específica ou não. “Isso se alinhará bem com uma carga de trabalho modal?” não é algo que as pessoas estejam levando em consideração. Alguns dos benchmarks que estão circulando fazem muito mais disso, e estamos muito perto, então sei que há pessoas que estão fazendo esses benchmarks balançarem de uma forma ou de outra, dependendo do que favorece eles. É por isso que se trata muito mais de casos de uso reais. Também se trata muito mais do melhor desempenho da categoria para esse caso de uso e, em seguida, de fazer isso com mais rapidez. Acho que esses são todos os fatores que analisamos. Mas acho que vai melhorar, vai convergir. No momento, há uma variedade de opções diferentes por aí. Acho que você terá certos benchmarks que farão mais sentido. Hoje, talvez você possa argumentar que o Inception v3 é relativamente melhor neste momento."

Gary Brotman: "Em termos de redes, há um punhado. Existem ResNet, VGG, redes de segmentação, redes de super resolução – desempenho bruto com o qual você pode medir isso. O ponto a ser retirado em termos de benchmarks, como empresas ou entidades que estão fazendo benchmarking de IA, e eles têm misturas de precisões, redes e fórmulas que são variáveis, são tão variáveis ​​que os resultados mudam semana a semana. É aí que está realmente o Velho Oeste, e estamos mantendo distância. Não estamos apostando em lugar nenhum, porque há muita variabilidade no que diz respeito ao desempenho real de algumas dessas redes que são usados ​​em casos de uso, temos certeza de que ainda estamos definitivamente no topo da classificação em termos de desempenho em relação ao concorrência. Devo dizer que não é a classificação, mas a duplicação de que falamos, o desempenho bruto."

Mário Serrafero: “Um dos assuntos que nos interessa como site principalmente para desenvolvedores é a democratização do aprendizado de máquina. Obviamente, temos bibliotecas de código aberto que são ótimas, todos oferecem esses SDKs incríveis também e há muita educação. E agora o Android NN está disponível e o Google acaba de lançar Kit de aprendizado de máquina o que simplifica o processo. Você apenas chama uma API, fornece sua entrada, eles usam um modelo treinado, você não precisa se preocupar com isso, você não precisa pensar sobre isso, não precisa saber nenhuma estatística ou cálculo vetorial. Como você vê que o cenário evoluiu nesse sentido, tornando-o mais acessível, simplificando a API, simplificando a documentação, os SDKs e promovendo a inclusão de desenvolvedores terceirizados, não apenas de grandes empresas?"

Gary Brotman: "É engraçado quando realmente nos concentramos nas grandes empresas, isso também ajuda os desenvolvedores menores. Começamos com uma pilha mais proprietária quando se tratava de programação para Snapdragon, especificamente para executar IA. Mas com o tempo, e nas últimas gerações, adicionamos mais ferramentas. Estamos tentando encontrar um equilíbrio entre abstração de alto nível e facilidade de uso, e acesso de nível inferior, que exige que alguém para ser muito mais experiente, especialmente quando se trata de lidar com alguns de nossos núcleos proprietários, como o processador vetorial ou o NPU. Vemos isso evoluindo do ponto de vista da democratização. Temos os blocos de construção básicos, como as bibliotecas matemáticas Hexagon e Qualcomm, mas talvez uma API de nível um pouco mais alto que abstraia pelo menos parte desse trabalho pesado, mas oferece flexibilidade suficiente para o desenvolvedor poder usar seus próprios operadores personalizados ou ajustar um pouco em termos de desempenho no nível mais baixo nível. Então o portfólio continuará envolvendo mais ferramentas, e certamente coisas como NN API onde o Onyx é um exemplo por poder basicamente diga “aqui está o que você está programando, em que você está expressando sua rede”. Contanto que o hardware suporte isso, você está bom.

Como mencionei em nossa apresentação, somos responsáveis ​​por um cenário multi-SO. Existe o Windows, existe o Linux, existe o Android, então não se trata apenas do Android. Quando olhamos para isso, se vamos construir algum tipo de API que será SoC, cross-SoC ou multiplataforma do ponto de vista do sistema operacional, temos que olhar e ver como encontrar pontos em comum no que construímos sob o capuz. A pilha com bibliotecas e suporte ao operador e podendo ser plugada em NN API ou Windows ML, por exemplo. Mas certamente, passamos do pêndulo para cá, onde ninguém sabe realmente o que fazer, como literalmente, sem saber. “Não sei que estrutura usar. Devo usar o TensorFlow ou devo usar o Caffe ou o Torch?” E não saber o que fazer para otimizar no nível inferior. Então, todos ficam satisfeitos com uma chamada de API. Agora, em questão de alguns anos, é fácil ir mais fundo. Portanto, as ferramentas estão lá, sejam elas ferramentas comuns de código aberto, ou mesmo em um portfólio como o que oferecemos ou o oferecido pelos concorrentes, essas ferramentas estão se tornando mais facilmente acessíveis e fáceis de usar."

O AI Engine da Qualcomm e estruturas de IA, sistemas operacionais, ecossistemas, recursos e dispositivos suportados. Fonte: Qualcomm.

Mário Serrafero: "Falando em comunidades de desenvolvedores. Da última vez, mencionamos que uma das comunidades mais maduras que temos é a comunidade de jogos, e a Qualcomm está muito bem inserida nisso. Agora vemos isso mais do que nunca com as parcerias com os motores de jogo que estão sendo promovidos e comercializados. Estávamos conversando sobre isso no contexto da IA ​​e como ela está surgindo lá."

Mishaal Rahman: “Você estava falando sobre como queria investir mais nos próximos 12 meses. Isso foi na última vez que estivemos aqui."

Mário Serrafero: “Especificamente na comunidade de desenvolvedores de jogos, expandindo isso e o que vemos hoje.”

Gary Brotman: "Não me lembro do comentário específico sobre investir na comunidade de jogos, mas se você olhar para uma categoria que vimos impulsionando a necessidade de aceleração dedicada, e os jogos são um componente disso, mas não é necessariamente o caso de uso principal – VR como um exemplo. Em uma experiência de VR rica e envolvente, cada núcleo é basicamente aproveitado. Você está fazendo processamento gráfico na GPU, processamento visual no processador vetorial e a necessidade de pegue uma ou mais redes e execute-as separadamente em um acelerador dedicado sem a preocupação de simultaneidade impacto. Esse é um dos motivos que nos levou a ter aceleração dedicada. Não tenho muitas informações sobre como a IA está sendo aproveitada nos jogos hoje. Há muito trabalho com agentes – desenvolvendo agentes para combater ou ensinar você.”

Mário Serrafero: "Como a IA tradicional nos jogos."

Gary Brotman: "Exatamente certo. Mas sendo mais baseado em redes neurais."

Mário Serrafero: "Sim, não o Minimax."

Gary Brotman: "Parte da responsabilidade de Ziad também é conduzir a estratégia XR."

Ziad Asghar: "Em termos de XR, se você olhar hoje, lançamos novos dispositivos que são HMDs completos com ativação total de 6DOF. Dispositivos como o Oculus Quest, que foram lançados com o Snapdragon 835, então estamos começando a chegar a um ponto muito bom em termos de aproveitar toda a capacidade dos dispositivos XR. No passado, alguns dos dispositivos não proporcionavam realmente aquela experiência pura porque algumas pessoas não obtiveram a melhor experiência com eles. Acho que o XR agora está indo muito bem. O que também estamos olhando para o futuro, quando combinado com 5G, é que agora você poderá aproveitar seu dispositivo é muito mais móvel, o que significa que você pode imaginar que está realmente andando em um rua. E então ter um link como 5G significa que, como o demonstração que Gary mostrou do Google Lens. Agora imagine que se você estivesse usando algum tipo de óculos Google ou algo parecido e pudesse realmente trazer informações sobre o que você está vendo através de seus olhos, agora você tem um caso de uso que realmente pode ser muito atraente. Acho que é aí que entra o investimento de longo prazo de que você está falando, é essa a direção que vai.

Mas agora, sentimos que estamos em um estado muito bom em termos de XR e de todas as diferentes empresas que lançaram com XR. Oculus Go também é baseado no Snapdragon 820, então acho que estamos começando a chegar a um ponto muito bom em que as pessoas estão aprendendo e fazendo muitas coisas com ele. E a próxima etapa, como mencionei, é começarmos a trazer a conectividade 5G, o que faremos e depois isso, claro, AR e algumas coisas que vão exigir muito mais em termos de desempenho, mas limitadas em poder. E isso será extremamente desafiador, e acho que com o que falamos hoje, a Qualcomm é provavelmente a melhor em termos de execução de qualquer um desses casos de uso em termos de potência. Se você olhar os gráficos e comparar qualquer um dos concorrentes, verá que nosso desempenho por unidade de potência é o melhor da categoria. E como consequência disso, as térmicas, o desempenho sustentado é o que importa no XR, e nesse aspecto estamos realmente à frente – é por isso que as pessoas nos usam para o XR.”

O Oculus Go é alimentado pela plataforma móvel Qualcomm Snapdragon 821.

Mário Serrafero: "Desde o ano passado, vimos o Hexagon 685 DSP finalmente atingir a faixa intermediária premium com o 710 e a faixa intermediária adequada com o 670 e 675. Portanto, agora estamos fazendo com que as extensões vetoriais hexágonos sigam em frente, enquanto outros concorrentes não estão fazendo isso com suas unidades de processamento neural. Como você vê a ampliação do alcance dessas experiências, e eu gostaria de perguntar se, no passado, você viu que as discrepâncias de desempenho na IA faziam alguma diferença? Porque ainda estamos no início da adoção da IA."

Ziad Asghar: "Eu olho para o roteiro geral. Se você está procurando o melhor desempenho da categoria, ele estará no nível premium. O que estamos fazendo é pegar seletivamente algumas das capacidades da Hexagon e reduzi-las. O primeiro motor AI, ou o primeiro Hexagon, foi iniciado com o Snapdragon 820. Então reduzimos para o Snapdragon 660 e para o 670, e o 710 também tem. Portanto, nosso plano é ver como isso se transforma nas experiências prospectivas.

Como um mecanismo de IA, temos componentes antigos básicos: CPU, GPUs, tensor hexágono, vetor hexágono e escalar. O que fazemos é trazer seletivamente partes disso para o roteiro, à medida que vemos que essas habilidades estão diminuindo e indo para headsets de nível inferior. Você verá, na verdade, à medida que avançarmos no ano. você verá que faremos mais disso. Lançamos o Snapdragon 675 no 4G/5G Summit. Falamos sobre isso com o 675, e o que você verá é que, à medida que esses casos de uso estão se tornando mais predominante, como mostramos com ArcSoft e todos os outros caras hoje, na verdade vamos trazer esses recursos mais baixo. Na camada inferior, você será capaz de executar esse caso de uso, mas para obter o perfil de energia correto como eu mencionado anteriormente, se você quiser ter esse desempenho sustentado, você quer que aquele bloqueio específico esteja chegando mais baixo. Então, novamente, o melhor desempenho da categoria estará no topo, mas à medida que você desce, haverá uma grande degradação ou gradação de…"

Mário Serrafero: "Descida gradiente, você poderia dizer." (falado em tom de brincadeira)

Ziad Asghar: "Sim, exatamente. É assim que fazemos com outras tecnologias também no roteiro e a IA não será muito diferente nesse sentido. Provavelmente é uma diferença, talvez de onde você vem, já que provavelmente está caindo mais rápido através de outras tecnologias que incluímos no roteiro, então essa observação eu concordo com."


Se você estiver interessado em aprender mais sobre IA nas plataformas móveis da Qualcomm, recomendamos a leitura de nossa entrevista do ano passado com Gary Brotman. Você pode começar com parte 1 da nossa entrevista ou vá para parte 2.

Todos os gráficos mostrados nesta entrevista são provenientes da apresentação de Gary Brotman durante o Snapdragon Tech Summit. Você pode ver os slides aqui.