O Hexagon 685 DSP da Qualcomm é uma potência de aprendizado de máquina

click fraud protection

O Snapdragon 845 da Qualcomm contém um poderoso chip de aprendizado de máquina. É chamado de Hexagon 685 DSP e é um grande avanço no hardware de IA.

O Snapdragon 845 – o mais novo sistema em chip da família Snapdragon da Qualcomm – é uma potência de processador. Ele possui núcleos de CPU velozes, um processador de sinal de imagem (ISP) Spectra de terceira geração e uma arquitetura que é 30% mais eficiente em termos de energia do que a geração anterior. Mas sem dúvida o seu componente mais impressionante é um coprocessador – o Hexagon 685 DSP – feito sob medida para inteligência artificial e aprendizado de máquina.

O que faz o Hexagon 685 DSP da Qualcomm funcionar?

A arquitetura Hexagon DSP no Snapdragon 835. Fonte: Qualcomm

"A matemática vetorial é a base do aprendizado profundo." - Travis Lanier, diretor sênior de gerenciamento de produtos da Qualcomm

Para entender o que torna o Hexagon DSP tão único, é útil saber que a IA é impulsionada pelo tipo de engenharia com os quais os estudantes de engenharia da faculdade de matemática estão intimamente familiarizados. O aprendizado de máquina envolve computação com vetores grandes, o que representa um desafio para processadores de smartphones, tablets e PCs. É difícil para chips de uso geral calcular algoritmos como descida gradiente estocástica – os tipos de algoritmos que estão no centro dos aplicativos baseados em IA – de forma rápida e eficiente. O Hexagon DSP da Qualcomm foi introduzido em parte para resolver isso: é ótimo para lidar com dados de imagem e sensor, especialmente fotografia.

Mas o Hexagon DSP é capaz de muito mais do que embelezar selfies. Os contextos HVX incluídos (mais sobre isso posteriormente) oferecem a vantagem de processadores de uso geral e núcleos de função fixa; o Hexagon 685 DSP é extremamente eficiente no cálculo da matemática por trás do aprendizado de máquina no dispositivo, mas mantém a flexibilidade de processadores mais programáveis.

Chips de IA como o Hexagon 685 DSP, que às vezes são chamados de “unidades de processamento neural”, “motores neurais”, ou “núcleos de aprendizado de máquina”, são adaptados especificamente para a matemática dos algoritmos de IA. precisa. Eles têm um design muito mais rígido do que CPUs tradicionais e contêm instruções e arranjos especiais (no caso do Hexagon 685 DSP, a arquitetura HVX mencionada acima) que aceleram certas operações escalares e vetoriais, que se tornam perceptíveis em larga escala implementações.

O Hexagon 685 DSP do Snapdragon 845 pode lidar com milhares de bits de unidades vetoriais por ciclo de processamento, em comparação com as centenas de bits por ciclo do núcleo médio da CPU. Isso é intencional. Com quatro threads escalares paralelos para operações VLIW (Very Long Instruction Word) e múltiplos contextos HVX, o DSP é capaz de fazer malabarismos com múltiplas unidades de execução em uma única instrução e percorrer números inteiros e decimais de ponto fixo operações.

Em vez de aumentar o desempenho através de MHz brutos, o design do Hexagon 685 visa altos níveis de trabalho por ciclo a uma velocidade de clock reduzida. Inclui multithreading de hardware que funciona bem para VLIW, já que o multithreading oculta as latências do pipeline e permite uma melhor utilização dos pacotes VLIW. O multithreading do DSP significa que ele pode atender múltiplas sessões de offload - ou seja, aplicativos simultâneos para áudio, câmera, visão computacional e assim por diante - e acelerar várias tarefas simultaneamente, evitando que os aplicativos tenham que lutar por tempo de execução.

Fonte: Qualcomm

Mas esses não são os únicos pontos fortes do Hexagon DSP. Sua arquitetura de conjunto de instruções (ISA) apresenta maior eficiência em relação ao VLIW tradicional graças ao código de controle aprimorado e emprega truques inteligentes para recuperar o desempenho de inatividade e paralisação tópicos. Ele também implementa agendamento de thread round-robin com latência zero, o que significa que os threads do DSP processam novas instruções imediatamente após completar o pacote de dados anterior.

Fonte: Qualcomm

Nada disso é novo, para ficar claro. A Qualcomm apresentou o Hexagon DSP de ‘primeira geração’ (ou propriamente dito) – o Hexagon 680, ou QDSP6 v6 – ao lado do Snapdragon 820 em 2015, e o Hexagon 680 foi seguido pelo ligeiramente melhorado Hexágono 682. Mas a última geração é a mais sofisticada até agora e oferece até três vezes o desempenho geral do DSP do Snapdragon 835.

Isso se deve em grande parte ao HVX, que funcionou muito bem para processamento de imagens (pense em realidade aumentada, visão computacional, vídeo e imagens). Os registros HVX do DSP podem ser controlados por quaisquer dois registros escalares, e as unidades HVX e as unidades escalares podem ser usadas simultaneamente, resultando em ganhos substanciais de desempenho e simultaneidade.

Aqui está Explicação da Qualcomm:

“Digamos que você esteja processando na CPU móvel no modo de código de controle e mude para o modo computacional no coprocessador. Se precisar de algum código de controle, você terá que parar e voltar do coprocessador para a CPU principal. Com o Hexagon, tanto o processador de código de controle no DSP quanto o processador de código computacional no HVX podem ser executados ao mesmo tempo para um acoplamento rígido de controle e código computacional. Isso permite que o DSP pegue o resultado de um cálculo HVX e use-o em uma decisão de código de controle no próximo ciclo de clock.”

O HVX oferece outra grande vantagem no processamento de sensores de imagem. Dispositivos Snapdragon com DSP Hexagon 685 podem transmitir dados diretamente do sensor de imagem para a memória local do DSP (cache L2), ignorando o controlador de memória DDR do dispositivo. Isso reduz a latência, é claro, mas também melhora a vida útil da bateria – o processador Snapdragon foi projetado para ficar inativo durante toda a operação.

É otimizado especificamente para redes de ponto flutuante de 16 bits e controlado pelo software de aprendizado de máquina da Qualcomm: Snapdragon Neural Processing Engine.

“Nós [levamos] isso muito a sério”, disse um porta-voz da Qualcomm. “Temos trabalhado com parceiros nos últimos três anos para que utilizem [...] nosso silício para IA e imagens.”

Esses parceiros incluem o Google, que usou a parte de processamento de imagem do Hexagon DSP para alimentar o algoritmo HDR + do Pixel e do Pixel 2, por exemplo. Embora o Google também tenha introduzido seu próprio Pixel Core, é importante notar que os dispositivos habilitados para DSP Hexagon 685 são os aqueles que obtêm os melhores resultados com a famosa porta Google Camera, em parte por causa (como confirmamos) do HVX utilização. O Facebook, outro parceiro, trabalhou em estreita colaboração com a Qualcomm para acelerar os filtros e efeitos de câmera em tempo real do Messenger.

A Oppo otimizou sua tecnologia de desbloqueio facial para o Hexagon 685 DSP, e a Lenovo desenvolveu seu recurso Landmark Detection em torno dele.

Uma razão para a riqueza de suporte da plataforma é a sua simplicidade. O extenso Hexagon SDK da Qualcomm suporta a linguagem Halide para processamento de imagens de alto desempenho e não há necessidade se preocupar com estruturas de treinamento de aprendizado de máquina – implementar um modelo é tão simples quanto fazer uma chamada de API, na maioria casos.

“Não estamos [...] competindo com empresas como IBM e Nvidia [em IA], mas temos áreas que os desenvolvedores podem explorar - e já o fizeram”, disse Qualcomm ao XDA Developers.

Hexágono vs. a competição

O Hexagon 685 DSP do Snapdragon 845 surge no momento em que um número crescente de fabricantes de equipamentos originais (OEM) buscam suas próprias soluções de IA móveis e no dispositivo. Da Huawei Kirin 970 - o sistema no chip dentro do Companheiro 10 e Companheiro 10 Pró - tem uma “unidade de processamento neural” (NPU) que pode reconhecer mais de 2.000 imagens por segundo com apenas 1/50 do consumo de energia de uma CPU média de smartphone. E o sistema no chip Apple A11 Bionic no iPhone 8, iPhone 8 Plus e iPhone X tem um “Motor Neural” que executa modelagem facial em tempo real e até 600 bilhões de operações por segundo.

Mas a Qualcomm diz que o agnosticismo da plataforma Hexagon lhe dá uma vantagem. Ao contrário da Apple e da Huawei, que em grande parte forçam os desenvolvedores a usar APIs proprietárias, a Qualcomm procurou oferecer suporte a algumas das estruturas de código aberto mais populares desde o início. Por exemplo, trabalhou com o Google para otimizar TensorFlow, plataforma de aprendizado de máquina do Google, para o DSP Hexagon 685 – a Qualcomm afirma que ele funciona até oito vezes mais rápido e com 25 vezes mais eficiência energética do que em dispositivos não Hexagon.

Fonte: Qualcomm

Na arquitetura DSP da Qualcomm, do Google Rede Neural Profunda GoogLeNet Inception - um algoritmo de aprendizado de máquina projetado para avaliar a qualidade dos sistemas de detecção e classificação de objetos - demonstrou ganhos em uma demonstração mostrando um aplicativo de reconhecimento de imagem com tecnologia TensorFlow em dois smartphones: um que executa o aplicativo na CPU e outro que o executa no Hexagon da Qualcomm DSP. O aplicativo de smartphone acelerado por DSP capturou mais imagens por segundo, identificou objetos mais rapidamente e teve maior confiança em sua conclusão sobre qual era o objeto do que o aplicativo somente com CPU.

O Google também usa o Hexagon 685 DSP para acelerar o Project Tango, sua plataforma de realidade aumentada para smartphones. O Phab 2 Pro da Lenovo, o ZenFone AR da Asus e outros dispositivos com módulo IR com sensor de profundidade e câmeras de rastreamento de imagem da Tango aproveitam as vantagens da Qualcomm Arquitetura de processamento heterogêneo, que delega tarefas de processamento entre o Hexagon 685 DSP do chipset Snapdragon, o hub do sensor e o sinal de imagem processador (ISP). O resultado é uma sobrecarga de “menos de 10%” na CPU do sistema no chip, de acordo com a Qualcomm.

“Até onde sabemos, somos os únicos fabricantes de dispositivos móveis que estão otimizando o desempenho e a eficiência energética”, disse um porta-voz da Qualcomm.

É claro que os concorrentes também estão trabalhando para expandir sua esfera de influência e promover o apoio dos desenvolvedores em suas plataformas. O chip neural do Kirin 970 foi lançado com suporte para TensorFlow e Café (estrutura de API aberta do Facebook), além das APIs Kirin da Huawei, com TensorFlow Lite e Café2 integração a caminho ainda este ano. E a Huawei trabalhou com a Microsoft para otimizar o seu tradutor com tecnologia de IA para o Mate 10.

Mas a Qualcomm tem outra vantagem: Alcance. A fabricante de chips comandou 42% do mercado de chips para smartphones no primeiro semestre de 2017, seguida pela Apple e MediaTek com 18% cada, de acordo com a Strategy Analytics. Basta dizer que ainda não está tremendo.

E a Qualcomm prevê que só crescerá. A fabricante de chips projeta receita de US$ 160 bilhões até 2025 com tecnologias de software de IA, como visão computacional e vê o mercado de smartphones – que deverá atingir 8,6 bilhões de unidades vendidas até 2021 – como o maior plataforma.

Com o Hexagon 685 DSP e outras melhorias “terciárias” avançando continuamente até a faixa intermediária hardware, também é mais fácil para os chips da Qualcomm levarem o aprendizado de máquina no dispositivo para todos os tipos de dispositivos no próximo futuro. Eles também oferecem um SDK útil para desenvolvedores (sem necessidade de mexer na linguagem assembly DSP) para aproveitar as vantagens do Hexagon 685 DSP e HVX em seus aplicativos e serviços.

“Há uma necessidade dessas unidades de processamento dedicadas para processamento neural, mas você também precisa expandi-las, para poder oferecer suporte a estruturas [de código aberto]”, disse um porta-voz da Qualcomm. “Se você não criar esse ecossistema, não há como [...] os desenvolvedores criarem nele.”