ARM anuncia CPU Cortex-A78, GPU Mali-G78, NPU Ethos N78

A ARM anunciou a arquitetura de CPU Cortex-A78, bem como a GPU Mali-G78. Os dois são os sucessores do CPU Cortex-A77 e da GPU Mali-G77.

Como parte do TechDay 2020, a ARM fez três anúncios importantes. O principal anúncio é o programa Cortex-X Custom (CXC), contendo o novo Núcleo da CPU Cortex-X1. O Cortex-X1 traz desempenho de pico mais alto do que qualquer CPU da série Cortex-A, ao mesmo tempo que quebra os limites do PPA da série Cortex-A. Os outros dois anúncios que a ARM fez foram muito mais rotineiros. O CPU Cortex-A78 e o CPU Mali-G78 agora são oficiais e atuam como sucessores do Córtex-A77 CPU e o Mali-G77 CPU respectivamente. Vamos cobrir esses anúncios um por um:

BRAÇO Cortex-A78

Com o Cortex-A78, o foco principal da ARM estava nas demandas de eficiência, como demandas por maior vida útil da bateria, novos formatos móveis e redução de áreas de SoC. Desempenho sustentado é a palavra-chave aqui para o Cortex-A78, enquanto o Cortex-X1 almeja as estrelas com o objetivo de atingir o desempenho máximo máximo em curto prazo.

A ARM afirma que o Cortex-78 representa o “melhor” de sua unidade para desempenho de ponta com a melhor eficiência da categoria. Estas também não são apenas palavras vazias. Nos últimos anos, o Cortex-A76 e o ​​Cortex-A77 demonstraram a melhor eficiência energética e o melhor PPA da categoria (desempenho, potência e área). Eles não tinham o design necessário para competir com os chips da série A da Apple, mas devido ao menor energia gerada, sua eficiência energética era, na pior das hipóteses, igual à da Apple e, na melhor das hipóteses, ainda maior do que Maçã.

As melhorias de desempenho do A78 abrangem os casos de uso de produtividade, comunicação, segurança e tarefas baseadas em câmera, jogos avançados, experiências baseadas em XR e ML.

Em desempenho sustentado, o Cortex-A78 traz melhorias de dois dígitos. Ele proporciona uma melhoria de 20% no desempenho sustentado em relação ao seu antecessor, o Cortex-A77, no mesmo envelope de energia térmica móvel. AnandTech analisou os números e explicou que o valor de 20% é uma combinação de um IPC 7% maior em relação ao A77, enquanto o Os 13% restantes de ganhos de desempenho são creditados ao processo de 5 nm, no qual todos os SoCs da próxima geração serão fabricado. A ARM observa a importância do desempenho sustentado ao dizer que os dispositivos móveis têm uma capacidade limitada de dissipar energia e o desempenho sustentado evita a aceleração de energia para aplicações que exigem muito poder. Isso, por sua vez, melhora a experiência do usuário, evitando atrasos ou quedas de quadros.

O impulso à eficiência energética traduz-se numa maior eficiência energética, uma vez que os dois estão relacionados, mas são conceitos diferentes. Segundo a ARM, em pontos de alto desempenho, como aqueles que são o pico dos dispositivos móveis atuais, o Cortex-A78 oferece 50% de economia de energia em relação aos dispositivos de 2019 no mesmo desempenho como o Cortex-A77. Isso é impressionante e torna o A78 o CPU Cortex-A ARM com maior eficiência energética já projetado.

O foco da ARM no desempenho sustentado beneficiará a próxima onda de inovação móvel, como novos formatos (telefones dobráveis), bem como uma melhor “imersão digital” através do 5G. A realidade é que este não é o caso da geração atual e não terá muita importância mesmo na próxima geração.

Um caso de uso que será melhorado pelo Cortex-A78 são os jogos móveis AAA, quando combinados com a nova GPU Mali-G78 da própria ARM. A combinação dos dois visa trazer experiências de jogos de alta fidelidade para dispositivos móveis. Seu maior desempenho, quando combinado com a rápida velocidade e alta largura de banda do 5G, permitirá jogos premium em dispositivos móveis. A eficiência do A78 tem uma vantagem aqui, pois proporcionará maior duração da bateria para jogos prolongados. A ARM afirma que também está trabalhando com o ecossistema para melhorar ainda mais o desempenho e construir experiências de jogo mais ricas, e dá um exemplo de seu trabalho com o Unity para trazer o Burst Compiler para Android.

O desempenho do aprendizado de máquina (ML) é outra prioridade para ARM. A CPU é o processador de primeira escolha para computação de ML em dispositivos móveis, embora atualmente os SoCs de última geração venham com unidades de processamento neural (NPUs) separadas. As CPUs da ARM suportam os aplicativos de ML do mundo real mais populares e casos de uso em smartphones, como filtros de mídia social, ditado, segurança e proteção. O Cortex-A78 usa em média 8% menos energia para tarefas baseadas em ML em comparação com o A77, o que leva a melhorias oficiais de eficiência de 10%.

ARM Cortex-A78 - Arquitetura

O ARM Cortex-A78 possui a mesma arquitetura da geração anterior (ainda é um núcleo ARM v8.2). A ARM, no entanto, adicionou recursos de microarquitetura que visam aumentar o desempenho de maneira eficiente em termos de área e consumo de energia. ARM está economizando área e energia enquanto mantém os níveis de desempenho necessários. Mais uma vez, o foco da ARM na série Cortex-A permanece na eficiência de área e energia, em vez de no desempenho máximo, que agora é uma tarefa assumida pelo programa Cortex-X.

As melhorias de desempenho do Cortex-A78 são possibilitadas por recursos adicionais de microarquitetura que otimizam largura e profundidade. A largura de decodificação da instrução permanece em 4, a mesma do A77 e do A76. (A largura de decodificação do Cortex-X1, por outro lado, é de 5 larguras, enquanto o A13 tem uma largura de decodificação de 7 larguras.) ARM adicionou maior previsão de ramificação para largura de banda e precisão, bem como casos de fusão de instruções. Essas melhorias arquitetônicas permitem um aumento de 7% no desempenho de thread único em relação ao A77.

A eficiência foi maximizada através da redução de estruturas com baixo desempenho e área, como nos caches L1-I e L1-D. A ARM otimizou as estruturas existentes para consumir menos energia, como as estruturas de previsão de marca. A ARM afirma que isso leva a 4% menos energia para desempenho por mW e 5% menos área para desempenho por mm2 em comparação com o A77.

O A78 mantém o foco no desempenho sustentado com a melhor eficiência da categoria no nível do cluster. Um cluster DynamIQ de 4 CPUs Cortex-A77 e 4 CPUs Cortex-A55 pode ser atualizado para 4 núcleos A78 e 4 núcleos A55. Isso proporciona melhorias sustentadas de desempenho de 20% em 15% menos área. Os aplicativos que exigem vários threads de alto desempenho em paralelo, como jogos de alta fidelidade, serão beneficiados devido ao aumento sustentado do desempenho.

A ARM observa que a eficiência de área aprimorada do cluster A78 DynamIQ o torna ideal para telefones dobráveis ​​e telas múltiplas e maiores. Outro foco é preparar os smartphones para 5G por meio de melhorias de desempenho e energia. O 5G supostamente fornece “velocidades muito mais rápidas”, “latência muito menor” e “conectividade muito mais rápida e onipresente para dispositivos móveis para aplicações de alta largura de banda”. Este poderá ser o caso daqui a alguns anos, mas actualmente, a maioria destes benefícios não são perceptíveis para os consumidores finais.

No geral, o Cortex-A78 é um produto sólido. Os principais SoCs da próxima geração incorporarão vários núcleos A78 para complementar o único núcleo Cortex-X1 que tem requisitos mais elevados de energia e área, e alguns SoCs orientados para o valor até optarão por ignorar o Cortex-X1 inteiramente. Para o mercado de SoC de gama média, o A78 será o núcleo de CPU preferido para os SoCs de 2021, e seu foco no desempenho sustentado é bem-vindo.


ARM Mali-G78

A série de GPUs Mali da ARM não teve tanto sucesso quanto sua série de CPUs Cortex, para dizer o mínimo. As GPUs do Mali têm sido consistentemente superadas em termos de desempenho e eficiência de energia pelas GPUs personalizadas da Apple e pelas GPUs Adreno personalizadas da Qualcomm, ano após ano. Infelizmente, o lançamento da nova arquitetura Valhall e da GPU Mali-G77 no ano passado não fez nada para mudar isso. SoCs apresentando o Mali-G77 incluíram o Exinos 990 e a Dimensão MediaTek 1000L respectivamente. Ambos, infelizmente, pareciam ter implementações fracas, o que significava que o desempenho da GPU poderia não competir com a GPU Adreno 650 da Qualcomm, muito menos com as GPUs líderes de classe da Apple no Apple A12 e A13. O Mali ficou para trás durante anos e suas melhorias não foram suficientes para mudar o status quo no espaço da GPU móvel.

No entanto, a ARM não é nada senão otimista. Ele observa que seus parceiros enviam mais de um bilhão de GPUs do Mali anualmente, tornando o Mali a GPU mais vendida do mundo. Supostamente, esse número só aumentará à medida que muitos tipos diferentes de dispositivos permitirem casos de uso com uso intensivo de gráficos, como jogos móveis avançados e XR (VR e AR). De acordo com a ARM, isso faz do Mali a GPU mais usada para desenvolvimento móvel em todo o ecossistema.

A ARM observa que em 2019 anunciou sua primeira GPU baseada na arquitetura Valhall – a Mali-G77. Em 2020, o G77 será sucedido pelo Mali-G78, que também se baseia na arquitetura Valhall. Embora a ARM diga que é a GPU de melhor desempenho para dispositivos móveis premium até o momento, os números não confirmam isso, apesar do que a ARM ironicamente diz sobre ser um fato apoiado pelos números. O G78 traz uma melhoria de 25% no desempenho em relação ao G77, o que é escasso, para dizer o mínimo. A diferença no desempenho máximo da GPU entre o G77 e a GPU do Apple A13 foi significativa, o que significa que o G78 não será capaz de alcançar o A13, muito menos a próxima GPU do Apple A14. A Qualcomm também continuará um passo à frente devido às suas próprias melhorias incrementais de desempenho.

Gráficos revolucionários e jogos o dia todo em dispositivos móveis já são possíveis em outras GPUs, então o marketing da ARM aqui soa um pouco vazio.

O Mali-G78 foi construído pensando nos desenvolvedores e no usuário final, de acordo com a ARM. Ele permite experiências de jogos móveis de alta qualidade com jogos de console agora disponíveis em dispositivos móveis. O G78 traz bateria de maior duração para dispositivos móveis premium. Ele também traz um aumento adicional no desempenho de ML para jogos mais complexos, vídeo, câmera e recursos de ML de segurança em dispositivos móveis.

A ARM está otimista quanto à perspectiva dos jogos para dispositivos móveis. Os jogos móveis representaram mais de 46% do mercado global de jogos em 2019, atingindo receitas de US$ 68,2 bilhões. Também deve continuar crescendo nos próximos anos, à medida que ultrapassará os jogos para PC e console. Mais títulos de jogos premium estão chegando aos dispositivos móveis e os usuários esperam uma experiência semelhante nos dispositivos móveis em comparação aos consoles.

Para tornar estas experiências possíveis, o Mali-G78 vem com o aumento de desempenho necessário. Possui uma melhoria de 15% na densidade de desempenho para conteúdo de jogos em comparação com o G77. Para a mesma área da geração anterior, o G78 proporcionará mais desempenho. Esse impulso é possível graças a quatro recursos principais:

  • Suporte para até 24 núcleos
  • Nível superior assíncrono
  • Melhorias no ladrilhador
  • Rastreamento aprimorado de dependência de fragmentos

Embora a contagem máxima de núcleos do G77 fosse de 16, a ARM aumentou a contagem máxima de núcleos no G78 para um máximo de 24 núcleos. É claro que só porque existe um máximo não significa que os fornecedores de chips móveis irão realmente incorporar 24 núcleos. A variante central mais ampla do G77 que vimos até agora é o Mali-G77MP11 no Exynos 990, enquanto o Dimensity 1000 tem um Mali-G77MC9.

A ARM acredita que o Asynchronous Top Level é um recurso revolucionário para o desempenho da GPU. Diz-se que isso extrai o máximo de desempenho possível dos jogos para celular, garantindo o desempenho máximo.

As melhorias do Tiler, por outro lado, adicionam uma camada extra de qualidade aos jogos para celular. Os jogos trazidos do PC e do console geralmente têm recursos extremamente complicados e cenas sofisticadas, que causam obstáculos e gargalos no desempenho. As melhorias no Tiler reduzem a carga de vértice na GPU para essas cenas e ativos complexos. Isso melhora o desempenho de conteúdos de jogos complicados, semelhantes aos de console.

ARM também aprimorou o rastreamento de dependência de fragmentos no G78. Isso afeta particularmente jogos para celular com cenas de jogo complexas envolvendo fumaça, árvores e grama. Os resultados são que o ARM obteve melhorias de desempenho de até 17% nos principais jogos para celular em comparação com o G77.

O Mali-G78 tem uma eficiência energética 10% melhor que o seu antecessor. Novamente, isso não será suficiente para alcançar a Qualcomm ou a Apple. Os objetivos da ARM aqui parecem particularmente conservadores. A funcionalidade Asynchronous Top Level desempenha um papel importante na eficiência energética, pois permite a redução de potência, permitindo assim a geração de conteúdos de forma sustentável. Portanto, quando um dispositivo está transmitindo conteúdo na taxa de quadros desejada, ele pode diminuir a velocidade para economizar energia. Aumentar o nível superior para esta tarefa consome um pouco mais de energia, mas a economia de energia resultante da redução da frequência dos núcleos shader é muito maior. Isso ocorre porque os núcleos shader usam 90-95% do orçamento de energia da GPU.

A melhor eficiência energética no G78 também é alcançada graças ao Fused Multiply-Add (FMA). Foi completamente redesenhado desde o início, levando a uma redução de 30% no consumo de energia da unidade. A unidade FMA é responsável pela maioria dos cálculos que acontecem dentro de uma GPU, e é por isso que fazia sentido para o ARM direcioná-la para reduções de energia.

A capacidade de processamento paralelo de dados de uma GPU a torna adequada para executar cargas de trabalho de ML, embora o ARM reconheça que a CPU e a GPU continuam sendo os principais processadores para ML. À medida que os casos de uso ficam mais complexos, algumas cargas de trabalho serão transferidas para a GPU. Os principais casos de uso de ML para GPU estão vinculados a recursos de segurança do dispositivo, diferentes modos de câmera e vídeo, bem como aplicativos com recursos de AR.

A função do ML na GPU permite experiências como rastreamento facial no quadro de foto ou vídeo, jogos que usam recursos de AR e muito mais. Para essas tarefas baseadas em ML, o Mali-G78 apresenta uma melhoria média de desempenho de 15% para várias cargas de trabalho de ML em comparação com o G77. O G77 trouxe uma melhoria de 60% no desempenho de ML em relação às gerações anteriores, portanto a melhoria ano após ano neste ano é muito menor. O nível superior assíncrono é vital para aumentar o desempenho do ML, pois o clock dos núcleos do shader ajuda nos vários casos de uso de ML na GPU.

Depois, há o anúncio do Mali-G68. Isto nada mais é do que uma variante mais estreita do Mali-G78, tal como o Mali-G57 era uma variante mais estreita do Mali-G77. A ARM afirma que esta é a primeira GPU sub-premium do Mali para dispositivos de 2021. Ele possui todos os recursos do G78, como melhorias no ladrilho e a nova unidade FMA no mecanismo de execução, mas suporta até 6 núcleos em vez de 24. Desempenho quase premium a um custo menor é o objetivo desta GPU.

A ARM desenvolveu esse nível de GPU subpremium depois de ouvir comentários de parceiros que queriam recursos premium em seu portfólio de dispositivos. O G68 tem menor área de silício, como esperado, e traz jogos de alto desempenho para um público mais amplo de desenvolvedores e consumidores.

Por fim, a ARM menciona suas parcerias com desenvolvedores. Torna mais fácil para os desenvolvedores otimizarem seu conteúdo para funcionar melhor nas GPUs do Mali (em teoria). Um exemplo é o Consultor de Desempenho. Em segundo lugar está a colaboração da ARM com a Unity para trazer o Burst Compiler. Detalhes sobre isso podem ser lidos no artigo fonte.

Mali-G78 - Perspectivas

As perspectivas para o Mali-G78 são sombrias. Parece que a ARM simplesmente não está interessada em fazer melhorias substanciais de desempenho ano após ano no mesmo molde que a Apple está fazendo, no mesmo molde que a Qualcomm fez no passado. Embora a taxa de melhoria da Qualcomm também tenha desacelerado, sua linha de base está em uma posição superior à da ARM. Parece ruim para o ecossistema Android quando os revisores afirmam com evidências numéricas que o desempenho sustentado da GPU do A13 é superior ao desempenho máximo do Snapdragon 865. O delta de desempenho entre as GPUs Apple e Android está crescendo e cada vez mais.

O G78, portanto, não é uma solução mágica para resolver os problemas da GPU do Mali da ARM e levá-los ao topo das tabelas de desempenho. Ainda será classificado abaixo das GPUs da Apple e da Qualcomm. Será a escolha padrão para alguns SoCs só porque é o IP de GPU padrão da ARM, e as soluções personalizadas têm barreiras de entrada e custam mais, pois bem.

No próximo ano, é duvidoso que a Samsung Systems LSI acabe realmente usando o Mali-G78. A Samsung tem sido um cliente importante das GPUs do Mali, mas no ano passado, assinou parceria com a AMD para trazer a arquitetura GPU RDNA aos seus SoCs móveis em 2021. Se esse roteiro continuar no caminho certo - e neste momento não temos motivos para suspeitar que não esteja no caminho certo - então o sucessor do Exynos 990 contará com uma GPU AMD RDNA em vez de uma GPU Mali. Na verdade, será uma grande perda de design para o ARM. Até mesmo outros fornecedores como a MediaTek têm mais opções atualmente. Novo da Imagination Technologies Arquitetura de GPU série A tem uma meta de design para desempenho superior ao do G78, e é possível que a MediaTek se afaste do Mali no futuro. A Qualcomm, é claro, não tem motivos para abandonar seus esforços de GPU Adreno, que ainda permanecem o melhor da categoria em termos de desempenho e eficiência quando se fala exclusivamente sobre o Android mercado de smartphones.

Assim, está claro que a ARM precisará aumentar a taxa de melhorias anuais nas GPUs do Mali para fazer uma diferença real no mercado de GPUs móveis. Se não puder fazer isso, corre o risco de ser deixado de lado no espaço de GPU móvel carro-chefe premium.


ARM Ethos N78

Por fim, a ARM também anunciou a unidade de processamento neural (NPU) Ethos N78. É o sucessor do NPU N77. Ele oferece maiores recursos de ML no dispositivo e até 25% mais eficiência de desempenho. A configurabilidade também é um ponto forte, pois as configurações disponíveis variam de 1 TOP/s até 10 TOP/s. Para mais detalhes, confira Postagem do blog da ARM. Este NPU provavelmente terá ganhos de design limitados, já que Qualcomm, Samsung, HiSilicon e MediaTek têm suas próprias unidades de processamento neural/motores de IA.


Fontes: ARM (1, 2), AnandTech (1, 2)