ARM ha anunciado la arquitectura de CPU Cortex-A78 así como la GPU Mali-G78. Los dos son los sucesores de la CPU Cortex-A77 y la GPU Mali-G77.
Como parte de su TechDay 2020, ARM ha realizado tres anuncios importantes. El anuncio más importante es el programa Cortex-X Custom (CXC), que contiene el nuevo Núcleo de CPU Cortex-X1. El Cortex-X1 ofrece un rendimiento máximo más alto que cualquier CPU de la serie Cortex-A, al tiempo que rompe los límites del PPA de la serie Cortex-A. Los otros dos anuncios que hizo ARM fueron mucho más rutinarios. La CPU Cortex-A78 y la CPU Mali-G78 ahora son oficiales y actúan como sucesoras de la Corteza-A77 CPU y el Malí-G77 CPU respectivamente. Cubramos estos anuncios uno por uno:
BRAZO Corteza-A78
Con Cortex-A78, el enfoque clave de ARM estuvo en las demandas de eficiencia, como las demandas de mayor duración de la batería, nuevos factores de forma móvil y áreas cada vez más reducidas de SoC. El rendimiento sostenido es la palabra clave aquí para el Cortex-A78, mientras que el Cortex-X1 apunta a las estrellas con el objetivo de lograr el máximo rendimiento máximo a corto plazo.
ARM dice que Cortex-78 representa lo "mejor" de su disco para un rendimiento de alto nivel con la mejor eficiencia de su clase. Estas tampoco son sólo palabras vacías. Durante los últimos años, Cortex-A76 y Cortex-A77 han demostrado la mejor eficiencia energética y el mejor PPA (rendimiento, potencia y área) de su clase. No tenían el diseño necesario para competir con los chips de la serie A de Apple, pero debido a su menor energía generada, su eficiencia energética era, en el peor de los casos, la misma que la de Apple y, en el mejor de los casos, incluso superior a la de Apple. Manzana.
Las mejoras de rendimiento del A78 cubren los casos de uso de productividad, comunicación, seguridad y tareas basadas en cámara, juegos avanzados, XR y experiencias basadas en ML.
En rendimiento sostenido, el Cortex-A78 aporta mejoras de dos dígitos. Proporciona una mejora del 20 % en el rendimiento sostenido con respecto a su predecesor, el Cortex-A77, en la misma envolvente de energía térmica móvil. anandtech revisó los números y explicó que la cifra del 20% es una combinación de un IPC un 7% más alto que el de la A77, mientras que el Las ganancias de rendimiento restantes del 13% se atribuyen al proceso de 5 nm, en el que se ubicarán todos los SoC de próxima generación. fabricado. ARM destaca la importancia del rendimiento sostenido al decir que los dispositivos móviles tienen una capacidad limitada para disipa la energía y el rendimiento sostenido evita la limitación de energía para aplicaciones que exigen mucha fuerza. Esto, a su vez, mejora la UX al evitar retrasos o caídas de fotogramas.
El impulso a la eficiencia energética se traduce en una mayor eficiencia energética, ya que ambos son conceptos relacionados, pero diferentes. Según ARM, en puntos de alto rendimiento, como los que son pico para los dispositivos móviles actuales, el Cortex-A78 ofrece un ahorro de energía del 50% respecto a los dispositivos de 2019. en la misma actuación como el Cortex-A77. Esto es impresionante y convierte al A78 en la CPU Cortex-A con mayor eficiencia energética que ARM jamás haya diseñado.
El enfoque de ARM en el rendimiento sostenido beneficiará la próxima ola de innovación móvil, como nuevos factores de forma (teléfonos plegables), así como una "inmersión digital" mejorada a través de 5G. La realidad es que este no es el caso de la generación actual, y no importará mucho ni siquiera en la próxima generación.
Un caso de uso que mejorará el Cortex-A78 son los juegos móviles AAA, cuando se combinan con la nueva GPU Mali-G78 de ARM. La combinación de los dos tiene como objetivo llevar experiencias de juego de alta fidelidad a los dispositivos móviles. Su mayor rendimiento, cuando se combina con la rápida velocidad y el gran ancho de banda de 5G, permitirán juegos premium en dispositivos móviles. La eficiencia del A78 tiene una ventaja aquí, ya que proporcionará una mayor duración de la batería para juegos prolongados. ARM dice que también está trabajando con el ecosistema para mejorar aún más el rendimiento y crear experiencias de juego más ricas, y da un ejemplo de su trabajo con Unity para llevar Burst Compiler a Android.
El rendimiento del aprendizaje automático (ML) es otra prioridad para ARM. La CPU es el procesador de primera elección para la informática de aprendizaje automático en dispositivos móviles, aunque hoy en día los SoC de alta gama vienen con unidades de procesamiento neuronal (NPU) independientes. Las CPU de ARM admiten las aplicaciones de aprendizaje automático del mundo real más populares y los casos de uso en teléfonos inteligentes, como filtros de redes sociales, dictado, seguridad y seguridad. El Cortex-A78 utiliza un 8% menos de energía en promedio para tareas basadas en ML en comparación con el A77, lo que conduce a mejoras oficiales de eficiencia del 10%.
ARM Cortex-A78 - Arquitectura
El ARM Cortex-A78 tiene la misma arquitectura que la generación anterior (sigue siendo un núcleo ARM v8.2). Sin embargo, ARM agregó características de microarquitectura que apuntan a aumentar el rendimiento en un área y de manera eficiente en términos de energía. ARM ahorra área y energía mientras mantiene los niveles de rendimiento necesarios. Una vez más, el enfoque de ARM en la serie Cortex-A sigue siendo la eficiencia energética y de área en lugar del rendimiento máximo, que ahora es una tarea asumida por el programa Cortex-X.
Las mejoras de rendimiento del Cortex-A78 se logran a través de características de microarquitectura adicionales que optimizan el ancho y la profundidad. El ancho de decodificación de instrucciones permanece en 4, igual que el A77 y el A76. (El ancho de decodificación del Cortex-X1, por otro lado, es de 5 anchos, mientras que el A13 tiene un ancho de decodificación de 7 anchos). ARM ha agregado una mayor predicción de bifurcaciones para el ancho de banda y la precisión, así como casos de fusión de instrucciones. Estas mejoras arquitectónicas permiten un aumento del 7 % en el rendimiento de un solo subproceso con respecto al A77.
La eficiencia se ha maximizado mediante la reducción de estructuras que tienen bajo rendimiento y área, como en las cachés L1-I y L1-D. ARM ha optimizado las estructuras existentes para consumir menos energía, como las estructuras de predicción de marcas. ARM dice que esto genera un 4% menos de energía para el rendimiento por mW y un 5% menos de área para el rendimiento por mm2 en comparación con el A77.
El A78 mantiene el foco en el rendimiento sostenido con la mejor eficiencia de su clase a nivel de clúster. Un clúster DynamIQ de 4 CPU Cortex-A77 y 4 Cortex-A55 se puede actualizar a 4 núcleos A78 y 4 núcleos A55. Esto proporciona un 20 % de mejoras sostenidas en el rendimiento en un 15 % menos de área. Las aplicaciones que requieren varios subprocesos de alto rendimiento en paralelo, como los juegos de alta fidelidad, se beneficiarán debido al aumento sostenido del rendimiento.
ARM señala que la eficiencia de área mejorada del clúster A78 DynamIQ lo hace ideal para teléfonos plegables y pantallas múltiples y más grandes. Otro objetivo es preparar los teléfonos inteligentes para 5G mediante mejoras de rendimiento y energía. 5G supuestamente proporciona "velocidades mucho más rápidas", "latencia mucho menor" y "conectividad mucho más rápida y ubicua para dispositivos móviles para aplicaciones de gran ancho de banda". Este puede ser el caso dentro de unos años, pero en la actualidad, la mayoría de estos beneficios no son perceptibles para los consumidores finales.
En general, el Cortex-A78 es un producto sólido. Los SoC emblemáticos de próxima generación incorporarán múltiples núcleos A78 para complementar el único núcleo Cortex-X1 que tiene mayores requisitos de energía y área, y algunos SoC orientados al valor incluso optarán por omitir el Cortex-X1 enteramente. Para el mercado de SoC de gama media, el A78 será el núcleo de CPU elegido para los SoC de 2021, y su enfoque en el rendimiento sostenido es bienvenido.
BRAZO Mali-G78
La serie de GPU Mali de ARM no ha tenido tanto éxito como su serie de CPU Cortex, por decirlo suavemente. Las GPU de Mali han sido constantemente superadas en términos de rendimiento y eficiencia energética por las GPU personalizadas de Apple y las GPU Adreno personalizadas de Qualcomm, año tras año. Lamentablemente, el lanzamiento el año pasado de la nueva arquitectura Valhall y la GPU Mali-G77 no hizo nada para cambiar eso. Los SoC que presentaban el Mali-G77 incluían el Exynos 990 y el MediaTek Dimensión 1000L respectivamente. Desafortunadamente, ambos parecían tener implementaciones débiles, lo que significaba que el rendimiento de su GPU podría mejorar. no competir con la GPU Adreno 650 de Qualcomm, y mucho menos con las GPU líderes en su clase de Apple en el Apple A12 y A13. Mali se ha quedado atrás durante años y sus mejoras no han sido suficientes para cambiar el status quo en el espacio de las GPU móviles.
Sin embargo, ARM no es más que optimista. Señala que sus socios han enviado más de mil millones de GPU a Mali anualmente, lo que convierte a Mali en la GPU número uno enviada en el mundo. Supuestamente, este número solo aumentará a medida que muchos más tipos diferentes de dispositivos permitan casos de uso con uso intensivo de gráficos, como juegos móviles avanzados y XR (VR y AR). Según ARM, esto convierte a Mali en la GPU más utilizada para el desarrollo móvil en todo el ecosistema.
ARM señala que en 2019 anunció su primera GPU basada en la arquitectura Valhall: la Mali-G77. En 2020, el G77 será reemplazado por el Mali-G78, que también se basa en la arquitectura Valhall. Si bien ARM dice que es la GPU con mayor rendimiento para dispositivos móviles premium hasta la fecha, los números no lo respaldan a pesar de lo que ARM dice irónicamente acerca de que es un hecho respaldado por los números. El G78 ofrece una mejora del 25% en el rendimiento con respecto al G77, lo cual es escaso, por decir lo menos. La brecha en el rendimiento máximo de la GPU entre el G77 y la GPU del Apple A13 fue significativa, lo que significa que el G78 no podrá alcanzar al A13, y mucho menos la próxima GPU del Apple A14. Qualcomm también seguirá un paso por delante gracias a sus propias mejoras incrementales de rendimiento.
Gráficos innovadores y juegos móviles durante todo el día ya son posibles en otras GPU, por lo que el marketing de ARM aquí suena un poco vacío.
El Mali-G78 está construido pensando en los desarrolladores y el usuario final, según ARM. Permite experiencias de juegos móviles de alta calidad con juegos de consola ahora disponibles para dispositivos móviles. El G78 ofrece una mayor duración de la batería a los dispositivos móviles premium. También aporta un aumento adicional en el rendimiento del aprendizaje automático para funciones más complejas de aprendizaje automático, video, cámara y seguridad en dispositivos móviles.
ARM es optimista sobre la perspectiva de los juegos móviles. Los juegos móviles representaron más del 46% del mercado mundial de juegos en 2019, alcanzando unos ingresos de 68.200 millones de dólares. También seguirá creciendo en los próximos años, ya que superará a los juegos de PC y consolas. Están llegando más títulos de juegos premium a dispositivos móviles y los usuarios esperan una experiencia similar en dispositivos móviles en comparación con las consolas.
Para hacer posibles estas experiencias, el Mali-G78 viene con el aumento de rendimiento necesario. Tiene una mejora de densidad de rendimiento del 15% para contenido de juegos en comparación con el G77. Para la misma cantidad de área que la generación anterior, el G78 ofrecerá más rendimiento. Este impulso es posible gracias a cuatro características clave:
- Soporte para hasta 24 núcleos
- Nivel superior asincrónico
- Mejoras de mosaico
- Seguimiento de dependencia de fragmentos mejorado
Si bien el número máximo de núcleos del G77 era 16, ARM aumentó el número máximo de núcleos en el G78 a un máximo de 24 núcleos. Por supuesto, sólo porque haya un máximo no significa que los proveedores de chips móviles vayan a incorporar 24 núcleos. La variante central más amplia del G77 que hemos visto hasta ahora es el Mali-G77MP11 en el Exynos 990, mientras que el Dimensity 1000 tiene un Mali-G77MC9.
ARM cree que el nivel superior asíncrono es una característica revolucionaria para el rendimiento de la GPU. Se dice que esto exprime el mayor rendimiento posible de los juegos móviles, garantizando el máximo rendimiento.
Las mejoras de Tiler, por otro lado, añaden una capa extra de calidad a los juegos móviles. Los juegos traídos desde PC y consola a menudo tienen recursos extremadamente complicados y escenas sofisticadas, que causan problemas y cuellos de botella en el rendimiento. Las mejoras de Tiler reducen la carga de vértices en la GPU para estas escenas y recursos complejos. Esto mejora el rendimiento de contenidos de juegos complicados similares a los de una consola.
ARM también ha mejorado el seguimiento de la dependencia de fragmentos en el G78. Esto afecta especialmente a los juegos móviles con escenas de juego complejas que involucran humo, árboles y hierba. Los resultados son que ARM ha experimentado mejoras de rendimiento de hasta un 17% en los mejores juegos móviles en comparación con el G77.
El Mali-G78 tiene una eficiencia energética un 10% mejor que su predecesor. Una vez más, eso no será suficiente para alcanzar ni a Qualcomm ni a Apple. Los objetivos de ARM aquí parecen particularmente conservadores. La función Asynchronous Top Level juega un papel importante en la eficiencia energética, ya que permite una reducción de la energía, permitiendo así generar contenido de forma sostenible. Por lo tanto, cuando un dispositivo genera contenido a la velocidad de fotogramas deseada, puede reducir la frecuencia para ahorrar energía. Aumentar el nivel superior para esta tarea consume un poco más de energía, pero el ahorro de energía al reducir la frecuencia de los núcleos de sombreado es mucho mayor. Esto se debe a que los núcleos de sombreado utilizan entre el 90 y el 95 % del presupuesto energético de la GPU.
También se logra una mejor eficiencia energética en el G78 gracias al sistema Fusioned Multiple Add (FMA). Ha sido completamente rediseñado desde cero, lo que lleva a una reducción de energía de la unidad del 30 %. La unidad FMA es responsable de la mayoría de los cálculos que ocurren dentro de una GPU, y es por eso que tenía sentido que ARM apuntara a reducciones de energía.
La capacidad de procesamiento de datos paralelo de una GPU la hace adecuada para ejecutar cargas de trabajo de ML, aunque ARM reconoce que la CPU y la GPU siguen siendo los procesadores principales para ML. A medida que los casos de uso se vuelven más complejos, algunas cargas de trabajo se descargarán a la GPU. Los principales casos de uso de ML para la GPU están vinculados a funciones de seguridad en el dispositivo, diferentes modos de cámara y video, así como aplicaciones con funciones de AR.
La función de ML en la GPU permite experiencias como el seguimiento de rostros dentro del marco de una foto o video, juegos que usan funciones AR y más. Para estas tareas basadas en ML, el Mali-G78 presenta una mejora de rendimiento promedio del 15 % para diversas cargas de trabajo de ML en comparación con el G77. El G77 trajo una mejora del 60% en el rendimiento de ML con respecto a las generaciones anteriores, por lo que la mejora año tras año este año es mucho menor. El nivel superior asincrónico es vital para aumentar el rendimiento de ML, ya que sincronizar los núcleos de sombreado ayuda con los diversos casos de uso de ML en la GPU.
Luego está el anuncio del Mali-G68. Esto no es más que una variante más estrecha del Mali-G78, al igual que el Mali-G57 era una variante más estrecha del Mali-G77. ARM dice que esta es la primera GPU Mali sub-premium para dispositivos 2021. Tiene todas las características del G78, como mejoras en mosaicos y la nueva unidad FMA en el motor de ejecución, pero admite hasta 6 núcleos en lugar de 24. El objetivo de esta GPU es un rendimiento casi premium a un costo menor.
ARM desarrolló este nivel de GPU sub-premium después de escuchar los comentarios de socios que querían funciones premium en su cartera de dispositivos. El G68 tiene un área de silicio más baja, como se esperaba, y ofrece juegos de alto rendimiento a una audiencia más amplia de desarrolladores y consumidores.
Finalmente, ARM menciona sus asociaciones con desarrolladores. Facilita a los desarrolladores optimizar su contenido para que funcione mejor en las GPU de Mali (en teoría). Un ejemplo es el Asesor de Rendimiento. En segundo lugar está la colaboración de ARM con Unity para traer Burst Compiler. Los detalles sobre esto se pueden leer en el artículo fuente.
Malí-G78 - Perspectivas
Las perspectivas para el Mali-G78 son sombrías. Parece como si ARM simplemente no estuviera interesado en realizar mejoras sustanciales de rendimiento año tras año en el mismo molde que Apple está haciendo, en el mismo molde que Qualcomm hizo en el pasado. Si bien la tasa de mejora de Qualcomm también se ha desacelerado, su punto de referencia se encuentra en un lugar más alto que el de ARM. Se ve mal para el ecosistema Android cuando los revisores afirman con evidencia numérica que el rendimiento sostenido de la GPU del A13 es mayor que el rendimiento máximo del Snapdragon 865. La delta de rendimiento entre las GPU de Apple y Android está creciendo, y cada vez es más amplia.
El G78, por lo tanto, no es una solución mágica para resolver los problemas de la GPU Mali de ARM y llevarlos a la cima de las listas de rendimiento. Seguirá estando por debajo de las GPU de Apple y Qualcomm. Será la opción predeterminada para algunos SoC. solo porque es la IP de GPU estándar de ARM, y las soluciones personalizadas tienen barreras de entrada y cuestan más como Bueno.
El año que viene, es dudoso que Samsung Systems LSI termine utilizando el Mali-G78. Samsung ha sido un cliente destacado de las GPU de Mali, pero el año pasado, firmó una asociación con AMD para traer la arquitectura GPU RDNA a sus SoC móviles en 2021. Si esa hoja de ruta sigue por buen camino (y en este punto no tenemos motivos para sospechar que no esté por buen camino), entonces el sucesor del Exynos 990 contará con una GPU AMD RDNA en lugar de una GPU Mali. De hecho, será una gran pérdida de diseño para ARM. Incluso otros proveedores como MediaTek tienen más opciones hoy en día. La nueva tecnología de la imaginación Arquitectura de GPU de la serie A tiene como objetivo de diseño un mayor rendimiento que el G78, y es posible que MediaTek se aleje de Mali en el futuro. Qualcomm, por supuesto, no tiene motivos para abandonar sus esfuerzos por la GPU Adreno, que aún persisten. El mejor de su clase en términos de rendimiento y eficiencia cuando hablamos exclusivamente de Android. mercado de teléfonos inteligentes.
Por lo tanto, está claro que ARM necesitará aumentar la tasa de mejoras anuales en las GPU de Mali para marcar una diferencia real en el mercado de GPU móviles. Si no puede hacer esto, corre el riesgo de convertirse en una ocurrencia tardía en el espacio de las GPU móviles insignia premium.
BRAZO espíritu N78
Finalmente, ARM también ha anunciado la unidad de procesamiento neuronal (NPU) Ethos N78. Es el sucesor de la NPU N77. Ofrece mayores capacidades de aprendizaje automático en el dispositivo y hasta un 25 % más de eficiencia de rendimiento. La capacidad de configuración también es un punto fuerte, ya que las configuraciones disponibles varían desde 1 TOP/s hasta 10 TOP/s. Para más detalles, consulte Publicación del blog de ARM. Esta NPU probablemente tendrá ventajas de diseño limitadas, ya que Qualcomm, Samsung, HiSilicon y MediaTek tienen sus propias unidades de procesamiento neuronal/motores de IA.
Fuentes: ARM (1, 2), Anand Tech (1, 2)