Se han anunciado los nuevos núcleos de Arm como parte de su Total Compute Solution para 2023 y son bastante interesantes.
enlaces rápidos
- Sólo 64 bits: "Misión cumplida"
- Arm Cortex-X4: aún más rendimiento y mejor eficiencia
- Arm Cortex-A720: Equilibrio entre rendimiento y consumo de energía
- Arm Cortex A520: duplicar la eficiencia
- DSU-120: Hasta 14 núcleos de bondad computacional
- La eficiencia es el nuevo objetivo
Arm es la empresa que diseña prácticamente todos los núcleos de CPU que acaban utilizándose en tu smartphone Android, y cada año anuncia nuevas iteraciones que luego llegarán a conjuntos de chips como el buque insignia Snapdragon de ese año o el próximo buque insignia MediaTek Dimensión. Este año, lanzará un núcleo insignia Cortex-X4, un núcleo de rendimiento Cortex-A720 y un núcleo de eficiencia Cortex-A520. Estos núcleos forman la base de los nuevos diseños compatibles con Arm v9.2 de la compañía y la solución Total Compute de la compañía para 2023, o TCS23. Además de eso, también estamos viendo una nueva unidad compartida DynamIQ y una GPU Immortalis-G720 actualizada. Aún más grande es una transición completa hacia la informática de 64 bits, sin que ninguno de estos núcleos admita 32 bits.
Los tres nuevos núcleos son sucesores microarquitectónicos del año pasado y se centran principalmente en introducir IPC y ganancias de eficiencia.
Sólo 64 bits: "Misión cumplida"
Uno de los cambios más importantes en la solución Total Compute de Arm de este año es la transición a solo 64 bits. Si bien el A510R1 del año pasado admitía el modo de ejecución AArch32 de 32 bits, al igual que el A710 que se lanzó con TCS22 el año pasado, este año los núcleos de Arm son solo AArch64. El tiempo ha estado corriendo para las aplicaciones de 32 bits en Android, especialmente desde El propio Google ha ordenado que todas las aplicaciones se actualicen desde 2019 se cargan como archivos binarios de 64 bits.
Como dice Arm, la transición a 64 bits se considera "misión cumplida". La razón es que el mercado chino de aplicaciones es lo que retrasó al resto de la industria en la transición, pero la gran mayoría de las aplicaciones en las tiendas de aplicaciones chinas ahora son compatibles con 64 bits. también.
El motivo del retraso fue la falta de un ecosistema de aplicaciones homogeneizado, lo que significa que diferentes tiendas de aplicaciones requerían diferentes estándares de desarrolladores. Sin embargo, como Arm ha trabajado con varias tiendas de aplicaciones en China, junto con repetidas advertencias de que se produciría un cambio, esas tiendas de aplicaciones han alentado a los desarrolladores a cambiar también.
Aparentemente ha llegado el momento de que esa transición ocurra en su totalidad y, de todos modos, pasarán algunos meses más hasta que veamos estos núcleos Arm en nuevos conjuntos de chips.
Arm Cortex-X4: aún más rendimiento y mejor eficiencia
La serie X de núcleos de Arm se separó de su serie A hace varios años, con la filosofía de que es un núcleo poderoso al que se le permite consumir un poco más de potencia cuando la necesita. Normalmente, los fabricantes de chipsets sólo incluyen uno o dos de estos como máximo, ya que necesitan mucha energía, incluso a pesar de las capacidades que también tienen.
Como puede ver en el gráfico anterior, el Cortex-X4 es el núcleo Arm más potente hasta el momento, pero esas capacidades de cálculo tienen el costo del consumo de energía. El Cortex-X4 es similar al X3 del año pasado y, como dice Arm, incluso puede funcionar en las mismas frecuencias que el núcleo del año pasado y utilizar hasta un 40% menos de energía. Es menos de un 10% más grande en tamaño físico y el núcleo Cortex-X más eficiente jamás construido.
En cuanto al origen de esas mejoras de IPC, hay una serie de mejoras de front-end y back-end para el X4. En esas mejoras de front-end, se dedicó una gran cantidad de trabajo a reescribir y mejorar las predicciones de ramas, ya que las predicciones de ramas incorrectas son costosas en términos de rendimiento. Arm también promete que un tamaño de caché L2 de 2 MB produce un mayor rendimiento, no tanto en los puntos de referencia sino en el uso en el mundo real.
El nuevo núcleo Cortex-X4 aumenta el número de unidades aritméticas lógicas (ALU) de 6 a 8 y agrega una rama adicional unidad (para un total de 3), agrega una unidad multiplicadora adicional y tuberías de punto flotante y raíz cuadrada operaciones.
En cuanto al backend, también hay una serie de mejoras. La generación de direcciones de almacén de carga pasó de tres instrucciones a cuatro por ciclo, ya que la tubería del almacén de carga se tomó y dividió. También hay un búfer de búsqueda de traducción duplicado en L1, junto con mejoras en los conflictos bancarios.
Todo esto se combina para brindar una mejora impresionante en el rendimiento de Arm's Cortex-X4. En total, puede esperar una mejora promedio del rendimiento del 15% con el Cortex-X4. En la curva de potencia y rendimiento compartida por Arm, el X4 supera al X3 tanto en rendimiento como en consumo de energía. En otras palabras, esa mejora del rendimiento del 15% supone un consumo de energía bastante significativo. Sin embargo, también vale la pena mencionar que no es una comparación de manzanas con manzanas; el Cortex-X3 vino con 1 MB de caché L2 el año pasado, lo que significa que si un fabricante mantiene el mismo tamaño de caché L2 este año, no necesariamente habrá una mejora del rendimiento del 15%.
Una cosa es segura, sin embargo, y es que si estás ejecutando el X4 a máxima velocidad, probablemente consumirá mucha energía. Es posible que este año veamos que algunos fabricantes de equipos originales continúen haciendo lo que hicieron el año pasado y aceleren muchos de los conjuntos de chips de este año. Por ejemplo, OnePlus y Oppo hacen esto y con esas ganancias de eficiencia energética cuando funcionan al mismo tiempo. puntos de rendimiento como el X3, es probable que haya beneficios para esas empresas si continúan haciendo entonces. Es posible que no veamos ese aumento del rendimiento del 15% en todos los ámbitos, pero es posible que veamos más mejoras de eficiencia para los conjuntos de chips del próximo año.
Arm Cortex-A720: Equilibrio entre rendimiento y consumo de energía
Si bien la serie X de núcleos de Arm generalmente se deja funcionar un poco salvaje, la serie A de núcleos generalmente tiene como objetivo equilibrar el consumo de energía con el rendimiento. Con Cortex-A720, Arm promete un núcleo un 20% más eficiente, con mayor rendimiento con la misma potencia que el A715 del año pasado.
En cuanto al origen de las mejoras del A720 de este año, la mayoría de ellas se encuentran en la parte delantera. Las tuberías se han acortado con un ciclo eliminado del motor de predicción errónea de la rama, y se dice que esta caída de un solo ciclo representa un aumento del 1% en los puntos de referencia. Los puntos de referencia generalmente dan como resultado la menor cantidad de predicciones erróneas de las sucursales, lo que significa que esto probablemente mejorará el desempeño general en el mundo real en una cantidad más significativa (pero en gran medida inconmensurable).
En el núcleo fuera de servicio, vemos una serie de mejoras estructurales que ayudan a mejorar el rendimiento sin afectar el área ocupada por el núcleo o su eficiencia. Para empezar, al igual que en el X4, las divisiones de punto flotante y las operaciones de raíz cuadrada ahora están canalizadas. También hay transferencias más rápidas de números de punto flotante, NEON y SVE2 a números enteros y otras mejoras generales para acelerar el procesamiento.
Arm compartió el gráfico anterior para ilustrar cómo se compara el A720 con el A715 del año pasado en cuanto a rendimiento y eficiencia, donde se utiliza un proceso ISO y una frecuencia ISO en SPECint_base2006. Los tamaños de caché también siguen siendo los mismos, por lo que es en gran medida una comparación de manzanas con manzanas.
En términos de consumo de energía, el A720 sigue muy en línea con el modelo del año pasado, aunque logra un poco más de rendimiento con los mismos niveles de potencia. Con el A720, al igual que con el X4, Arm parece centrarse más en resaltar cómo está mejorando. rendimiento fuera de las limitaciones de energía del año pasado en lugar de aumentar continuamente la potencia que estos núcleos son capaz de.
Arm Cortex A520: duplicar la eficiencia
Por supuesto, cuando se trata de núcleos de Arm, no se trata solo de rendimiento. Con la serie X poniendo todo en potencia computacional bruta y el A7xx equilibrando las necesidades computacionales y el consumo de energía, la serie A5xx se enfoca exclusivamente en el procesamiento eficiente. Es el núcleo Arm v9.2 de menor potencia por área y se basa en la misma arquitectura de núcleo fusionado que vimos introducida con el A510.
Lo que significa esta arquitectura central fusionada es que algunos recursos se pueden compartir entre dos núcleos, donde dos núcleos se pueden compartir. agrupados en un "complejo". La caché L2, el búfer de traducción L2 y las rutas de datos vectoriales se comparten dentro de este complejo. Para ser claro, esto no significa que tiene se puede agrupar en dos núcleos y se puede ensamblar un complejo de un núcleo para obtener el máximo rendimiento. De hecho, uno de los diseños de núcleos TCS2023 de Arm que nos mostraron involucraba un solo núcleo X4, cinco núcleos A720 y tres núcleos A520, lo que significa que al menos un núcleo A520 está aislado.
El A520 tiene un diseño que prioriza la eficiencia y, al igual que los otros núcleos, Arm se centró en gran medida en mejorar esa eficiencia en los mismos puntos de alimentación que la última generación. Esto incluye mejorar las predicciones de ramas y al mismo tiempo eliminar o reducir algunas características de rendimiento. Como resultado, este desempeño se recuperó a través de una mayor eficiencia. Curiosamente también, Arm eliminó la tercera ALU que estaba en el A510, ahorrando energía al emitir lógica y reenviar resultados.
En los resultados del mundo real, parece que el A520 no supone un salto tan grande con respecto a sus predecesores como lo son el A720 y el X4. Gran parte de sus capacidades en intervalos de potencia más bajos se superponen con las del A510 del gráfico anterior, y solo en los niveles superiores de rendimiento vemos ganancias de eficiencia. La divergencia en rendimiento y potencia entre los dos núcleos es prometedora, pero no está claro si veremos algún beneficio real en el mundo real al comparar el A520 con el A510. Después de todo, es difícil medir adecuadamente las diferencias de rendimiento y eficiencia entre los dos en el mundo real.
DSU-120: Hasta 14 núcleos de bondad computacional
La unidad compartida DynamIQ, o DSU, integra uno o más núcleos con un sistema de memoria L3, lógica de control e interfaces externas para formar un clúster multinúcleo. Es esencialmente la estructura de Arm la que permite que todos estos núcleos se comuniquen entre sí y compartan recursos, y como Por lo tanto, es una pieza bastante importante del rompecabezas para cualquier fabricante de chipsets que busque construir un chip con los diseños centrales de Arm.
Basándose en DSU-110, Arm ha realizado una serie de mejoras en DSU-120 que beneficiarán a todo el chip en el que está incluido. Para empezar, ahora hay hasta 14 núcleos por clúster (antes 12) y admite hasta 32 MB de caché L3. También mejora en gran medida la eficiencia en una serie de áreas clave, incluso en caso de errores de caché, al tiempo que reduce las fugas de energía.
En cierto modo, la DSU de Arm es la columna vertebral de TCS23, ya que forma la base de cómo cada uno de estos núcleos interactúa entre sí y comparte datos. Cualquier mejora aquí beneficiará a todo el clúster, pero parece que la mayoría de los cambios están relacionados con el consumo de energía y la eficiencia.
La eficiencia es el nuevo objetivo
La industria aparentemente ha estado cambiando por un tiempo, pero la primera impresión principal que tengo de estos núcleos es que la eficiencia es ahora el nombre del juego. Si bien nos contaron cuánto más rápido es el núcleo X4 y cómo es el núcleo más rápido jamás creado por la compañía, Se apresuraron a notar las mejoras en eficiencia al ejecutarlo al máximo rendimiento del año pasado. en cambio.
En general, cada ganancia de rendimiento se vio respaldada por cuánto más eficiente era ese componente y, más o menos, todos los cambios de la DSU se centraron en la eficiencia y la fuga de energía. El rendimiento es importante, pero realmente parece que la industria en su conjunto está tratando de actualizar niveles computacionales más eficientes en lugar de buscar aumentos masivos de rendimiento año tras año.
Esperamos que estos núcleos formulen la base del MediaTek Dimensity 9400 y el Qualcomm Snapdragon 8 Gen 3, pero aún está por verse en qué formación. Como se mencionó anteriormente, Arm habló sobre el uso de un diseño de núcleo 1+5+3 en sus propias pruebas internas, pero eso no significa que sea lo que socios como MediaTek y Qualcomm buscan hacer ellos mismos.