2023년 토탈 컴퓨팅 솔루션의 일부인 Arm의 새로운 코어가 발표되었는데, 꽤 흥미롭습니다.
빠른 링크
- 64비트 전용: "임무 완수"
- Arm Cortex-X4: 더욱 향상된 성능과 효율성
- Arm Cortex-A720: 성능과 전력 소비의 균형
- Arm Cortex A520: 효율성을 두 배로 향상
- DSU-120: 최대 14개 코어의 뛰어난 컴퓨팅 성능
- 효율성이 새로운 목표입니다.
Arm은 Android 스마트폰에 사용되는 거의 모든 CPU 코어를 설계하는 회사입니다. 나중에 그 해의 주력 제품인 Snapdragon이나 차세대 주력 제품인 MediaTek과 같은 칩셋에 적용할 새로운 반복을 발표합니다. 차원. 올해는 플래그십 Cortex-X4 코어, Cortex-A720 성능 코어, Cortex-A520 효율 코어를 출시합니다. 이러한 코어는 회사의 새로운 Arm v9.2 호환 설계와 회사의 2023년 총 컴퓨팅 솔루션(TCS23)의 기초를 형성합니다. 게다가 새로운 DynamIQ 공유 유닛과 업데이트된 Immortalis-G720 GPU도 볼 수 있습니다. 더 큰 것은 64비트 컴퓨팅으로의 완전한 전환이며 이러한 코어 중 어느 것도 32비트를 지원하지 않는다는 것입니다.
세 가지 새로운 코어는 모두 작년의 마이크로 아키텍처 후속 제품이며 주로 IPC 및 효율성 향상을 도입하는 데 중점을 두고 있습니다.
64비트 전용: "임무 완수"
올해 Arm의 Total Compute Solution에서 가장 큰 변화 중 하나는 64비트 전용으로의 전환입니다. 작년 A510R1은 32비트 AArch32 실행 모드를 지원했지만 작년에 TCS22로 출시된 A710도 그랬지만 올해 Arm의 코어는 AArch64만 지원합니다. 특히 그 이후로 Android의 32비트 애플리케이션에 대한 시계가 똑딱거리고 있습니다. Google 자체에서는 2019년 이후 모든 앱을 업데이트하도록 의무화했습니다. 64비트 바이너리로 업로드됩니다.
Arm이 말했듯이 64비트 전환은 "임무 완수"로 간주됩니다. 그 이유는 중국 앱 시장이 전환 과정에서 업계의 나머지 부분이 방해를 받았지만 중국 앱 스토어에 있는 대부분의 앱은 이제 64비트와 호환됩니다. 도.
지연 이유는 균질화된 애플리케이션 생태계가 부족했기 때문입니다. 즉, 앱 스토어마다 개발자의 기준이 다르기 때문입니다. 그러나 Arm이 중국의 다양한 앱 스토어와 협력하면서 변화가 일어날 것이라는 반복적인 경고와 함께 해당 앱 스토어는 개발자들에게도 전환을 장려해 왔습니다.
이제 이러한 전환이 완전히 이루어질 때가 된 것 같습니다. 어쨌든 새로운 칩셋에서 이러한 Arm 코어를 볼 수 있을 때까지는 몇 달이 더 걸릴 것입니다.
Arm Cortex-X4: 더욱 향상된 성능과 효율성
Arm의 X 시리즈 코어는 필요할 때 좀 더 많은 전력을 소비할 수 있는 강력한 코어라는 철학을 바탕으로 수년 전 A 시리즈에서 분리되었습니다. 일반적으로 칩셋 제조업체는 이러한 기능을 갖추고 있음에도 불구하고 전력이 부족하기 때문에 이들 중 최대 1~2개만 포함합니다.
위 그래프에서 볼 수 있듯이 Cortex-X4는 현재까지 가장 강력한 Arm 코어이지만 이러한 계산 기능은 전력 소비를 희생합니다. Cortex-X4는 작년의 X3와 유사하며 Arm이 말했듯이 작년의 코어와 동일한 주파수에서 실행될 수 있으며 최대 40% 더 적은 전력을 사용할 수 있습니다. 물리적 크기가 10% 미만 더 크고 지금까지 구축된 Cortex-X 코어 중 가장 효율적입니다.
이러한 IPC 개선이 어디서 나온 것인지에 관해서는 X4의 프런트엔드 및 백엔드 개선이 많이 있습니다. 이러한 프런트엔드 개선에서는 잘못된 분기 예측으로 인해 성능 측면에서 비용이 많이 들기 때문에 분기 예측을 다시 작성하고 개선하는 데 많은 작업이 투입되었습니다. Arm은 또한 2MB의 L2 캐시 크기가 벤치마크가 아닌 실제 사용에서 더 높은 성능을 제공한다고 약속합니다.
새로운 Cortex-X4 코어는 ALU(산술 논리 장치) 수를 6개에서 8개로 늘리고 분기를 추가합니다. 단위(총 3개), 곱셈 누산기 단위를 추가하고 부동 소수점 및 제곱근 파이프라인을 추가합니다. 운영.
백엔드의 경우에도 많은 개선이 이루어졌습니다. 로드 저장소 파이프가 분리되어 로드 저장소 주소 생성이 사이클당 명령 3개에서 명령 4개로 늘어났습니다. L1에는 뱅크 충돌 개선과 함께 번역 참조 버퍼가 두 배로 늘어났습니다.
이 모든 것이 결합되어 Arm의 Cortex-X4에서 인상적인 성능 향상을 가져옵니다. 전체적으로 Cortex-X4를 사용하면 평균 15%의 성능 향상을 기대할 수 있습니다. Arm이 공유하는 전력 및 성능 곡선에서 X4는 성능과 전력 소비 측면에서 X3보다 앞서 있습니다. 즉, 15%의 성능 향상은 상당한 전력 소모로 인해 발생합니다. 그러나 이는 사과 대 사과 비교가 아니라는 점도 언급할 가치가 있습니다. Cortex-X3는 작년에 1MB의 L2 캐시와 함께 출시되었습니다. 이는 제조업체가 올해 동일한 L2 캐시 크기를 고수하더라도 반드시 15%의 성능 향상이 없을 수 있음을 의미합니다.
하지만 한 가지 확실한 점은 X4를 최대 속도로 실행하는 경우 전력 소모가 클 가능성이 높다는 것입니다. 올해도 일부 OEM이 작년에 했던 작업을 계속 수행하고 올해의 많은 칩셋을 기본적으로 제한하는 것을 볼 수 있습니다. 예를 들어 OnePlus와 Oppo는 모두 이 작업을 수행하며 동시에 실행할 때 전력 효율성이 향상됩니다. X3와 같은 성능 포인트를 갖고 있다면 해당 회사가 계속해서 이익을 얻을 가능성이 높습니다. 그래서. 전반적으로 15%의 성능 향상을 볼 수는 없지만 내년 칩셋에서는 효율성이 더 향상될 수 있습니다.
Arm Cortex-A720: 성능과 전력 소비의 균형
Arm의 X 시리즈 코어는 일반적으로 약간 거칠게 실행되는 반면, A 시리즈 코어는 일반적으로 성능과 전력 소비의 균형을 맞추는 것을 목표로 합니다. Cortex-A720을 통해 Arm은 작년 A715와 동일한 전력으로 향상된 성능으로 20% 더 효율적인 코어를 약속합니다.
올해 A720의 개선 사항은 대부분 프런트 엔드에 있습니다. 분기 예측 오류 엔진에서 한 주기가 제거되어 파이프라인이 단축되었으며, 이 단일 주기 감소는 벤치마크의 1% 증가를 설명한다고 합니다. 벤치마크는 일반적으로 분기 예측 오류가 가장 적다는 결과를 낳습니다. 즉, 이는 전체 실제 성능을 훨씬 더 크게(그러나 대체로 측정할 수 없는) 향상시킬 수 있음을 의미합니다.
비순차적 코어에서는 코어가 차지하는 영역이나 효율성에 영향을 주지 않고 성능을 향상시키는 데 도움이 되는 여러 가지 구조적 개선 사항을 볼 수 있습니다. 우선, X4와 마찬가지로 부동 소수점 나누기 및 제곱근 연산이 이제 파이프라인으로 제공됩니다. 또한 부동 소수점, NEON 및 SVE2 숫자에서 정수로의 전송이 더 빨라지고 처리 속도가 빨라지는 기타 전반적인 개선 사항도 있습니다.
Arm은 SPECint_base2006에서 ISO 프로세스와 ISO 빈도가 사용되는 성능 및 효율성 측면에서 A720이 작년 A715와 어떻게 비교되는지 설명하기 위해 위 그래프를 공유했습니다. 캐시 크기도 동일하게 유지되므로 사과 대 사과 비교가 됩니다.
전력 소비 측면에서 A720은 작년 모델과 크게 유사하지만 동일한 전력 수준에서 성능이 조금 더 향상되었습니다. X4와 마찬가지로 A720에서도 Arm은 어떻게 개선되는지 강조하는 데 더 집중하는 것으로 보입니다. 이러한 코어의 전력을 지속적으로 증가시키는 대신 작년의 전력 제약에서 벗어나 성능을 발휘합니다. 가능하다.
Arm Cortex A520: 효율성을 두 배로 향상
물론 Arm의 코어에 있어서 성능이 전부는 아닙니다. X 시리즈는 모든 것을 원시 컴퓨팅 성능에 투입하고 A7xx는 컴퓨팅 요구 사항과 전력 소모의 균형을 유지하므로 A5xx 시리즈는 순전히 효율적인 처리에만 중점을 둡니다. 이는 면적당 전력이 가장 낮은 Arm v9.2 코어이며 A510에 도입된 것과 동일한 병합 코어 아키텍처를 기반으로 합니다.
이 병합된 코어 아키텍처가 의미하는 것은 일부 리소스가 두 코어 간에 공유될 수 있다는 것입니다. "콤플렉스"로 분류됩니다. L2 캐시, L2 변환 참조 버퍼 및 벡터 데이터 경로는 이 내에서 공유됩니다. 복잡한. 분명히 말씀드리자면, 그런 뜻은 아닙니다 가지다 두 개의 코어로 묶을 수 있으며, 최대 성능을 위해 단일 코어 컴플렉스를 조립할 수 있습니다. 실제로 우리가 보여준 Arm의 TCS2023 코어 레이아웃 중 하나에는 단일 X4 코어, 5개의 A720 코어 및 3개의 A520 코어가 포함되어 있습니다. 즉, 최소 1개의 A520 코어가 격리되어 있음을 의미합니다.
A520은 효율성 우선 설계이며, 다른 코어와 마찬가지로 Arm은 이전 세대와 동일한 전력 지점에서 효율성을 향상시키는 데 크게 중점을 두었습니다. 여기에는 일부 성능 기능을 제거하거나 축소하는 동시에 분기 예측을 개선하는 것도 포함됩니다. 그 결과 효율성이 향상되어 이러한 성능이 회복되었습니다. 흥미롭게도 Arm은 A510에 있던 세 번째 ALU를 제거하여 로직 발행 및 결과 전달에 필요한 전력을 절약했습니다.
실제 결과를 보면 A520은 A720과 X4만큼 이전 모델에 비해 크게 향상되지 않은 것으로 보입니다. 더 낮은 전력 간격에서의 기능 중 대부분은 위 그래프의 A510과 겹치며 성능의 상위 계층에서만 효율성 향상을 볼 수 있습니다. 두 코어 간의 성능과 전력의 차이는 유망하지만 A520과 A510을 비교할 때 실제 실제 이점을 볼 수 있을지는 불분명합니다. 결국, 현실 세계에서 둘 사이의 성능과 효율성 차이를 실제로 제대로 측정하는 것은 어렵습니다.
DSU-120: 최대 14개 코어의 뛰어난 컴퓨팅 성능
DynamIQ 공유 장치(DSU)는 멀티코어 클러스터를 형성하기 위해 하나 이상의 코어를 L3 메모리 시스템, 제어 로직 및 외부 인터페이스와 통합합니다. 이는 본질적으로 이러한 모든 코어가 서로 통신하고 리소스를 공유할 수 있도록 하는 Arm의 패브릭입니다. 따라서 이는 Arm의 핵심 설계로 칩을 구축하려는 모든 칩셋 제조업체에게 상당히 중요한 퍼즐 조각입니다.
DSU-110을 기반으로 Arm은 DSU-120이 포함된 전체 칩에 도움이 되는 여러 가지 개선 사항을 적용했습니다. 우선, 이제 클러스터당 최대 14개의 코어(12개에서 최대)가 있고 최대 32MB의 L3 캐시를 지원합니다. 또한 캐시 누락을 포함하여 여러 주요 영역에서 효율성을 크게 향상시키는 동시에 전력 누출도 줄입니다.
어떤 면에서 Arm의 DSU는 TCS23의 중추입니다. 각 코어가 서로 상호 작용하고 데이터를 공유하는 방식의 기초를 형성하기 때문입니다. 여기서 개선 사항은 전체 클러스터에 도움이 되지만 대부분의 변경 사항은 전력 소비 및 효율성과 관련된 것으로 보입니다.
효율성이 새로운 목표입니다.
업계는 한동안 변화하고 있는 것 같지만, 이 코어에서 제가 받은 첫인상은 효율성이 이제 게임의 이름이라는 것입니다. X4 코어가 얼마나 빠른지, 그리고 이것이 회사 역사상 가장 빠른 코어인지에 대해 이야기를 나누는 동안, 그들은 작년의 최고 성능에서 실행함으로써 효율성이 향상되었다는 점을 매우 빠르게 알아차렸습니다. 대신에.
전반적으로 모든 성능 향상은 해당 구성 요소가 얼마나 더 효율적이었는지에 따라 뒷받침되었으며 DSU의 모든 변경 사항은 효율성과 전력 누출에 있었습니다. 성능은 중요하지만, 업계 전체가 현재의 성능을 구현하려고 노력하는 것처럼 느껴집니다. 엄청난 성능 향상을 추구하는 것보다 계산 수준이 더 효율적입니다.
우리는 이러한 코어가 MediaTek Dimensity 9400 및 Qualcomm Snapdragon 8 Gen 3의 기반을 구성할 것으로 기대하지만 어떤 형태로 구성될지는 아직 알 수 없습니다. 이전에 언급했듯이 Arm은 자체 내부 테스트에서 1+5+3 코어 레이아웃을 사용하는 것에 대해 이야기했지만 이것이 MediaTek 및 Qualcomm과 같은 파트너가 스스로 수행하려는 작업이라는 의미는 아닙니다.