ARM, Cortex-A78 CPU, Mali-G78 GPU, Ethos N78 NPU 발표

click fraud protection

ARM은 Cortex-A78 CPU 아키텍처와 Mali-G78 GPU를 발표했습니다. 두 제품은 Cortex-A77 CPU와 Mali-G77 GPU의 후속 제품입니다.

TechDay 2020의 일환으로 ARM은 세 가지 주요 발표를 했습니다. 헤드라인 주요 발표는 새로운 기능을 포함하는 Cortex-X Custom 프로그램(CXC)입니다. Cortex-X1 CPU 코어. Cortex-X1은 Cortex-A 시리즈 PPA의 한계를 뛰어넘는 동시에 Cortex-A 시리즈 CPU보다 더 높은 최고 성능을 제공합니다. ARM이 발표한 다른 두 가지 발표는 훨씬 더 일상적이었습니다. Cortex-A78 CPU와 Mali-G78 CPU는 이제 공식화되었으며, 이들은 피질-A77 CPU와 말리-G77 각각 CPU. 이러한 공지사항을 하나씩 살펴보겠습니다.

ARM Cortex-A78

Cortex-A78을 통해 ARM은 더 긴 배터리 수명, 새로운 모바일 폼 팩터, SoC 영역 축소에 대한 요구와 같은 효율성 요구 사항에 중점을 두었습니다. Cortex-A78의 키워드는 지속적인 성능인 반면, Cortex-X1은 단기 최대 성능 달성을 목표로 스타를 향해 달려갑니다.

ARM은 Cortex-78이 동급 최고의 효율성과 고급 성능을 제공하는 자사 드라이브의 "최고"를 대표한다고 말합니다. 이것도 그냥 빈말이 아닙니다. 지난 몇 년 동안 Cortex-A76과 Cortex-A77은 동급 최고의 에너지 효율성과 동급 최고의 PPA(성능, 전력, 면적)를 보여주었습니다. Apple의 A 시리즈 칩과 경쟁하는 데 필요한 디자인은 없었지만 낮은 성능으로 인해 전력을 생산했지만 에너지 효율성은 최악의 경우 Apple과 같았고 기껏해야 Apple보다 훨씬 높았습니다. 사과.

A78의 성능 개선은 생산성, 커뮤니케이션, 보안 및 카메라 기반 작업, 고급 게임, XR 및 ML 기반 경험의 사용 사례를 포괄합니다.

지속적인 성능에서 Cortex-A78은 두 자리 수의 향상을 가져옵니다. 동일한 모바일 화력 엔벨로프에서 이전 제품인 Cortex-A77에 비해 지속적인 성능이 20% 향상되었습니다.

아난드테크 수치를 살펴보고 20% 수치는 A77에 비해 7% 더 높은 IPC의 조합이라고 설명했습니다. 나머지 13%의 성능 향상은 차세대 SoC가 모두 구현될 5nm 공정에 기인합니다. 만드는. ARM은 모바일 장치의 용량이 제한되어 있다고 말함으로써 지속적인 성능의 중요성을 지적합니다. 전력을 소모하고 지속적인 성능을 통해 많은 전력을 요구하는 애플리케이션의 전력 조절을 방지합니다. 힘. 결과적으로 지연이나 프레임 저하를 방지하여 UX가 향상됩니다.

전력 효율성에 대한 추진은 더 높은 에너지 효율성으로 해석됩니다. 두 가지가 서로 관련되어 있지만 개념이 다르기 때문입니다. ARM에 따르면 Cortex-A78은 현재 모바일 장치의 최고점과 같은 고성능 지점에서 2019년 장치에 비해 50%의 에너지 절감 효과를 제공합니다. 같은 공연에서 Cortex-A77과 같습니다. 이는 인상적이며 A78을 ARM이 설계한 가장 에너지 효율적인 Cortex-A CPU로 만듭니다.

지속적인 성능에 대한 ARM의 초점은 새로운 폼 팩터(폴더블 휴대폰)는 물론 5G를 통한 향상된 "디지털 몰입"과 같은 차세대 모바일 혁신의 물결에 도움이 될 것입니다. 현실을 확인해 보면 이는 현세대에는 해당되지 않고, 다음 세대에도 크게 문제가 되지 않을 것이다.

Cortex-A78에 의해 개선될 사용 사례 중 하나는 ARM의 새로운 Mali-G78 GPU와 결합된 AAA 모바일 게임입니다. 두 가지의 결합은 모바일에 고품질 게임 경험을 제공하는 것을 목표로 합니다. 5G의 빠른 속도와 높은 대역폭이 결합되면 더 뛰어난 성능이 모바일에서 프리미엄 게임을 가능하게 할 것입니다. A78의 효율성은 확장된 게임을 위해 더 긴 배터리 수명을 제공하므로 이점이 있습니다. ARM은 성능을 더욱 향상하고 더욱 풍부한 게임 경험을 구축하기 위해 생태계와 협력하고 있으며, Burst Compiler를 Android에 도입하기 위해 Unity와 협력한 사례를 제시합니다.

머신러닝(ML) 성능은 ARM의 또 다른 우선순위입니다. 요즘 고급 SoC에는 별도의 신경 처리 장치(NPU)가 함께 제공되지만 CPU는 모바일 ML 컴퓨팅을 위해 가장 먼저 선택되는 프로세서입니다. ARM의 CPU는 소셜 미디어 필터, 받아쓰기, 보안, 보안 등 스마트폰에서 가장 인기 있는 실제 ML 애플리케이션과 사용 사례를 지원합니다. Cortex-A78은 A77에 비해 ML 기반 작업에 평균 8% 더 적은 전력을 사용하여 공식적인 효율성이 10% 향상됩니다.

ARM Cortex-A78 - 아키텍처

ARM Cortex-A78은 이전 세대와 동일한 아키텍처를 갖습니다(여전히 ARM v8.2 코어임). 그러나 ARM은 면적과 전력 효율적인 방식으로 성능을 높이는 것을 목표로 하는 마이크로아키텍처 기능을 추가했습니다. ARM은 필요한 성능 수준을 유지하면서 공간과 전력을 절약하고 있습니다. 다시 말하지만, Cortex-A 시리즈에 대한 ARM의 초점은 이제 Cortex-X 프로그램이 담당하는 최대 성능보다는 면적 및 전력 효율성에 있습니다.

Cortex-A78의 성능 향상은 너비와 깊이를 최적화하는 추가적인 마이크로아키텍처 기능을 통해 구현됩니다. 명령어 디코드 폭은 A77 및 A76과 동일하게 4폭으로 유지됩니다. (Cortex-X1의 디코드 폭은 5폭인 반면, A13의 디코드 폭은 7폭입니다.) ARM은 명령어 융합 사례뿐만 아니라 대역폭과 정확도에 대한 더 큰 분기 예측을 추가했습니다. 이러한 아키텍처 개선으로 A77에 비해 단일 스레드 성능이 7% 향상되었습니다.

L1-I, L1-D 캐시 등 성능과 면적이 낮은 구조를 줄여 효율성을 극대화했습니다. ARM은 브랜드 예측 구조와 같이 전력 소비를 줄이기 위해 기존 구조를 최적화했습니다. ARM은 이를 통해 A77에 비해 mW당 성능 전력이 4% 감소하고 mm2당 성능 면적이 5% 감소했다고 밝혔습니다.

A78은 클러스터 수준에서 동급 최고의 효율성으로 지속적인 성능에 중점을 둡니다. 4x Cortex-A77 및 4x Cortex-A55 CPU로 구성된 DynamIQ 클러스터는 4x A78 코어 및 4x A55 코어로 업그레이드할 수 있습니다. 이는 15% 더 적은 면적에서 20% 지속적인 성능 향상을 제공합니다. 고성능 게임과 같이 병렬로 여러 개의 고성능 스레드가 필요한 애플리케이션은 지속적인 성능 향상으로 인해 이점을 누릴 수 있습니다.

ARM은 A78 DynamIQ 클러스터의 향상된 영역 효율성이 폴더블 휴대폰과 여러 대의 대형 디스플레이에 이상적이라고 지적합니다. 또 다른 초점은 성능과 에너지 개선을 통해 스마트폰을 5G에 대비하는 것입니다. 5G는 "훨씬 더 빠른 속도", "훨씬 낮은 대기 시간", "고대역폭 애플리케이션을 위한 모바일 장치에 훨씬 더 빠르고 더 유비쿼터스적인 연결"을 제공하는 것으로 추정됩니다. 지금부터 몇 년 후에는 그럴 수도 있지만 현재로서는 이러한 이점의 대부분이 최종 소비자에게 눈에 띄지 않습니다.

전반적으로 Cortex-A78은 견고한 제품입니다. 차세대 플래그십 SoC에는 여러 개의 A78 코어가 통합되어 단일 Cortex-X1 코어를 보완합니다. 전력 및 면적 요구 사항이 더 높으며 일부 가치 지향 SoC는 Cortex-X1을 생략하기로 선택할 수도 있습니다. 전적으로. 중급 SoC 시장의 경우 A78은 2021년 SoC의 CPU 코어로 선택될 것이며 지속적인 성능에 중점을 두는 것은 환영할 만한 일입니다.


ARM 말리-G78

ARM의 Mali GPU 시리즈는 Cortex CPU 시리즈만큼 성공하지 못했습니다. Mali GPU는 Apple의 맞춤형 GPU와 Qualcomm의 맞춤형 Adreno GPU에 비해 ​​성능과 전력 효율성 측면에서 해마다 지속적으로 뛰어난 성능을 보여 왔습니다. 안타깝게도 작년에 새로운 Valhall 아키텍처와 Mali-G77 GPU가 출시되었지만 안타깝게도 이러한 상황은 바뀌지 않았습니다. Mali-G77을 탑재한 SoC에는 다음이 포함되었습니다. 엑시노스 990 그리고 MediaTek 치수 1000L 각기. 불행하게도 둘 다 GPU 성능이 저하될 수 있음을 의미하는 구현이 약한 것으로 나타났습니다. Qualcomm의 Adreno 650 GPU와 경쟁하지 말고 Apple A12 및 Apple의 동급 최고의 GPU를 염두에 두지 마십시오. A13. Mali는 수년 동안 뒤쳐져 왔으며, 그 개선은 모바일 GPU 공간의 현 상태를 변화시키기에 충분하지 않았습니다.

그럼에도 불구하고 ARM은 낙관적이지 않다면 아무것도 아니다. 파트너는 매년 10억 개 이상의 Mali GPU를 출하하여 Mali를 세계에서 가장 많이 출하된 GPU로 만들었습니다. 더 많은 유형의 장치가 고급 모바일 게임 및 XR(VR 및 AR)과 같은 그래픽 집약적 사용 사례를 지원함에 따라 이 숫자는 계속 증가할 것입니다. ARM에 따르면 이로 인해 Mali는 생태계 전체에서 모바일 개발에 가장 널리 사용되는 GPU가 되었습니다.

ARM은 2019년에 Valhall 아키텍처를 기반으로 한 최초의 GPU인 Mali-G77을 발표했다고 밝혔습니다. 2020년에는 G77의 뒤를 이어 Valhall 아키텍처를 기반으로 하는 Mali-G78이 출시됩니다. ARM은 이 GPU가 현재까지 프리미엄 모바일 장치에서 가장 성능이 뛰어난 GPU라고 말하지만, ARM이 아이러니하게도 숫자로 뒷받침되는 사실이라고 말하는 것에도 불구하고 숫자는 이를 뒷받침하지 않습니다. G78은 G77에 비해 성능이 25% 향상되었지만, 이는 아무리 미미한 수준입니다. G77과 Apple A13의 GPU 사이의 최고 GPU 성능 격차는 상당했습니다. 즉, 곧 출시될 Apple A14의 GPU는 신경 쓰지 않고 G78이 A13을 따라잡을 수 없다는 의미입니다. Qualcomm은 또한 점진적인 성능 향상을 통해 계속해서 한발 앞서 나갈 것입니다.

판도를 바꾸는 그래픽과 모바일에서의 하루 종일 게임은 이미 다른 GPU에서 가능하므로 여기서 ARM의 마케팅은 약간 공허하게 들립니다.

ARM에 따르면 Mali-G78은 개발자와 최종 사용자를 염두에 두고 제작되었습니다. 이제 모바일에서 사용할 수 있는 콘솔 게임을 통해 고품질 모바일 게임 경험을 가능하게 합니다. G78은 프리미엄 모바일 장치에 더 긴 배터리 수명을 제공합니다. 또한 모바일 장치의 보다 복잡한 게임, 비디오, 카메라, 보안 ML 기능을 위한 ML 성능이 더욱 향상됩니다.

ARM은 모바일 게임의 전망에 대해 낙관적입니다. 모바일 게임은 2019년 글로벌 게임 시장의 46% 이상을 차지했으며 매출은 682억 달러에 달했습니다. 또한 PC와 콘솔 게임 모두를 능가할 것이기 때문에 향후 몇 년 동안 계속해서 성장할 것으로 예상됩니다. 더 많은 프리미엄 게임 타이틀이 모바일로 출시되고 있으며 사용자는 콘솔과 비교하여 모바일에서 유사한 경험을 기대합니다.

이러한 경험을 가능하게 하기 위해 Mali-G78은 필요한 성능 향상을 제공합니다. G77 대비 게임 콘텐츠 성능 밀도가 15% 향상됐다. 이전 세대와 동일한 면적에 대해 G78은 더 많은 성능을 제공할 것입니다. 이 향상은 다음 네 가지 주요 기능으로 가능합니다.

  • 최대 24개 코어 지원
  • 비동기식 최상위 수준
  • 타일러 개선
  • 향상된 조각 종속성 추적

G77의 최대 코어 수는 16개였지만 ARM은 G78의 최대 코어 수를 최대 24개 코어로 늘렸습니다. 물론 최대값이 있다고 해서 모바일 칩 공급업체가 실제로 24개의 코어를 통합한다는 의미는 아닙니다. 지금까지 우리가 본 G77의 가장 넓은 핵심 변형은 Exynos 990의 Mali-G77MP11이고 Dimensity 1000에는 Mali-G77MC9가 있습니다.

ARM은 Asynchronous Top Level이 GPU 성능의 판도를 바꾸는 기능이라고 믿습니다. 이는 모바일 게임의 성능을 최대한 끌어내 최대 성능을 보장한다는 뜻이다.

반면에 타일러 개선은 모바일 게임에 추가적인 품질 계층을 추가합니다. PC와 콘솔에서 가져온 게임에는 매우 복잡한 자산과 정교한 장면이 포함되어 있어 성능 저하와 병목 현상이 발생하는 경우가 많습니다. 타일러 개선은 이러한 복잡한 장면과 자산에 대한 GPU의 정점 로드를 줄입니다. 이는 콘솔과 같은 복잡한 게임 콘텐츠의 성능을 향상시킵니다.

ARM은 또한 G78의 조각 종속성 추적을 향상했습니다. 이는 특히 연기, 나무, 잔디가 포함된 복잡한 게임 장면이 있는 모바일 게임에 영향을 미칩니다. 그 결과 ARM은 G77에 비해 최고의 모바일 게임에서 최대 17%의 성능 향상을 보였습니다.

Mali-G78은 이전 모델보다 에너지 효율성이 10% 향상되었습니다. 다시 말하지만, 이는 Qualcomm이나 Apple을 따라잡기에는 충분하지 않습니다. 여기서 ARM의 목표는 특히 보수적인 것 같습니다. 비동기식 최상위 레벨 기능은 전력을 줄여 콘텐츠를 지속 가능한 방식으로 생성할 수 있도록 하므로 에너지 효율성에 중요한 역할을 합니다. 따라서 장치가 원하는 프레임 속도로 콘텐츠를 출력할 때 클록다운하여 에너지를 절약할 수 있습니다. 이 작업에 대한 최상위 수준을 높이면 에너지가 조금 더 많이 사용되지만 셰이더 코어의 빈도를 줄임으로써 에너지 절약 효과는 훨씬 더 높습니다. 이는 셰이더 코어가 GPU 에너지 예산의 90~95%를 사용하기 때문입니다.

FMA(Fused Multiply-Add) 덕분에 G78의 더 나은 에너지 효율성도 달성되었습니다. 처음부터 완전히 재설계되어 장치의 에너지가 30% 감소되었습니다. FMA 장치는 GPU 내부에서 발생하는 대부분의 계산을 담당하므로 ARM이 에너지 절감을 목표로 하는 것이 합리적이었습니다.

GPU의 병렬 데이터 처리 기능은 ML 워크로드 실행에 적합하지만 ARM은 CPU와 GPU가 ML의 기본 프로세서로 남아 있다는 점을 인정합니다. 사용 사례가 더욱 복잡해지면 일부 워크로드가 GPU로 오프로드됩니다. GPU의 주요 ML 사용 사례는 장치의 보안 기능, 다양한 카메라, 비디오 모드는 물론 AR 기능이 있는 애플리케이션과 연결됩니다.

GPU에서 ML의 역할은 사진이나 비디오 프레임 내 얼굴 추적, AR 기능을 사용하는 게임 등의 경험을 가능하게 합니다. 이러한 ML 기반 작업의 경우 Mali-G78은 G77에 비해 다양한 ML 워크로드에 대해 평균 15% 향상된 성능을 제공합니다. G77은 이전 세대에 비해 ML 성능이 60% 향상되었으므로 올해 전년 대비 개선 폭은 훨씬 작습니다. 비동기식 최상위 레벨은 셰이더 코어의 클럭킹이 GPU의 다양한 ML 사용 사례에 도움이 되므로 ML 성능을 향상시키는 데 필수적입니다.

그런 다음 Mali-G68이 발표됩니다. Mali-G57이 Mali-G77의 더 좁은 변형인 것처럼 이것은 Mali-G78의 더 좁은 변형일 뿐입니다. ARM은 이것이 2021년 장치용 최초의 서브 프리미엄 Mali GPU라고 말합니다. 타일러 개선, 실행 엔진의 새로운 FMA 유닛 등 G78의 모든 기능을 갖추고 있지만 24개가 아닌 최대 6개의 코어를 지원합니다. 더 낮은 비용으로 거의 프리미엄급 성능을 제공하는 것이 이 GPU의 목표입니다.

ARM은 장치 포트폴리오 전체에서 프리미엄 기능을 원하는 파트너의 피드백을 듣고 이 하위 프리미엄 GPU 계층을 개발했습니다. G68은 예상대로 실리콘 면적이 더 낮으며 더 많은 개발자와 소비자에게 고성능 게임을 제공합니다.

마지막으로 ARM은 개발자 파트너십을 언급합니다. 이를 통해 개발자는 (이론적으로) Mali GPU에서 더 잘 실행되도록 콘텐츠를 쉽게 최적화할 수 있습니다. 한 가지 예가 Performance Advisor입니다. 두 번째는 ARM과 Unity의 협력으로 Burst Compiler를 출시한 것입니다. 이에 대한 자세한 내용은 원본 기사에서 읽을 수 있습니다.

Mali-G78 - 전망

Mali-G78의 전망은 암울합니다. ARM은 Apple이 만들고 있는 동일한 틀, Qualcomm이 과거에 만든 것과 동일한 틀에서 전년 대비 상당한 성능 향상을 이루는 데 관심이 없는 것 같습니다. Qualcomm의 개선 속도도 둔화되었지만 기준선은 ARM보다 높습니다. 리뷰어들이 A13의 GPU의 지속적인 성능이 Snapdragon 865의 최고 성능보다 높다는 수치적 증거를 제시하면 Android 생태계에 좋지 않은 것으로 보입니다. Apple과 Android GPU 간의 성능 차이가 커지고 있으며 그 폭도 점점 더 넓어지고 있습니다.

따라서 G78은 ARM의 Mali GPU 문제를 해결하고 이를 성능 차트의 최상위에 올리는 마법의 솔루션이 아닙니다. 여전히 Apple과 Qualcomm의 GPU보다 순위가 낮습니다. 일부 SoC에서는 기본 선택이 됩니다. ARM의 기본 GPU IP이고 맞춤형 솔루션은 진입 장벽이 있고 비용이 더 많이 들기 때문입니다. 잘.

내년에는 삼성시스템 LSI가 실제로 Mali-G78을 채택하게 될지는 의문이다. 삼성은 Mali GPU의 주요 고객이었지만 작년에는 RDNA GPU 아키텍처를 가져오기 위해 AMD와 파트너십을 체결했습니다. 2021년에는 모바일 SoC에 진출할 예정입니다. 해당 로드맵이 제대로 진행되고 현 시점에서 그것이 제대로 진행되고 있지 않다고 의심할 이유가 없다면 Exynos 990의 후속 제품에는 Mali GPU 대신 AMD RDNA GPU가 탑재될 것입니다. 이는 실제로 ARM에게는 큰 설계 손실이 될 것입니다. 요즘에는 MediaTek과 같은 다른 공급업체에도 더 많은 옵션이 있습니다. 상상기술의 새로운 A 시리즈 GPU 아키텍처 G78보다 더 높은 성능을 목표로 하는 설계 목표가 있으며 향후 MediaTek이 Mali에서 전환할 가능성이 있습니다. 물론 Qualcomm은 Adreno GPU 노력을 포기할 이유가 없습니다. Android에 대해서만 이야기할 때 성능과 효율성 측면에서 동급 최고입니다. 스마트폰 시장.

따라서 ARM이 모바일 GPU 시장에 실질적인 변화를 가져오려면 Mali GPU의 연간 개선 속도를 높여야 한다는 것은 분명합니다. 이를 수행하지 못하면 프리미엄 플래그십 모바일 GPU 공간에서 뒤처지게 될 위험에 직면하게 됩니다.


ARM 에토스 N78

마지막으로 ARM은 Ethos N78 신경 처리 장치(NPU)도 발표했습니다. N77 NPU의 후속 제품입니다. 더 뛰어난 온디바이스 ML 기능과 최대 25% 향상된 성능 효율성을 제공합니다. 사용 가능한 구성 범위가 1 TOP/s에서 최대 10 TOP/s이므로 구성 가능성도 강점입니다. 자세한 내용은 다음을 확인하세요. ARM의 블로그 게시물. Qualcomm, Samsung, HiSilicon 및 MediaTek이 모두 자체 신경 처리 장치/AI 엔진을 갖고 있기 때문에 이 NPU는 아마도 제한적인 설계 승리를 거둘 것입니다.


출처: ARM(1, 2), 아난드테크(1, 2)