삼성 오스틴 R&D 센터는 출시되지 않은 Exynos M6 CPU 마이크로아키텍처의 세부 정보를 공개합니다.

삼성 오스틴 연구 개발 센터(SARC)는 취소된 Exynos M6 맞춤형 CPU 코어의 마이크로아키텍처를 자세히 설명하는 논문을 발표했습니다.

우리는 삼성 오스틴 연구 개발 센터(SARC)의 맞춤형 CPU 코어 프로젝트가 끝났다 2019년 10월. 2016년 엑시노스 M1을 탑재한 엑시노스 8890이 출시되면서 이토록 팡파르로 추진되었던 프로젝트는 안타까운 결말을 맞이하게 됐다. SARC가 프로젝트를 접은 이유는 무엇입니까? Exynos M5 커스텀 코어가 탑재되었습니다. 엑시노스 990 SoC는 가까운 미래에 삼성이 설계한 마지막 완전 맞춤형 코어이며, 돌이켜보면 삼성이 단순히 경쟁력이 없었기 때문에 맞춤형 코어를 포기한 이유를 쉽게 알 수 있습니다. 이제 Exynos M5 코어가 100% 전력 효율성 부족 ARM의 Cortex-A77과 비교하면 많은 것을 알 수 있습니다. 그러나 그렇게 될 필요는 없었습니다. Exynos M1과 Exynos M2 디자인은 어느 정도 가능성을 보였으며, 당시에는 모바일 CPU 공간에서의 경쟁을 위해 맞춤형 CPU 코어 프로젝트가 중요하게 여겨졌습니다. Exynos M3는 IPC가 크게 증가했음에도 불구하고 큰 하락세를 보였습니다. 엑시노스 M4 Exynos M5는 ARM의 기본 CPU IP를 따라잡지 못했습니다. 취소된 차세대 커스텀 코어인 Exynos M6의 마이크로아키텍처 변경 사항은 무엇입니까?

지금까지 그 질문에 대한 답은 알려지지 않았습니다. 그런데 이제 SARC CPU 개발팀에서 "삼성 엑시노스 CPU 아키텍처의 진화"라는 제목의 논문을 발표했습니다. 아난드테크)가 IEEE 컨퍼런스인 ISCA(International Symposium for Computer Architecture)에 참석했습니다. 이전 Exynos M 시리즈 CPU에 대한 많은 세부 정보는 물론 취소된 Exynos M6의 아키텍처도 공개됩니다.

SARC의 CPU 개발팀이 발표한 문서에서는 8년 간의 팀 노력을 자세히 설명하고 Exynos M1부터 맞춤형 ARM 코어에 대한 주요 세부 정보도 공개합니다. (Mongoose)부터 현재 세대의 Exynos M5(Lion)까지, 그리고 취소되기 전에 Exynos 990의 2021년 SoC에 탑재될 것으로 예상되었던 아직 출시되지 않은 Exynos M6 CPU까지 후임.

삼성의 SARC CPU 팀은 맞춤형 CPU 코어를 개발하기 위해 2011년에 설립되었으며, 이후 삼성 시스템에 탑재되었습니다. LSI의 엑시노스 SoC. 커스텀 코어를 사용한 최초의 Exynos SoC는 2016년 Samsung Galaxy에 탑재된 Exynos 8890이었습니다. S7. 맞춤형 코어는 Exynos 기반 Samsung Galaxy S20 변형에 등장한 Exynos M5 코어가 포함된 Exynos 990까지 Exynos SoC의 일부로 남아 있었습니다. (다가오는 엑시노스 992갤럭시 노트 20에 탑재될 가능성이 있는 는 ARM의 탑재가 예상됩니다. 피질-A78 Exynos M5는 아닙니다.) 그러나 SARC는 CPU 팀이 개발하기 전에 Exynos M6 아키텍처를 완성했습니다. 2019년 10월에 해체되었다는 소식을 접했고, 2019년 12월부터 해체가 시작되었습니다. 12월.

ISCA 문서에는 Exynos M1에서 Exynos M6까지 삼성의 맞춤형 CPU 코어 간의 마이크로 아키텍처 차이점에 대한 개요 표가 나와 있습니다. 디자인의 잘 알려진 특성 중 일부는 HotChips 2016 이벤트의 초기 M1 CPU 아키텍처 심층 분석에서 회사에 의해 공개되었습니다. HotChips 2018에서 삼성은 Exynos M3에 대해 심층 분석했습니다. Exynos M4 및 Exynos M5 코어의 아키텍처는 물론 M6의 아키텍처도 자세히 설명되었습니다.

출처: SARC

아난드테크 지난 수년간 삼성 디자인의 주요 특징 중 하나는 Exynos M1 Mongoose 코어에서 시작된 동일한 청사진 RTL을 기반으로 한다는 점이었습니다. 삼성은 수년에 걸쳐 코어의 기능 블록을 지속적으로 개선해 왔습니다. Exynos M3는 4와이드 디자인에서 6와이드 미드코어로 이동하는 등 여러 측면에서 코어를 실질적으로 넓혀 첫 번째 반복에서 변화를 나타냈습니다. (반면, Apple A11, A12, A13의 디코드 폭은 7폭인 반면, Cortex-A76, A77, A78의 디코드 폭은 4폭입니다. Cortex-X1은 디코드 폭을 5폭으로 늘립니다.)

이 보고서는 또한 Exynos M5 및 M6에 관해 이전에 공개되지 않았던 몇 가지 정보를 공개합니다. Exynos M5의 경우 삼성은 코어의 캐시 계층 구조를 더 크게 변경하여 개인 L2 캐시를 새로운 캐시로 교체했습니다. 공유 캐시를 더 크게 만들고 L3 구조를 3뱅크 디자인에서 2뱅크 디자인으로 변경한 것을 공개했습니다. 지연 시간.

취소된 M6 코어는 마이크로아키텍처 측면에서 더 큰 도약이었을 것입니다. SARC는 L1 명령어와 데이터 캐시를 64KB에서 128KB로 두 배로 늘리는 등 큰 개선을 이루었습니다. 아난드테크 이는 Apple A12부터 시작하여 지금까지 Apple의 A 시리즈 코어에서만 구현된 디자인 선택입니다.

L2는 대역폭 용량이 최대 64B/사이클로 두 배로 늘어난 반면, L3에서는 3MB에서 4MB로 증가했습니다. Exynos M6는 8와이드 디코드 코어였을 것입니다. 에 의해 언급된 바와 같이 아난드테크, 이것은 현재 디코드 측면에서 알려진 가장 광범위한 상용 마이크로 아키텍처였을 것입니다. 하지만 코어가 훨씬 넓어졌음에도 불구하고 정수 실행 단위에서는 큰 변화가 보이지 않았습니다. 하나의 복잡한 파이프라인에는 두 번째 정수 나누기 기능이 추가되었으며, 로드/저장 파이프라인은 하나의 로드 단위, 하나의 저장 단위 및 하나의 로드/저장 단위가 있는 M5와 동일하게 유지되었습니다. 부동 소수점/SIMD 파이프라인에는 FMAC 기능을 갖춘 네 번째 장치가 추가로 등장했을 것입니다. L1 DTLB는 48페이지에서 128페이지로 늘었고, 메인 TLB는 4K 페이지에서 8K 페이지(32MB 적용)로 두 배 늘었습니다.

Exynos M6는 M3 이후 처음으로 코어의 비순차적 창을 증가시켜 이전 제품과 또 다른 중요한 변화를 나타냈을 것입니다. 더 큰 정수 및 부동 소수점 물리적 레지스터 파일이 있었고 ROB(Reorder Buffer)가 228에서 256으로 증가했습니다. 아난드테크 맞춤형 Exynos 코어의 한 가지 중요한 약점은 여전히 ​​M5에 존재하며 M6에도 존재했을 것입니다. 11주기 잘못된 예측 페널티를 갖는 ARM의 CPU 코어보다 높은 값비싼 16주기 잘못된 예측 페널티를 초래하는 것은 더 깊은 파이프라인 단계입니다. SARC 문서는 CPU 코어의 Scaled Hashed Perceptron 기반 설계를 보여주면서 분기 예측기 설계에 대해 더욱 자세히 설명합니다. 이 설계는 수년과 구현을 통해 지속적으로 개선되어 분기 정확도를 개선하고 MPKI(킬로 명령어당 잘못된 예측)를 지속적으로 줄였습니다. SARC는 분기 예측기가 프런트엔드 내에서 차지하는 스토리지 구조의 양을 보여주는 표를 제공합니다. µOP 캐시 도입을 다루는 코어의 프리페칭 기술도 문서에 자세히 설명되어 있습니다. M5에서는 다음과 같은 보안 취약점에 대비해 코어를 강화하려는 팀의 노력도 엿볼 수 있습니다. 스펙터.

맞춤형 Exynos 코어의 메모리 대기 시간을 개선하려는 노력도 SARC에서 자세히 설명했습니다. Exynos M4에서 SARC 팀은 후속 로드에서 효과적인 L1 사이클 대기 시간을 4사이클에서 3사이클로 줄이는 로드-로드 캐스케이드 메커니즘을 포함했습니다. M4 코어는 또한 CPU 코어에서 메모리 컨트롤러로 직접 연결되는 새로운 인터페이스를 갖춘 경로 우회를 도입하여 상호 연결을 통한 트래픽을 방지했습니다. 에 따르면 아난드테크, 이는 출판물이 Exynos 9820으로 측정할 수 있었던 더 큰 대기 시간 개선 중 일부를 설명합니다. Exynos M5는 상호 연결과 캐시 태그 모두에 동시에 요청을 발행하는 추측 캐시 조회 우회를 도입했습니다. 이렇게 하면 메모리 요청이 진행 중일 때 캐시 누락이 발생할 경우 대기 시간이 절약될 수 있습니다. 평균 로드 대기 시간도 M1의 14.9사이클에서 M6의 8.3사이클로 세대를 거치면서 지속적으로 개선되었습니다.

위의 마이크로아키텍처적 특성은 상당히 기술적이지만, CPU 매니아라면 MHz당 명령을 의미하는 IPC(Instructions Per Clock)라는 용어에 익숙할 것입니다. 단일 스레드 CPU 성능의 성능(단일 스레드 CPU 성능을 결정하는 주요 주요 요소이며, 다른 요소는 CPU의 클럭 속도입니다. 핵심). 정수 IPC와 부동 소수점 IPC는 모두 IPC의 결정 요소입니다. SARC 팀은 M1에서 M6까지 연간 평균 20%의 개선을 달성했습니다. 특히 M3는 다른 요인으로 인해 실망스러웠지만 IPC에서 큰 비율의 개선을 나타냈습니다. Exynos M5는 IPC가 15~17% 개선된 반면, 미출시된 Exynos M6는 IPC가 개선되었습니다. M1의 평균은 2.71로 M1의 1.06보다 20% 향상된 것으로 나타났습니다. M5.

논문 발표자인 브라이언 그레이슨(Brian Grayson)은 Q&A 세션에서 프로그램 취소에 대한 질문에 답변했습니다. 그는 팀이 각 세대의 성과와 효율성 향상을 위해 항상 목표와 일정을 준수해 왔다고 말했습니다. (이것은 목표가 애초에 충분히 높지 않았다는 것을 의미합니까?). 반면에 팀의 가장 큰 어려움은 미래에 대해 극도로 조심한다는 점이었습니다. 팀이 처음부터 시작하거나 완전히 다시 작성할 수 있는 리소스가 없었기 때문에 디자인을 변경했습니다. 차단하다. 돌이켜보면 팀은 과거에 일부 디자인 방향에 대해 다른 선택을 했을 것입니다. 이와는 대조적으로 ARM에는 실제로 서로 경쟁하는 여러 위치에서 작업하는 여러 CPU 팀이 있습니다. 이를 통해 다음과 같은 "근본적인 재설계"가 가능해졌습니다. 피질-A76. 그만큼 피질-A77 Cortex-A78은 A76의 직접적인 후속 제품입니다.

SARC 팀은 가상의 Exynos M7과 같은 향후 코어에 대한 개선 아이디어를 가지고 있었습니다. 그러나 맞춤형 코어 프로그램을 취소하기로 결정한 사람은 삼성의 매우 고위 인사였던 것으로 추정됩니다. 처럼 아난드테크 참고로, 맞춤형 코어는 특정 세대의 ARM CPU에 비해 ​​전력 효율성, 성능 및 면적 사용량(PPA) 측면에서 경쟁력이 없었습니다. 지난달 ARM은 새로운 기능을 갖춘 Cortex-X Custom 프로그램을 발표했습니다. Cortex-X1, 2021년 모바일 장치를 위한 차세대 코어입니다. Cortex-A PPA 한계를 깨고 대신 절대적인 성능을 추구한다는 디자인 철학이 있습니다. 따라서 Exynos M6는 경쟁에서 힘든 시간을 보냈을 것입니다. 그럼에도 불구하고 삼성은 Cortex-X1을 채택하지 않고 Exynos 992에서 Cortex-A78 + Cortex-A55 콤보만 사용할 것으로 보입니다. 하지만 내년 갤럭시 S 플래그십에 채택될 수도 있습니다.

SARC 팀은 현재도 삼성 시스템 LSI를 위한 맞춤형 상호 연결과 메모리 컨트롤러를 설계하고 있습니다. 커스텀 GPU 아키텍처도 작업 중이었지만 삼성시스템 LSI AMD와 계약을 체결했습니다 2021년부터 향후 Exynos GPU에 AMD의 차세대(차세대 그래픽 아키텍처) RDNA GPU 아키텍처를 사용합니다.

전반적으로 맞춤형 CPU 코어 프로젝트는 모바일 칩 공급업체에게 무엇이 잘못될 수 있는지에 대한 계몽적인 교훈이었습니다. SARC CPU 팀은 모바일 CPU 분야의 확실한 선두주자인 Apple과 경쟁하겠다는 큰 야망을 갖고 있었습니다. 불행하게도 ARM과의 경쟁에는 실패했습니다. Apple은 신경쓰지 마세요. 문제는 해결될 수도 있었지만 해마다 SARC의 노력은 한두 단계 뒤쳐졌습니다. 이는 Samsung Galaxy S9의 Exynos 9810 변형과 같은 배송 제품에 부정적인 영향을 미쳤습니다. 이제 모든 주요 Android 모바일 칩 공급업체는 2021년부터 ARM의 기본 CPU IP를 사용하게 되며 이 목록에는 Qualcomm, Samsung, MediaTek 및 HiSilicon이 포함됩니다. 처음부터 설계된 맞춤형 ARM 코어가 아닌 Cortex-X1과 같은 코어를 사용하여 Apple과 경쟁하게 될 것입니다.


원천: 삼성 엑시노스 CPU 아키텍처의 진화 | 을 통해: 아난드테크