Qualcomm의 Snapdragon 845에는 강력한 기계 학습 칩이 내장되어 있습니다. Hexagon 685 DSP라고 하며 AI 하드웨어에서 큰 진전을 이루었습니다.
Qualcomm Snapdragon 제품군의 최신 시스템 온 칩인 Snapdragon 845는 강력한 프로세서입니다. 빠른 CPU 코어, 3세대 Spectra 이미지 신호 프로세서(ISP), 이전 세대보다 전력 효율이 30% 향상된 아키텍처를 자랑합니다. 그러나 아마도 가장 인상적인 구성 요소는 인공 지능과 기계 학습을 위해 맞춤 제작된 보조 프로세서인 Hexagon 685 DSP입니다.
Qualcomm의 Hexagon 685 DSP가 작동하는 이유는 무엇일까요?
"벡터 수학은 딥러닝의 기초입니다." - Travis Lanier, Qualcomm 제품 관리 부문 수석 이사
Hexagon DSP를 그토록 독특하게 만드는 이유를 이해하려면 AI가 수학 대학 공학 전공자들에게 친숙한 종류에 의해 주도된다는 것을 아는 것이 도움이 됩니다. 기계 학습에는 대규모 벡터를 사용한 계산이 포함되며 이는 스마트폰, 태블릿 및 PC 프로세서에 어려운 문제입니다. 범용 칩이 확률적 경사하강법(AI 기반 앱의 핵심인 알고리즘 종류)과 같은 알고리즘을 빠르고 효율적으로 계산하는 것은 어렵습니다. Qualcomm의 Hexagon DSP는 이 문제를 부분적으로 해결하기 위해 도입되었습니다. 이미지 및 센서 데이터, 특히 사진을 처리하는 데 탁월합니다.
그러나 Hexagon DSP는 셀카를 멋지게 꾸미는 것 이상의 기능을 갖추고 있습니다. 포함된 HVX 컨텍스트(나중에 자세히 설명)는 범용 프로세서와 고정 기능 코어의 이점을 모두 제공합니다. Hexagon 685 DSP는 온디바이스 머신 러닝의 수학 계산에 탁월한 효율성을 제공하면서도 더욱 프로그래밍 가능한 프로세서의 유연성을 유지합니다.
'신경 처리 장치'라고도 불리는 Hexagon 685 DSP와 같은 AI 칩은 "신경 엔진" 또는 "기계 학습 코어"는 AI 알고리즘의 수학적 특성에 맞게 특별히 맞춤화되었습니다. 필요합니다. 이는 기존 CPU보다 설계가 훨씬 더 엄격하며 특별한 지침과 배열을 포함합니다(Hexagon 685 DSP의 경우, 앞서 언급한 HVX 아키텍처)는 대규모로 눈에 띄는 특정 스칼라 및 벡터 연산을 가속화합니다. 구현.
Snapdragon 845의 Hexagon 685 DSP는 평균 CPU 코어의 사이클당 수백 비트에 비해 처리 사이클당 수천 비트의 벡터 단위를 처리할 수 있습니다. 그것은 의도적으로 설계된 것입니다. VLIW(Very Long Instruction Word) 작업과 다중 HVX 컨텍스트를 위한 4개의 병렬 스칼라 스레드를 갖춘 DSP는 다음과 같습니다. 단일 명령으로 여러 실행 단위를 저글링하고 정수 및 고정 소수점 십진수를 통해 엄청난 양의 작업을 수행할 수 있습니다. 운영.
원시 MHz를 통해 성능을 향상시키는 대신 Hexagon 685의 설계는 감소된 클럭 속도에서 사이클당 높은 수준의 작업을 목표로 합니다. 여기에는 VLIW에 잘 작동하는 하드웨어 멀티스레딩이 포함되어 있습니다. 멀티스레딩은 파이프라인 대기 시간을 숨겨 VLIW 패킷의 활용도를 높여줍니다. DSP의 멀티스레딩은 다중 오프로드 세션(예: 오디오, 카메라, 컴퓨터 비전 등 다양한 작업을 동시에 가속화하여 애플리케이션이 경쟁할 필요가 없도록 합니다. 실행 시간.
하지만 이것이 Hexagon DSP의 유일한 강점은 아닙니다. ISA(명령어 세트 아키텍처)는 다음과 같은 덕분에 기존 VLIW보다 향상된 효율성을 자랑합니다. 제어 코드가 개선되었으며 유휴 및 정지 상태에서 성능을 복구하기 위해 영리한 트릭을 사용합니다. 스레드. 또한 지연 시간이 없는 라운드 로빈 스레드 스케줄링을 구현합니다. 즉, DSP 스레드는 이전 데이터 패킷을 완료한 후 즉시 새로운 명령을 처리합니다.
분명히 말하면 이 중 새로운 것은 없습니다. Qualcomm은 '1세대'(또는 적절한) Hexagon DSP(Hexagon 680 또는 QDSP6 v6)를 출시했습니다. 2015년 Snapdragon 820과 함께 Hexagon 680이 뒤를 이어 약간 개선되었습니다. 육각형 682. 그러나 최신 세대는 가장 정교하며 Snapdragon 835의 DSP보다 최대 3배 향상된 전체 성능을 제공합니다.
이는 이미지 처리(증강 현실, 컴퓨터 비전, 비디오 및 사진 등)에 매우 효과적이었던 HVX 덕분이었습니다. DSP의 HVX 레지스터는 스칼라 레지스터 중 두 개로 제어할 수 있으며 HVX 장치와 스칼라 장치를 동시에 사용할 수 있어 상당한 성능 향상과 동시성을 얻을 수 있습니다.
여기 퀄컴의 설명:
“제어 코드 모드에서 모바일 CPU에서 처리 중이고 보조 프로세서에서 계산 모드로 전환한다고 가정해 보겠습니다. 제어 코드가 필요하면 중지하고 보조 프로세서에서 메인 CPU로 돌아가야 합니다. Hexagon을 사용하면 DSP의 제어 코드 프로세서와 HVX의 계산 코드 프로세서가 동시에 실행되어 제어 코드와 계산 코드를 긴밀하게 결합할 수 있습니다. 이를 통해 DSP는 HVX 계산 결과를 가져와 다음 클록 사이클의 제어 코드 결정에 사용할 수 있습니다.”
HVX는 이미지 센서 처리에 또 다른 큰 이점을 제공합니다. Hexagon 685 DSP가 탑재된 Snapdragon 장치는 장치의 DDR 메모리 컨트롤러를 우회하여 이미징 센서에서 DSP의 로컬 메모리(L2 캐시)로 직접 데이터를 스트리밍할 수 있습니다. 물론 대기 시간이 줄어들 뿐만 아니라 배터리 수명도 향상됩니다. Snapdragon 프로세서는 작업 내내 유휴 상태로 설계되었습니다.
이는 16비트 부동 소수점 네트워크에 특별히 최적화되었으며 Qualcomm의 기계 학습 소프트웨어인 Snapdragon 신경 처리 엔진에 의해 제어됩니다.
Qualcomm 대변인은 “우리는 이 문제를 매우 심각하게 받아들였습니다.”라고 말했습니다. "우리는 지난 3년 동안 파트너와 협력하여 AI 및 이미징에 [...] 실리콘을 활용하도록 했습니다."
예를 들어 이러한 파트너에는 Hexagon DSP의 이미지 처리 부분을 사용하여 Pixel 및 Pixel 2의 HDR+ 알고리즘을 구동한 Google이 포함됩니다. Google도 자체 Pixel Core를 출시했지만 Hexagon 685 DSP 지원 장치가 최고의 제품이라는 점은 주목할 가치가 있습니다. 부분적으로는 HVX 때문에 유명한 Google 카메라 포트로 최상의 결과를 볼 수 있습니다. 이용. 또 다른 파트너인 Facebook은 Qualcomm과 긴밀히 협력하여 메신저의 실시간 카메라 필터 및 효과를 가속화했습니다.
Oppo는 Hexagon 685 DSP에 맞게 얼굴 잠금 해제 기술을 최적화했으며 Lenovo는 이를 중심으로 랜드마크 감지 기능을 개발했습니다.
플랫폼이 풍부한 지원을 제공하는 이유 중 하나는 단순성입니다. Qualcomm의 광범위한 Hexagon SDK는 고성능 이미지 처리를 위해 Halide 언어를 지원하므로 그럴 필요가 없습니다. 기계 학습 훈련 프레임워크에 대해 걱정할 필요가 없습니다. 대부분의 경우 모델 구현은 API 호출만큼 간단합니다. 사례.
Qualcomm은 XDA Developers에 "우리는 [...] AI 분야에서 IBM 및 Nvidia와 경쟁하지는 않지만 개발자가 활용할 수 있는 영역이 있고 이미 가지고 있습니다."라고 말했습니다.
육각형 대 경쟁
Snapdragon 845의 Hexagon 685 DSP는 점점 더 많은 OEM(Original Equipment Manufacturer)이 자체적으로 모바일 및 온디바이스 AI 솔루션을 추구함에 따라 출시되었습니다. 화웨이의 기린 970 -- 내부의 시스템 온 칩 메이트 10 그리고 메이트 10 프로 -- 평균 스마트폰 CPU 전력 소비의 50분의 1에 불과한 전력으로 초당 2,000개 이상의 이미지를 인식할 수 있는 '신경 처리 장치'(NPU)가 있습니다. 그리고 iPhone 8, iPhone 8 Plus 및 iPhone X에 탑재된 Apple A11 Bionic 시스템 온 칩에는 실시간 얼굴 모델링과 초당 최대 6000억 번의 작업을 수행하는 "신경 엔진"이 탑재되어 있습니다.
그러나 Qualcomm은 Hexagon의 플랫폼 불가지론이 이점을 제공한다고 말합니다. 주로 개발자에게 독점 API 사용을 강요하는 Apple 및 Huawei와 달리 Qualcomm은 처음부터 가장 인기 있는 오픈 소스 프레임워크 중 일부를 지원하려고 했습니다. 예를 들어 Google과 협력하여 최적화했습니다. 텐서플로우, Hexagon 685 DSP를 위한 Google의 기계 학습 플랫폼 - Qualcomm은 이 플랫폼이 Hexagon이 아닌 장치보다 최대 8배 더 빠르고 전력 효율적으로 25배 더 효율적으로 실행된다고 밝혔습니다.
Qualcomm의 DSP 아키텍처에서는 Google의 GoogLeNet 개시 심층 신경망 -- 객체 감지 및 분류 시스템의 품질을 평가하도록 설계된 기계 학습 알고리즘 -- 데모에서 입증된 이점 두 대의 스마트폰에 TensorFlow 기반 이미지 인식 앱 1개: 하나는 CPU에서 앱을 실행하고 다른 하나는 Qualcomm의 Hexagon에서 실행 DSP. DSP 가속 스마트폰 앱은 초당 더 많은 이미지를 캡처하고, 물체를 더 빠르게 식별했으며, CPU 전용 앱보다 물체가 무엇인지에 대한 결론에 더 높은 확신을 가졌습니다.
Google은 또한 Hexagon 685 DSP를 사용하여 스마트폰용 증강 현실 플랫폼인 Project Tango를 가속화합니다. Lenovo의 Phab 2 Pro, Asus의 ZenFone AR 및 Tango의 깊이 감지 IR 모듈과 이미지 추적 카메라를 탑재한 기타 장치는 Qualcomm의 Snapdragon 칩셋의 Hexagon 685 DSP, 센서 허브 및 이미지 신호 간의 처리 작업을 위임하는 이기종 처리 아키텍처 프로세서(ISP). Qualcomm에 따르면 그 결과 SoC(System-on-Chip) CPU의 오버헤드가 "10% 미만"이라고 합니다.
Qualcomm 대변인은 "우리가 아는 한, 우리는 성능과 전력 효율성을 최적화하는 유일한 모바일 업체입니다."라고 말했습니다.
물론 경쟁사들도 영향력 영역을 확장하고 플랫폼에 대한 개발자 지원을 촉진하기 위해 노력하고 있습니다. TensorFlow를 지원하는 Kirin 970의 신경 칩 출시 카페 (Facebook의 개방형 API 프레임워크) Huawei의 Kirin API 외에도 텐서플로우 라이트 그리고 카페2 올해 말에 통합이 진행 중입니다. 그리고 Huawei는 Microsoft와 협력하여 Mate 10용 AI 기반 번역기를 최적화했습니다.
하지만 Qualcomm에는 또 다른 장점이 있습니다. 바로 Reach입니다. Strategy Analytics에 따르면 칩 제조업체는 2017년 상반기 스마트폰 칩 시장의 42%를 점유했으며, Apple과 MediaTek이 각각 18%를 차지했습니다. 아직은 부츠가 흔들리지 않는다고 말하면 충분합니다.
그리고 Qualcomm은 이 시장이 계속해서 성장할 것으로 예측하고 있습니다. 칩 제조업체는 컴퓨터 비전과 같은 AI 소프트웨어 기술을 통해 2025년까지 1,600억 달러의 매출을 올릴 것으로 예상하고 있습니다. 2021년까지 86억 대의 출하량을 기록할 것으로 예상되는 스마트폰 시장을 최대 규모로 보고 있습니다. 플랫폼.
Hexagon 685 DSP 및 기타 "3차" 개선 사항이 지속적으로 다운스트림에서 미드레인지로 나아가고 있습니다. 하드웨어를 사용하면 Qualcomm 칩이 가까운 모든 종류의 장치에 온디바이스 머신러닝을 적용하는 것도 더 쉽습니다. 미래. 또한 개발자가 애플리케이션과 서비스에서 Hexagon 685 DSP 및 HVX를 활용할 수 있도록(DSP 어셈블리 언어를 조작할 필요 없음) 편리한 SDK를 제공합니다.
Qualcomm 대변인은 “신경 처리를 위한 전용 처리 장치가 필요하지만 [오픈 소스] 프레임워크를 지원하려면 이를 확장해야 합니다.”라고 말했습니다. "그 생태계를 만들지 않으면 [...] 개발자가 생태계를 만들 수 있는 방법이 없습니다."