인터뷰: Snapdragon 855의 Kryo 485 및 Hexagon 690에 대한 Qualcomm

Qualcomm의 Travis Lanier는 XDA와 함께 Snapdragon 855 모바일 플랫폼의 Kryo 485 CPU에 대한 인터뷰와 Hexagon 690 DSP 마케팅에 대해 이야기했습니다.

지난달 퀄컴은 스냅드래곤 855 모바일 플랫폼. 스냅드래곤 855는 2019년 대부분의 안드로이드 플래그십 스마트폰을 구동할 모바일 플랫폼입니다. Qualcomm은 차세대 모바일 플랫폼을 통해 해마다 상당한 개선을 이루었습니다. Snapdragon 855 모바일 플랫폼은 7nm 제조 공정을 기반으로 구축되었으며 Snapdragon 845에 비해 CPU 성능이 45%나 향상되었습니다. 전반적인 컴퓨팅 개선으로 Qualcomm은 새로운 Snapdragon 855에서 탁월한 AI 성능을 자랑할 수 있습니다. 여기에는 풀어야 할 정보가 많이 있으며 우리는 이를 보여주기 위해 최선을 다했습니다. Qualcomm이 어떻게 성능과 AI를 향상시켰나요? 스냅드래곤 855에. 하지만 제품을 공개한 후에도 여전히 궁금한 점이 있어서 Travis Lanier 수석과 함께 자리를 잡았습니다. Qualcomm의 제품 관리 이사가 Qualcomm의 새로운 모바일에 탑재된 Kryo 485 CPU 및 AI에 대해 이야기합니다. 플랫폼.


마리오 세라페로: "45% [점프], 역대 최대치 같아요. 그것을 풀어보자. 우리는 A76 기반, 7nm를 보유하고 있는데 이는 큰 기여를 하고 있습니다. 여러분이 커스텀 코어에서 멀어진 이후로 일부 출판물과 청중이 ARM 기반 라이센스가 허용할 수 있는 측면에서 무엇을 수반하는지에 대한 단서가 많지 않았습니다. 당신은 할 수 있습니다. 당신은 그것이 무엇을 의미하는지에 대해 꽤 비밀스러웠어요. 이제 Q&A를 넘어 처음으로 무대에 오셨습니다. 하지만 처음으로 몇 가지 개선 사항이 무엇인지 보여주셨는데 정말 멋지네요. 그래서 우리는 Qualcomm이 Kryo 485를 조정하여 더 많은 성능을 활용한 방법을 확장하고 싶은지 궁금합니다. ARM의 기반, 거기에 노출한 내용을 확장하는 것이든, 발표하지 않은 것을 확장하는 것이든요."

트래비스 래니어: "그래서 내 슬라이드에 있는 다른 내용보다 더 많은 것을 말할 수는 없습니다. 아마도 미래에는 그렇게 할 수 있을 것입니다. 그래서 우리는 앉아서 실제로 작업을 수행한 전문가들을 만날 수 있을 것입니다. 나는 높은 수준의 논점을 알고 있습니다. 하지만 아시다시피 A76은 이미 수준 높은 디자인으로 꽤 괜찮습니다. 그리고 이것이 ARM의 로드맵을 본 이유 중 하나입니다. 그래서 저는 이 사람들과 더 긴밀히 협력해야 한다고 생각합니다. 왜냐하면 이 사람들이 매우 강해 보였기 때문입니다. 그리고 커스터마이징과 ARM에 대한 귀하의 의견으로 돌아가 보겠습니다. 좋습니다. 여러분이 할 수 있는 일이 모두 있습니다. 그리고 만약 당신이 뭔가를 하고 있고 차별화가 필요하다면, 당신은 100% 무언가를 하거나 그들과 협력할 수 있습니다. 그리고 지난 몇 년과 마찬가지로 우리는 통합에 대해 조금 더 중점을 두고 있습니다. 그래서 버스와 시스템 연결 방법, CPU에 넣은 보안 기능, 캐시 구성 등이 있습니다. 이제 참여 기간이 길어졌으므로 이에 대해 더 심층적인 사용자 정의를 수행할 수 있었습니다. 이것이 바로 우리가 더 큰 [비순차적] 실행 창과 같은 일부 항목을 거기에 넣을 수 있었던 방법입니다. 비행 중 지시, 데이터 미리 가져오기는 실제로 마이크로프로세서 업계에서 가장 혁신이 진행되고 있는 분야 중 하나입니다. 지금 바로. 이러한 많은 것들에 대한 많은 기술은 꽤 유사합니다. 요즘에는 모두 TAGE 분기 예측기를 사용합니다. 얼마나 큰 규모로 프로비저닝하는지에 따라 사람들은 더 큰 캐시를 위해 비순차적 작업, 전달 및 모든 작업을 수행하는 방법을 알고 있습니다. 하지만 미리 가져오는 것에는 여전히 많은 것이 있습니다. 그것은 어두운 예술 유형의 것 중 하나입니다. 따라서 해당 분야에는 여전히 많은 혁신이 진행되고 있습니다. 그래서 그것은 우리가 도울 수 있다고 느꼈던 것입니다.

그리고 우리가 일반적으로 더 나은 일을 한다고 느끼기 때문에... 일반적으로 우리는 다른 사람들이 프로세스 노드를 통합하는 것보다 더 빠르게 설계를 구현할 수 있습니다. 그래서 우리가 거기에 이런 것들을 추가하면, 예를 들어 더 이상 순서가 바뀌면 디자인에 더 많은 스트레스가 가해지게 됩니다. 그렇죠? 거기에 이러한 모든 실행 항목을 추가하는 것은 무료가 아닙니다. 그래서 그렇게 할 수 있고, 당신에게 타격을 주지 않으려면 fmax. 네, 그게 우리가 ARM과 맺고 있는 협력의 일부입니다. 예를 들어 어떻게 ARM을 이끌어내나요?"

마리오 세라페로: "그저 호기심에서, 프레젠테이션에서 효율성 향상에 관해 이야기하셨는데요. 사전 가져오기에서 전력 효율성, 성능 개선, 약간의 둘 다?"

트래비스 래니어: "모든것 위에. 따라서 본질적으로 우리는 미리 가져오기를 수행하고 있습니다. 즉, 캐시에서 항목을 가져온 것입니다. 따라서 캐시가 많은 메모리 액세스를 수행하지 않는 경우 이제 프리페칭의 반대 측면이 있습니다. 프리페칭을 너무 많이 수행하면 더 많은 메모리를 [사용]하게 됩니다. 알다시피, [당신은] 추측에 의한 프리페칭을 너무 많이 하고 있습니다. 하지만 당신이 뭔가를 가지고 있고 올바른 것을 가져오고 있다면 그것을 가져오기 위해 메모리로 나가지는 않을 것입니다. 거기. 따라서 보다 효율적인 프리페처를 사용하면 전력을 절약하고 성능을 높일 수 있습니다."

마리오 세라페로: "알았어, 알았어, 알았어. 응, 그 이상으로 훨씬 더 확장할 수 있을 거라고는 기대하지 않았는데, 그렇게 말하면 흥미롭다. 이제 여러분은 더 많은 것을 사용자 정의하고 있으며 앞으로 더 많은 것을 공유할 수 있을 것입니다. 그러면 저는 계속 지켜보겠습니다. 그래서 적어도 내 주변 사람들 사이에서는 다른 종류의 머리를 돌리는 사람이 주요 핵심입니다. 그래서 우리는 DynamIQ를 포함하면서 몇 년 동안 좀 더 유연한 클러스터 배열을 기대하고 있었고 다른 회사들도 4+4 배열에서 멀어질 것으로 예상했습니다. 그럼 두 가지 질문이 있습니다. 프라임 코어의 동기는 무엇이었나요? 독자들이 왜 거기에 고독한 코어가 있고 왜 고독한 코어가 아닌지 알고 싶어하기 때문에 프라임 코어가 사용자 경험에 어떤 이점을 제공합니까? DynamIQ를 사용하고 그 자체로 앉아 있는 경우 얻을 수 있는 유틸리티 중 일부를 성능 클러스터와 공유하면 얻을 수 있는 유틸리티가 줄어들지 않을까요?"

트래비스 래니어: "그럼 먼저 다양한 클록과 다양한 전압 평면에 대해 이야기해 보겠습니다. 따라서 시계를 추가할 때마다, 전압을 추가할 때마다 비용이 발생합니다. 따라서 패키지에 배치하는 핀 수에는 제한이 있고, 다양한 클럭에 대해 더 많은 PLL이 필요하며 복잡성이 증가합니다. 따라서 일을 하는 데는 트레이드오프가 있습니다. 우리는 어느 시점에서 극단적으로 나아갔습니다. 우리는 4개의 서로 다른 시계에 4개의 서로 다른 도메인을 가지고 있었기 때문에 이에 대한 경험이 있었고 비용이 많이 들었습니다. 당신이 커지기 시작할 때의 종류. 조금, 작은 클러스터에 작은 코어가 있고, 말하자면 작은 코어 사이에 별도의 클럭이 필요하지 않습니다. 예, 당신이 그걸로 무엇을 하는지는 공중에 떠 있습니다. 그래서 큰 일이 있을 때. 작은 시스템, 반대로 이러한 큰 코어가 있습니다. 글쎄요, 그것들을 각각 큰 시계에 붙이나요? 글쎄요, 실제로 비어 있는 시계가 작은 코어에서 실행될 정도로 충분히 낮은 상황에 있다면 항상 그런 것을 실행하는 것은 아닙니다. 그래서 실제로는 두 가지면 충분합니다.

그런 다음 이 프라임 코어가 있는 곳에 도달합니다. 더 높은 주파수까지 실행할 수 있는 별도의 클럭 코어가 있습니다. 그러나 다른 성능 클러스터인 이러한 다른 코어는 동일한 고주파수까지 올라갈 수 없습니다. 따라서 해당 코어에 대한 전체 권한을 얻으려면 해당 코어에 대한 세 번째 클럭이 있어야 합니다. 그렇다면 이 코어는 무엇을 하는가? 우리는 그것에 대해 조금 다루었습니다. 가장 중요한 것은 앱 실행기와 웹 검색이 될 것입니다. 그렇다면 왜 코어가 하나뿐일까요? 이제 상황은 점점 더 멀티스레드화되고 있습니다. 예를 들어, 게임 엔진(잠시 후에 다시 설명하겠습니다)은 더 많은 스레드를 향해 매우 공격적으로 움직이고 있습니다. 하지만 대부분의 앱을 보면 스레드가 여러 개 있더라도 파레토 규칙을 사용합니다. 대부분의 앱과 마찬가지로 로드의 80%가 하나의 스레드에 있습니다. 따라서 앱을 실행하면 8개 코어 모두에서 앱이 실행되고 켜질 수 있습니다. 그러나 그 중 80%가 하나의 주요 스레드, 즉 하나의 코어에 있을 가능성이 높습니다. 웹 브라우징은 여전히 ​​기본적으로 JavaScript입니다. 웹 브라우징은 다중 이미지를 보유하고 이를 디코딩할 수 있는 멀티스레딩을 통해 조금 더 나아졌습니다. 그러나 예를 들어 JavaScript는 단일 스레드가 하나의 코어에서 실행됩니다. 따라서 실제로 높은 성능을 발휘하는 이 하나의 코어를 사용하면 이점을 얻을 수 있는 사용 사례가 많이 있습니다.

이제 3개의 코어가 더 낮은 주파수에서 약간 실행되지만 전력 효율성도 더 높습니다. 예를 들어, 여러분이 코어 구현에 대해 얼마나 알고 있는지는 모르겠지만 주파수의 최고 수준에 도달하기 시작할 때마다 이러한 코어의 구현에는 전력의 균형이 있으며, 마지막 몇 메가헤르츠 또는 기가헤르츠에서 상황이 기하급수적으로 증가하기 시작합니다. 가지다. 네, 그리고 제가 조금 전에 이야기한 바에 따르면 모든 게임이 멀티스레드화되기 시작했습니다. 갑자기 돌이켜보면 얼마 전에도 게임이 몇 개 있었는데, 그냥 한 개만 사용하고 있는 것 같아요. 실. 하지만 업계가 얼마나 빨리 변할 수 있는지 이상합니다. 지난 1년, 1년 반 동안처럼 그들은 말 그대로 이 모든 게임을 게임에 넣기 시작했습니다. 저는 이 높은 충실도의 게임에 흥미를 느꼈습니다. 그래서 6개월에서 1년 전과 같은 많은 것들이 실제로 중국 전체를 뒤집어 놓았습니다. 중국에서는 "나는 큰 코어에는 별로 관심이 없습니다. 무엇이든 8개 주세요. 8개만 주세요." 8개의 코어를 가질 수 있도록 가장 작은 코어가 필요합니다." 그들은 이러한 게임을 원하기 때문에 변화했습니다. 큰 코어. 그리고 이제 우리는 앞으로 나올 모든 고급 게임 때문에 "아니요, 실제로는 4개의 대형 코어를 원합니다"라는 피드백을 파트너로부터 받고 있습니다. 그리고 그들은 이 모든 코어를 사용할 것입니다.

따라서 게임을 할 때 30초 동안 게임을 하지 않고, 5분 동안 게임을 하면 더 오랫동안 게임을 하게 됩니다. 따라서 대부분의 멀티스레드 대형 코어 사용 사례에는 이 세 개의 다른 코어가 있으며 전력 효율성을 조금 더 원한다는 것이 합리적입니다. 그것은 일종의 균형을 이루고 있습니다. 일부 내에서 이러한 작업에 필요할 때 더 높은 성능의 코어를 갖게 됩니다. 이러한 지속적인 사례 중 큰 코어도 있고 전력 효율이 더 높은 솔루션을 사용할 수 있는 경우 저것. 그것은 일종의 생각입니다. 그것은 일종의 특이한 대칭입니다. 하지만 그것이 왜 프라임 코어가 있고, 왜 별도의 클럭이 없고, 별도의 전압이 없는지에 대한 답이 되었기를 바랍니다. 그래서 그 모든 것을 건드린 것 같아요."

Kryo 485 CPU 코어 구성. 출처: 퀄컴.

마리오 세라페로: "이제 이기종 컴퓨팅이 필요합니다. 퀄컴이 기존 브랜드에서 모바일 플랫폼으로 전환하면서부터 강조해온 점은 바로 이것이다. 그런 종류의 설명자, 그리고 다음과 같은 특정 성능 지표를 설명하는 블록을 집계합니다. 일체 포함. 보다 이기종적인 컴퓨팅 접근 방식으로 전환하는 과정에서 이러한 발전이 어떻게 이루어졌습니까? 디자인부터 실행, 마케팅까지 손댈 수 있는 모든 것."

트래비스 래니어: "약간 앞뒤로 움직입니다. 하지만 결국 모바일 게임의 핵심은 전력 효율성이기 때문에 이러한 엔진을 보유해야 합니다. 이제는 가끔씩 일반화로 돌아가는 것을 볼 수 있습니다. 원래대로 돌아가면 스마트폰이라도 피처폰에는 멀티미디어와 카메라가 있었다. 어느 정도의 능력을 갖고 있기 때문에 그들은 이 모든 작은 헌신적인 것들을 가지고 있습니다. 해. ARM 9 또는 ARM 7을 기반으로 구축된 전화기로 돌아가면 모든 것에 대한 하드웨어 가속 위젯이 있었습니다.

하지만 일반적으로 진행된 후 다시 하드웨어를 요구하는 예를 들면 JPEG가 될 것입니다. JPEG 가속기가 있었습니다. 결국 CPU는 충분히 좋아졌고 전력 효율성도 충분히 향상되었으며 JPEG는 여전히 최고 수준을 유지했습니다. 같은 크기입니다. 아시다시피 CPU에서 수행하는 것이 더 쉽기 때문에 CPU에서 수행하겠습니다. 그것. 이제 사진이 점점 더 커지면서 갑자기 사람들이 모여들고 있습니다. 실제로 저는 이 엄청난 사진 파일 크기가 가속화되기를 바랍니다. CPU는 속도가 충분하지 않거나 전력을 너무 많이 소모합니다. 잠재적으로 JPEG 가속기를 다시 사용하는 데 갑자기 관심이 생겼습니다. 따라서 일이 어떻게 진행되는지가 항상 직선은 아닙니다. 그렇다면 무어의 법칙을 통해 지금 무슨 일이 일어나고 있는지 살펴봐야 합니다. 다들 계속 얘기하는데, 야, 너 안 죽었을 수도 있지만, 조금씩 느려지고 있는 거 맞지? 그렇다면 다음 노드 각각에서 성능 향상이나 성능 향상을 얻지 못하는 경우, 오버헤드가 없다면 어떻게 전화기에 더 많은 기능을 계속 추가할 수 있을까요? 그래서 그냥 CPU에 올려놓으면 됩니다. 하지만 CPU에 더 많은 여유 공간이 없다면 어떻게 이러한 작업을 가속화할 수 있을까요? 대답은 이러한 모든 특수 코어와 것들을 더 효율적으로 배치한다는 것입니다. 그래서 그것은 자연스러운 긴장입니다.

모든 사람이 최첨단에 있는 것은 아니기 때문에 사람들이 공통 기능을 위해 이러한 작업을 수행하도록 강요받는 것을 보게 될 것입니다. 하지만 우리는 가능한 한 오랫동안 그곳에 머물려고 노력할 것입니다. 그러나 반드시 다음 노드가 아닌 경우 팹을 다음 노드로 이동하도록 강요할 수는 없습니다. 따라서 더 나은 성능과 전력 효율성을 계속해서 얻으려면 지속적인 혁신과 이러한 아키텍처에 집중해야 합니다. 이것이 바로 우리의 강점이자 배경이다."

마리오 세라페로: "이러한 이기종 컴퓨팅으로의 전환이 있었지만 Qualcomm 측에서는 많은 청중과 확실히 많은 출판물이 있었습니다. 놀랍게도, 더 잘 알 것이라고 생각하는 많은 매니아들은 여전히 ​​블록을 별개로 생각하고, 고려하고, 평가합니다. 엔터티. 그들은 여전히 ​​“CPU 수치가 신경 쓰이기 때문에 보고 싶다”는 데 집중한다. 그들은 게임 등을 좋아하기 때문에 GPU 수치를 보고 싶어합니다. 그들은 그것들을 하나의 통합 제품의 전달된 부분으로 간주하지 않습니다. 경쟁업체들이 실제로 마케팅의 특정 블록별 개선에 계속 집중하고 있는 가운데 Qualcomm이 그러한 패러다임을 깨뜨렸으며, 현재도 있고, 깨뜨릴 수 있다고 어떻게 생각하시나요? 구체적으로, [우리는] 나중에 신경 엔진에 관한 신경 네트워크로 넘어갈 것입니다."

트래비스 래니어: "오늘 그 내용 중 일부를 다루었기를 바랍니다. 예를 들어 우리는 지속적인 게임에 중점을 두므로 모든 게임 벤치마크에서 좋은 점수를 얻을 수도 있습니다. 사람들은 그것에 집착합니다. 하지만 실제로 중요한 것은 게임을 플레이할 때 초당 프레임 수가 이러한 항목에 대해 원하는 최고 지점에 일관되게 유지되는지입니다. 내 생각엔 사람들이 이 블록 중 하나에 숫자에 너무 많은 비중을 두는 것 같아요. 너무 힘들고, 무엇이 최고인지 알려주는 하나의 숫자를 알려주고 싶은 마음을 이해합니다. 정말 편리해요. 특히 현재 AI에서는 정말 말도 안 돼요. CPU 벤치마크를 사용하더라도 CPU 벤치마크는 무엇을 측정합니까? 그들은 모두 다른 것을 측정합니다. GeekBench에 여러 하위 구성 요소가 있는 것처럼 벤치마크를 살펴보세요. 혹시 이 하위 구성 요소 중 어느 것이 내가 실제로 하고 있는 일과 가장 관련이 있는지 살펴보는 사람이 있나요?"

마리오 세라페로: "가끔은 그렇죠."

트래비스 래니어: "어쩌면 그럴 수도 있겠네요. 너희들은 이상치 같다. 하지만 아마도 하나의 CPU가 이것에 더 좋고 어쩌면 다른 CPU가 더 나을 수도 있습니다. SPEC도 마찬가지입니다. 사람들은 하나의 SPEC을 강조할 것입니다. 음, 알겠습니다. 그 안에는 다양한 워크로드가 있습니다. 꽤 빡빡한 내용인데 실제로 CPU 개발에 사용하는 SPEC도 실제 작업 부하를 보면 실제로 관련이 있나요? 워크스테이션 작업량을 비교하는 데는 좋지만 정말 휴대폰으로 분자 모델링을 하고 있는 걸까요? 아니요. 하지만 다시 말씀드리지만, 제 요점은 이러한 벤치마크의 대부분이 어떤 면에서는 유용하기는 하지만 무엇을 위한 것인지, 그리고 어떻게 거기에 도달하는지에 대한 맥락을 이해해야 한다는 것입니다. 그래서 하나의 숫자로 정리하는 것이 정말 어렵습니다.

그리고 저는 이것을 특히 봅니다. 저는 여기서 약간 회전하고 있습니다. 그러나 지금 AI에서 이것을 봅니다. 그것은 미친 짓입니다. AI에 대해 하나의 숫자를 얻지 못하는 몇 가지 다른 것들이 있다는 것을 알았습니다. 제가 CPU에 대해 이야기한 만큼 여러분은 다양한 작업 부하를 갖고 있고 하나의 숫자를 얻으려고 노력하고 있습니다. 이런, AI. 매우 다양한 신경망과 다양한 워크로드가 있습니다. 부동 소수점에서 실행 중입니까, int에서 실행 중입니까, 8비트 또는 16비트 정밀도로 실행 중입니까? 그래서 일어난 일은 사람들이 이런 것들을 만들려고 노력하는 것을 보았고, 음, 우리는 이 워크로드를 선택했고, 우리는 그것을 해냈습니다. 부동 소수점이며 이 하나의 네트워크와 다른 두 개의 테스트에 대한 테스트의 50%에 가중치를 부여할 것입니다. 이것. 좋습니다. 실제로 해당 네트워크에서 특정 작업 부하를 사용하는 사람이 있습니까? 실제 응용 프로그램이 있습니까? AI는 매우 빠르게 움직이기 때문에 매력적입니다. 내가 당신에게 말하는 것은 아마도 한두 달 후에는 부정확해질 것입니다. 그래서 그것이 또한 멋진 점이기도 합니다. 왜냐하면 그것이 너무 많이 변하고 있기 때문입니다.

하지만 AI에서 가장 중요한 것은 하드웨어가 아니라 소프트웨어입니다. 모두가 그것을 사용하고 있기 때문에 나는 이 신경망을 사용하고 있습니다. 기본적으로 거기에는 모든 승수가 있습니다. 특정 신경망을 최적화했습니까? 그리고 벤치마크를 위해 하나를 최적화했습니까? 아니면 일부 사람들이 이렇게 말할 수 있도록 최적화했습니까? 내가 초해상도를 측정하는 벤치마크를 만든 것을 알아요. 초해상도에 대한 벤치마크입니다. 일체 포함. 음, 그들은 이 네트워크를 사용하며 부동 소수점으로 수행했을 수도 있습니다. 하지만 우리가 참여하는 모든 파트너는 16비트 및/또는 8비트를 사용하고 다른 네트워크를 사용하여 작업을 수행했습니다. 그러면 이 작업이 그것과 일치하지 않기 때문에 우리가 초해상도에 능숙하지 않다는 뜻인가요? 그래서 내 유일한 요점은 AI 벤치마크가 정말 복잡하다는 것입니다. CPU와 GPU가 복잡하다고 생각하시나요? AI는 정말 미쳤어요."

마리오 세라페로: "그렇습니다. 네트워크 유형이 너무 많고 매개변수화가 너무 많습니다. 매개변수화가 다르면 계산 방식도 달라지게 됩니다."

트래비스 래니어: "평론가들이 계속 바쁘게 지내게 될 것입니다."

마리오 세라페로: "하지만 사물 전체를 측정하려는 경우에는 훨씬 더 어렵습니다. 하지만 응, 아무도 그렇게 하지 않아."

미샤알 라만: "그래서 여러분은 사용 사례에 더 집중하고 있습니다."

트래비스 래니어: "결국 사용 사례를 보여주면 지금 AI가 얼마나 좋은지 알 수 있을 것 같아요. 그것은 소프트웨어에 달려 있으며, 몇 년 안에 조금 더 성숙해질 것이라고 생각합니다. 하지만 지금 당장은 수행해야 할 소프트웨어 작업이 너무 많아서 다음과 같이 변경됩니다. '좋아, 이 네트워크는 뜨겁고 그러면 예를 들어, 내년에 "아, 아니, 이 모든 면에서 더 효율적인 새 네트워크를 찾았습니다."라고 말하면 다시 작업을 수행해야 합니다. 소프트웨어. 정말 미쳤어."

마리오 세라페로: "NN에 대해 말하자면, 당신은 나를 위해 전환을 해줬고, 나에게는 덜 어색한 전환을 생각했습니다. 육각형으로 이동합니다. 이것은 소비자, 심지어 대부분의 열성팬, 확실히 제 동료들조차 가장 잘 이해하지 못하는 구성 요소 중 하나입니다. 특히 AI 블록으로 도입되지 않았고 전체 디지털 신호 처리 아이디어와 비슷하다는 점을 감안할 때 무언가를 도입하면 알 수 있습니다. 그 독창적인 아이디어는 그대로 유지됩니다. 그래서 당신이 뭔가를 하려고 한다면 그것은 신경, 신경, 신경 뇌 지능을 갖춘 신경적인 것입니다. 사람들. 그들은 다른 솔루션에 대한 AI 기계 학습 신경, 신경, 신경 레이블을 보유하고 있습니다. 그래서 우리는 여러분에게 Hexagon DSP의 진화와 여러분이 거기서 벗어나지 않은 이유를 설명할 기회를 주고 싶습니다. 마케팅과는 다른 Hexagon DSP, 벡터 확장 등과 같은 공학적으로 들리는 이름 친숙한. 하지만 네, DSP의 최전선에서 이미징 워크로드 시작부터 완전히 새로운 텐서 가속기까지 어떻게 진행되었는지 빠르게 요약하는 것과 같습니다."

트래비스 래니어: "실제로 우리 경쟁사 중 일부가 실제로 신경 엔진 또는 신경 가속기라고 부르는 것을 갖고 있기 때문에 이는 실제로 흥미로운 점입니다. 실제로는 DSP이고 동일한 것입니다. 그래서 이름이 중요한 것 같지만 중요한 점을 언급하셨는데 솔직히 우리가 이것을 내놓았을 때 그것은 이미징용이었고 우연히 8비트를 지원하게 되었습니다. 그리고 우리가 Hot Chips에서 발표를 하고 있었는데 Google의 Pete Warden이 우리를 추적해서 "야, 너..그럼 너희들은 8비트를 지원하는구나, 응?"이라고 말했던 기억이 납니다. 네, 그렇습니다. 그래서 거기에서 우리는 즉시 나가서 '이봐, 우리는 [이] 프로젝트가 모두 진행 중입니다. 그때 우리는 TensorFlow를 Hexagon으로 포팅했습니다. 왜냐면 우리는 이를 수행하기 위한 8비트 지원 벡터 프로세서가 있고 그것이 우리 Hexagon DSP에 있었기 때문입니다. 다시 한 번 다시 살펴봐야 한다면 아마도 Hexagon Neural Signal Processor라고 부를 것 같습니다. 그리고 우리에게는 여전히 다른 DSP가 있습니다. 스칼라 DSP가 있는데 이것이 진정한 의미의 DSP입니다. 그리고 우리는 이런 종류의 벡터 DSP를 부릅니다. 이름을 바꿔야 할 수도 있고, 신경 신호 처리기라고 불러야 할 수도 있습니다. 왜냐하면 우리 자신이 우리만큼 인정을 받지 않기 때문일 수도 있습니다. 내가 말했듯이 어떤 사람들은 벡터 DSP만 가지고 있고 그것을 무엇이든 부르지만 아무것도 공개하지 않았기 때문에 이렇게 해야 합니다. 그것은. 내가 네 질문에 대답했어?"

육각형 690 개요. 출처: 퀄컴.

마리오 세라페로: "그럼요, 아마 대부분 그럴 거예요."

트래비스 래니어: "두 번째 질문은 무엇이었나요?"

마리오 세라페로: "내부적으로 그런 발전을 어떻게 보셨나요? 경험, 어려움, 도전 등 우리에게 말하고 싶은 것이 무엇이었나요? 이미지 처리 시작부터 텐서 가속기까지의 진화를 어떻게 보셨나요?"

트래비스 래니어: "저를 소름끼치게 만드는 것은 일부 언론이 손을 들고 "Qualcomm, 너 왜 이렇게 뒤쳐졌어!"라고 말하는 것 같아서 조금 답답했어요. 왜 그러지 않았습니까? 언제 전용 신경 신호 프로세서처럼 될 예정입니까?” 그리고 난 그냥 머리를 두드리는 걸 좋아해요. 나는 우리가 벡터 프로세서를 갖춘 최초의 회사인 것 같았습니다! 그러나 우리는 이것을 편집했으며 AI에 대해 더 많이 배우면서 더 많은 내용이 계속 나올 것입니다. 그래서 우리는 다른 것을 추가했는데, 이것은 그렇습니다. AI만 수행하고 육각형 복합체의 일부로 이미지 처리를 수행하지 않으므로 다음을 제공합니다. 우리는 여전히 그것을 Hexagon DSP라고 부르기 때문에 전체 콤플렉스를 Hexagon 프로세서라고 부르며 전체 육각형에 대한 캡처된 이름을 얻으려고 합니다. 지금. 우리는 실제로 더 직접적으로 계산하는 기능을 추가했습니다. 직접적으로 계산한다고는 할 수 없습니다. 곱하는 위치에 대한 고차 맵을 수행하는 방법에 대한 자동 관리 기능이 있습니다. 행렬."

마리오 세라페로: "텐서는 실제로 제 머리를 감싸는 데 꽤 어렵습니다. 어쨌든 그들도 자기 자신을 감싸고 있는 것 같아요."

트래비스 래니어: "네, 저는 대학에서 선형대수학 수업을 들었다고 생각했어요. 나는 사람처럼 그렇게 했습니다. “다시는 그런 짓을 하지 않기를 바라요!” 그리고 그들은 복수를 하고 돌아왔습니다. '아, 미분방정식과 선형대수학이 다시 돌아왔구나!'라고 생각했던 것 같아요."

마리오 세라페로: "내 생각엔 많은 동료들이 이 점을 따라잡지 못한 것 같습니다. 그들은 여전히 ​​NPU가 단지 행렬 곱셈, 내적, 비선형 함수, 컨볼루션 등의 집합일 때 이러한 신비한 측면이 있다고 생각합니다. 그리고 저는 개인적으로 그런 종류의 신경 처리 엔진 이름이 도움이 된다고 생각하지 않지만 그게 문제죠, 그렇죠? 그 중 얼마나 많은 부분이 명명 규칙에 의해 확장되지 않고, 난독화되고, 기본 수학이 삽질되지 않았으며, 아마도 무엇을 할 수 있습니까? 당신이 이것에 대해 생각했는지 모르겠습니다. 이것이 어떻게 작동하는지 사람들에게 알리기 위해 무엇을 할 수 있습니까? 예를 들어 왜 DSP가 다른 새로운 신경 처리 엔진이 할 수 있는 일을 할 수 있는지와 같은 것이 아닌 이유는 무엇입니까? 내 말은, 그것은 단지 수학일 뿐이지만 사용자, 독자, 일부 언론인은 그것을 이해하지 못하는 것 같습니다. Qualcomm의 책임이라고 말하는 것은 아니지만 무엇을 할 수 있습니까? 하지만 다르게 수행할 수 있는 것은 무엇이라고 생각하십니까? 아마 내 책임일 거야."

트래비스 래니어: "솔직히 항복하기 시작했어요. 어쩌면 우리는 사물의 이름을 "신경"으로 명명해야 할 수도 있습니다. 우리는 선형 대수학과 미분 방정식을 보기 시작했을 때 어떻게 머리가 어지러워졌는지에 대해 이야기했습니다. 그래서 회귀 분석을 시작할 때처럼 사람들에게 그것을 설명하려고 할 때 방정식과 물건, 사람들의 머리를 봅니다. 터지다. 대부분의 사람들에게 기본적인 프로그래밍을 가르칠 수 있지만, 역전파 방정식이 어떻게 작동하는지 가르치기 시작하면 그들은 그것을 보고 머리가 터질 것입니다. 그렇죠, 재미있는 일이죠. 그들은 부분 파생물을 보고 싶어하지 않습니다..."

마리오 세라페로: "스칼라가 아닌 벡터와 비선형 함수를 포함하는 부분 도함수 체인입니다."

트래비스 래니어: "좋은 결과 내길 바랄 게! 네, 그래서 어려운데 대부분의 사람들이 그것에 대해 알고 싶어하는지 모르겠습니다. 하지만 저는 다음과 같은 작은 것을 넣으려고 노력합니다. “이봐, 우리가 여기서 하는 일은 벡터 수학뿐이야. 우리에겐 벡터 프로세서가 있습니다.” 그리고 사람들은 그걸 보고 이렇게 생각하는 것 같아요. “그래, 그런데 난 정말 신경망을 원해 액셀러레이터." "Tensor"는 여전히 수학적이지만 사람들은 이를 AI와 좀 더 연관시킬 수 있다고 생각합니다. 처리 중입니다."

마리오 세라페로: "간극, 의미론적 격차를 메우는 것과 같을 수 있습니다."

트래비스 래니어: "결국 결론은 다른 이름을 생각해내면 될 것 같아요."


이 기사의 모든 그래픽은 Snapdragon Tech Summit에서 Travis Lanier가 발표한 내용을 출처로 했습니다. 프레젠테이션 슬라이드를 볼 수 있습니다. 여기.