24GB RAM이 미래 스마트폰의 표준이 될 것이라고 생각하는 것은 그리 무리한 일이 아니며, 이는 AI 덕분입니다.
내년에는 무려 24GB RAM을 탑재한 스마트폰이 출시될 것이라는 소문이 한동안 돌고 있었습니다. 게임용 PC의 가장 일반적인 RAM 구성이 16GB라는 점을 감안하면 이는 어떤 측정 기준으로 보아도 엄청난 양입니다. 글을 쓰는 시점에. 24GB RAM은 터무니없는 양처럼 들립니다. 하지만, AI의 경우는 아닙니다.
AI는 RAM을 많이 사용합니다.
스마트폰에서 AI 모델을 실행하려는 경우 가장 먼저 알아야 할 것은 기본적으로 모든 모델을 실행하려면 다음이 필요하다는 것입니다. 많은 RAM의. 그 철학이 바로 당신이 많이 필요로하는 이유입니다 VRAM Stable Diffusion과 같은 애플리케이션으로 작업할 때 텍스트 기반 모델에도 적용됩니다. 기본적으로 이러한 모델은 일반적으로 작업 부하 기간 동안 RAM에 로드됩니다. ㅏ많은 저장소에서 실행하는 것보다 빠릅니다.
RAM은 몇 가지 이유로 더 빠르지만 가장 중요한 두 가지는 CPU에 더 가깝고 대역폭이 더 높기 때문에 대기 시간이 더 짧다는 것입니다. 이러한 속성으로 인해 LLM(대형 언어 모델)을 RAM에 로드해야 하지만 일반적으로 다음 질문은 정확히 다음과 같습니다. 얼마나 많이 RAM은 이 모델에서 사용됩니다.
Vicuna-7B가 클라우드 서비스의 도움을 받아 사람들의 기기에서 Google 어시스턴트를 강화한다면, 이론상 클라우드 기반 데이터 수집의 추가 이점과 함께 장치에서 실행되는 LLM의 모든 이점을 누릴 수 있습니다.
현재 배포 중인 일부 LLM에 관해서는 살펴볼 가치가 많이 있으며, 제가 최근에 가지고 놀았던 것은 Vicuna-7B였습니다. 이는 LLM 배포를 지원하는 범용 앱인 MLC LLM을 통해 Android 스마트폰에 배포할 수 있는 70억 개의 매개변수 데이터세트에 대해 훈련된 LLM입니다. Android 스마트폰에서 상호작용하려면 약 6GB의 RAM이 필요합니다. 현재 시중에 나와 있는 다른 LLM만큼 발전된 수준은 아니지만 인터넷 연결 없이도 완전히 로컬로 실행됩니다. 문맥상 GPT-4에는 1.76이 있다는 소문이 있습니다.
일조 매개변수가 있고 GPT-3에는 1,750억 개가 있습니다.Qualcomm과 온디바이스 AI
수많은 회사가 자체적인 대규모 언어 모델(및 상호 작용할 인터페이스)을 만들기 위해 경쟁하고 있는 동안 Qualcomm은 배포라는 한 가지 핵심 영역에 집중해 왔습니다. 기업이 비용을 활용하는 클라우드 서비스 수백만 가장 강력한 챗봇을 운영하기 위해 노력하고 있으며 OpenAI의 ChatGPT는 회사를 연간 최대 70만 달러까지 운영한다고 합니다. 낮. 사용자 리소스를 활용하는 온디바이스 배포는 특히 광범위한 경우 많은 비용을 절약할 수 있습니다.
퀄컴은 이를 '하이브리드 AI'라고 부르며, 클라우드와 기기의 리소스를 결합해 가장 적절한 곳에 계산을 분할합니다. 모든 것에 작동하지는 않지만 Vicuna-7B가 클라우드의 도움을 받아 사람들의 기기에서 Google Assistant를 강화한다면 서비스를 이용하면 이론적으로 수집이라는 추가 이점과 함께 장치에서 실행되는 LLM의 모든 이점을 누릴 수 있습니다. 클라우드 기반 데이터. 이렇게 하면 Google에서는 어시스턴트와 동일한 비용으로 실행되지만 추가 오버헤드는 없습니다.
이는 온디바이스 AI가 기업이 현재 직면하고 있는 비용 문제를 해결하는 한 가지 방법일 뿐이지만, 여기서 추가 하드웨어가 필요합니다. 스마트폰의 경우 퀄컴 안정적인 확산을 선보였습니다 Snapdragon 8 Gen 2로 구동되는 Android 스마트폰에서 이는 현재 많은 컴퓨터가 실제로 어려움을 겪는 문제입니다. 그 이후로 회사는 Android 장치에서도 실행되는 ControlNet을 보여주었습니다. 한동안 강렬한 AI 워크로드를 감당할 수 있는 하드웨어를 준비해온 것이 분명하며, MLC LLM은 이를 지금 당장 테스트할 수 있는 방법입니다.
위의 스크린샷을 보면 Wi-Fi가 꺼진 비행기 모드에 있는데 여전히 잘 작동합니다. 초당 약 5개의 토큰을 생성하며, 여기서 토큰은 약 절반 단어입니다. 따라서 초당 약 2.5단어를 생성하는데, 이는 이와 같은 작업에는 상당히 빠른 속도입니다. 현재 상태에서는 인터넷과 상호 작용하지 않지만 이것이 모두 오픈 소스라는 점을 고려하면 회사는 MLC LLM과 Vicuna-7B 모델 뒤에 있는 팀이 수행한 작업을 다른 유용한 모델로 구현할 수 있습니다. 문맥.
온디바이스 생성 AI의 응용
CPU, DSP, 벤치마킹, AI 하드웨어를 담당하고 있는 Qualcomm의 제품 관리 수석 이사인 Karl Whealton과 이야기를 나눴습니다. 그는 Snapdragon 칩셋에서 실행되는 AI 모델의 다양한 애플리케이션에 대해 모두 이야기해 주었고 오늘날 Snapdragon 칩셋에서 무엇이 가능할지에 대한 아이디어를 제공했습니다. 그는 Snapdragon 8 Gen 2의 마이크로 타일 추론이 트랜스포머에서 믿을 수 없을 정도로 훌륭하다고 말했습니다. 변환기는 학습할 수도 있는 순차적 데이터(예: 문장의 단어)의 관계를 추적할 수 있는 모델입니다. 문맥.
이를 위해 나는 그에게 현재 소문이 돌고 있는 RAM 요구 사항에 대해 물었고 그는 어떤 종류나 규모의 언어 모델을 사용하더라도 기본적으로 필요 RAM에 로드합니다. 그는 계속해서 OEM이 좀 더 제한된 RAM 환경에서 이와 같은 기능을 구현한다면 다음과 같은 결과를 초래할 가능성이 더 높다고 말했습니다. 그들은 단순히 스토리지에서 실행하는 것보다 더 작은 RAM 세그먼트에서 더 작고 아마도 더 전문화된 언어 모델을 사용할 것입니다. 장치. 그렇지 않으면 잔인할 정도로 느려지고 좋은 사용자 경험이 아닐 것입니다.
특수 사용 사례의 예로는 Qualcomm이 최근 연례 컴퓨터 컨퍼런스에서 언급한 사례가 있습니다. 비전 및 패턴 인식 컨퍼런스 — 생성 AI가 최종 피트니스 코치 역할을 할 수 있음 사용자. 예를 들어, 시각적 기반 LLM은 비디오 피드를 분석하여 사용자가 무엇을 하고 있는지 확인하고, 잘못하고 있는지 분석하고, 결과를 사용자가 잘못하고 있는 것을 말로 표현할 수 있는 언어 모델로 변환한 다음 음성 모델을 사용하여 해당 정보를 사용자에게 전달합니다. 사용자.
이론적으로 OnePlus는 일반 사용을 위해 16GB RAM을 제공할 수 있지만 그 위에 추가로 8GB RAM을 제공할 수 있습니다. 오직 AI에 사용됩니다.
물론 온디바이스 AI의 또 다른 중요한 요소는 개인정보 보호입니다. 이러한 모델을 사용하면 질문을 할 때 개인 생활의 일부를 공유하게 될 가능성이 높으며 스마트폰에 AI 액세스 권한을 부여하는 것만으로도 사람들이 걱정할 수 있습니다. Whealton은 SoC에 들어가는 모든 것은 매우 안전하며 이것이 장치에서 SoC를 수행하는 것이 Qualcomm에 매우 중요한 "이유 중 하나"라고 말했습니다.
이를 위해 Qualcomm은 Meta와 협력하여 회사의 오픈 소스 기능을 활성화한다고 발표했습니다. Llama 2 LLM은 Qualcomm 장치에서 실행되며, 2019년부터 장치에서 사용할 수 있게 될 예정입니다. 2024.
24GB RAM을 스마트폰에 통합하는 방법
출처: 스마트프릭스
최근 유출로 인해 앞으로의 일이 예고되었습니다. 최대 16GB RAM을 탑재한 OnePlus 12, 24GB RAM 소문이 어떻게 되었는지 궁금할 것입니다. 문제는 OnePlus가 온디바이스 AI를 포함하는 것을 배제하지 않는다는 것이며, 그 이유가 있습니다.
Whealton이 나에게 지적했듯이 DRAM을 제어할 때 시스템이 RAM 전체에 액세스할 수 없도록 RAM을 분할하는 것을 막을 수 있는 방법은 없습니다. 이론적으로 OnePlus는 일반 사용을 위해 16GB RAM을 제공할 수 있지만 그 위에 추가로 8GB RAM을 제공할 수 있습니다. 오직 AI에 사용됩니다. 이 경우 시스템의 나머지 부분에서 액세스할 수 없으므로 이를 전체 RAM 수의 일부로 광고하는 것은 의미가 없습니다. 게다가 AI의 요구 사항은 변하지 않기 때문에 이 RAM 용량은 8GB 또는 12GB RAM 구성에서도 그대로 유지될 가능성이 매우 높습니다.
즉, OnePlus 12에 여전히 24GB RAM이 있다는 것은 의심의 여지가 없습니다. 단지 8GB가 전통적으로 접근 가능하지 않을 수도 있다는 것입니다. 이와 같은 누출은 일반적으로 장치의 실제 생산에 관여하는 사람들에게서 발생합니다. 따라서 24GB RAM으로 작업했지만 8GB가 매우 특정한 목적으로 예약될 수 있다는 사실을 인식하지 못했을 수도 있습니다. 하지만 그것은 전적으로 내 추측이며 Digital Chat Station과 OnLeaks가 모두 할 수 있는 누출을 이해하려는 시도입니다. 둘 다 맞다.
그럼에도 불구하고 24GB RAM은 스마트폰에 있어서 엄청나게 큰 용량이고, 이런 기능들이 등장하면서 스마트폰은 단지 더 강력해질 수 있는 초강력 컴퓨터일 뿐이라는 사실이 그 어느 때보다 분명해졌습니다. 강한.