24 ГБ оперативної пам'яті в смартфоні? Це не так божевільно, як ви можете подумати.

Не надто надумано вважати, що 24 ГБ оперативної пам’яті стане нормою для смартфонів у майбутньому, і це завдяки ШІ.

Вже деякий час ходять чутки про те, що наступного року з’являться смартфони, які матимуть цілих 24 ГБ оперативної пам’яті. Це величезна кількість за будь-яким показником, причому найпоширеніша конфігурація оперативної пам’яті на ігрових ПК становить скромні 16 ГБ. на момент написання. 24 ГБ оперативної пам’яті звучить як смішна сума, але, а не коли йдеться про ШІ.

ШІ потребує оперативної пам’яті

Якщо ви хочете запустити будь-яку модель ШІ на смартфоні, перше, що вам потрібно знати, це те, що для виконання будь-якої моделі вам потрібен багато оперативної пам'яті. Саме через цю філософію вам потрібно багато VRAM під час роботи з такими програмами, як Stable Diffusion, і це також стосується текстових моделей. По суті, ці моделі зазвичай завантажуються в оперативну пам’ять протягом тривалості робочого навантаження, і це aбагато швидше, ніж виконання зі сховища.

Оперативна пам’ять швидша з кількох причин, але дві найважливіші – це менша затримка, оскільки вона ближче до ЦП, і має вищу пропускну здатність. Через ці властивості необхідно завантажити великі мовні моделі (LLM) в оперативну пам’ять, але наступне запитання, яке зазвичай слідує, саме

скільки У цих моделях використовується оперативна пам'ять.

Якби Vicuna-7B використовував Google Assistant на пристроях людей за допомогою хмарних служб, ви б теорії, мати всі переваги LLM, що працює на пристрої, з додатковою перевагою збору даних у хмарі.

Є багато чого, на що варто звернути увагу, коли справа доходить до деяких LLM, які зараз розгортаються, і одна, з якою я нещодавно бавився, це Vicuna-7B. Це магістр права, який навчається на базі даних із 7 мільярдів параметрів, які можна розгорнути на смартфоні Android через MLC LLM, універсальну програму, яка допомагає розгортати LLM. Щоб взаємодіяти з ним на смартфоні Android, потрібно близько 6 ГБ оперативної пам’яті. Очевидно, що він не такий просунутий, як деякі інші LLM на ринку зараз, але він також працює повністю локально без необхідності підключення до Інтернету. Для контексту, за чутками, GPT-4 має 1,76 трильйон параметрів, а ГПТ-3 має 175 млрд.

Qualcomm і AI на пристрої

Поки безліч компаній змагаються за створення власних великих мовних моделей (та інтерфейсів для взаємодії з ними), Qualcomm зосереджується на одній ключовій сфері: розгортанні. Хмарні послуги, які використовують компанії, коштують мільйони для запуску найпотужніших чат-ботів, а ChatGPT від OpenAI, як кажуть, керує компанією до 700 000 доларів США день. Будь-яке розгортання на пристрої, яке використовує ресурси користувача, може заощадити багато грошей, особливо якщо воно широко поширене.

Qualcomm називає це «гібридним штучним інтелектом», і він поєднує ресурси хмари та пристрою, щоб розділити обчислення там, де це найбільш доречно. Це працюватиме не для всіх, але якби Vicuna-7B забезпечив Google Assistant на пристроях людей за допомогою хмари послуги, теоретично ви матимете всі переваги LLM, що працює на пристрої, з додатковою перевагою збору хмарні дані. Таким чином, він працює за такою ж ціною для Google, як і Асистент, але без будь-яких додаткових накладних витрат.

Це лише один із способів штучного інтелекту на пристрої обійти проблему вартості, з якою зараз стикаються компанії, але тут на допомогу приходить додаткове обладнання. У випадку зі смартфонами Qualcomm показав стабільну дифузію на Android-смартфоні на базі Snapdragon 8 Gen 2, з чим багато сучасних комп’ютерів справді мають проблеми. Відтоді компанія показала, що ControlNet також працює на пристрої Android. Очевидно, він деякий час готував апаратне забезпечення, здатне виконувати інтенсивні робочі навантаження зі штучним інтелектом, і MLC LLM — це спосіб, за допомогою якого ви можете це перевірити прямо зараз.

З наведеного вище знімка екрана видно, що я перебуваю в режимі польоту з вимкненим Wi-Fi, і він усе ще працює дуже добре. він генерує приблизно п'ять токенів на секунду, де лексема становить приблизно половину слова. Тому він генерує близько 2,5 слів на секунду, що досить швидко для чогось подібного. Він не взаємодіє з Інтернетом у своєму поточному стані, але враховуючи, що це все з відкритим кодом, компанія може використати роботу, виконану MLC LLM і командою, що стоїть за моделлю Vicuna-7B, і реалізувати її в іншому корисному контекст.

Застосування генеративного ШІ на пристрої

Я розмовляв із Карлом Вілтоном, старшим директором із управління продуктами Qualcomm, який відповідає за ЦП, DSP, порівняльний аналіз і апаратне забезпечення ШІ. Він розповів мені все про різноманітні застосування моделей штучного інтелекту, які працюють на чіпсетах Snapdragon, і дав мені уявлення про те, що сьогодні можливо на чіпсетах Snapdragon. Він каже мені, що мікроплитка Snapdragon 8 Gen 2 неймовірно хороша з трансформаторами, де transformer — це модель, яка може відстежувати зв’язки в послідовних даних (наприклад, слова в реченні), які також можуть навчатися контекст.

З цією метою я запитав його про ті вимоги до оперативної пам’яті, про які зараз ходять чутки, і він сказав мені, що з мовною моделлю будь-якого типу чи масштабу ви, в основному, потреба щоб завантажити його в оперативну пам'ять. Далі він сказав, що він очікував би, якби OEM реалізував щось подібне в середовищі з більш обмеженим обсягом оперативної пам’яті, більш імовірно, що вони використовували б меншу, можливо, більш спеціалізовану мовну модель у меншому сегменті оперативної пам’яті, ніж просто запускали її зі сховища пристрій. Інакше це було б надзвичайно повільно та не сприяло б користуванню.

Прикладом спеціалізованого використання є той, про який Qualcomm говорив нещодавно на щорічній виставці Computer Конференція Vision and Pattern Recognition — генеративний штучний інтелект може діяти як фітнес-тренер наприкінці користувачів. Наприклад, візуально обґрунтований LLM може аналізувати відеоканал, щоб потім побачити, що робить користувач, проаналізувати, чи він робить це неправильно, подати результат для мовної моделі, яка може виразити словами те, що користувач робить неправильно, а потім використовувати мовну модель для передачі цієї інформації користувача.

Теоретично OnePlus може надати 16 ГБ оперативної пам’яті для загального використання, але додаткові 8 ГБ оперативної пам’яті на додаток до цього тільки використовується для ШІ.

Звичайно, ще одним важливим фактором ШІ на пристрої є конфіденційність. З цими моделями дуже ймовірно, що ви ділитеся з ними частинами свого особистого життя, коли ставите запитання, або навіть просто надання доступу штучного інтелекту до вашого смартфона може хвилювати людей. Уілтон каже мені, що все, що потрапляє в SoC, є дуже безпечним і що це «одна з причин», чому це робиться на пристрої так важливо для Qualcomm.

З цією метою Qualcomm також оголосила, що співпрацює з Meta, щоб увімкнути компанію з відкритим кодом Llama 2 LLM буде працювати на пристроях Qualcomm, і планується, що він стане доступним для пристроїв, починаючи з 2024.

Як 24 ГБ оперативної пам'яті можна включити в смартфон

Джерело: Smartprix

З нещодавніми витоками, які вказують на майбутнє OnePlus 12 має до 16 ГБ оперативної пам’яті, ви можете запитати, що сталося з тими чутками про 24 ГБ оперативної пам’яті. Справа в тому, що це не заважає OnePlus включати штучний інтелект на пристрої, і на це є причина.

Як зауважив мені Вілтон, коли ви керуєте DRAM, ніщо не заважає вам сегментувати RAM так, щоб система не могла отримати доступ до всієї пам’яті. Теоретично OnePlus може надати 16 ГБ оперативної пам’яті для загального використання, але додаткові 8 ГБ оперативної пам’яті на додаток до цього тільки використовується для ШІ. У цьому випадку не має сенсу рекламувати його як частину загальної кількості оперативної пам’яті, оскільки він недоступний для решти системи. Крім того, дуже ймовірно, що цей обсяг оперативної пам’яті залишатиметься статичним навіть у конфігураціях з 8 ГБ або 12 ГБ оперативної пам’яті, оскільки потреби ШІ не зміняться.

Іншими словами, не виключено, що OnePlus 12 все ще матиме 24 ГБ оперативної пам’яті; просто 8 ГБ традиційно недоступні. Подібні витоки, які відбуваються на ранній стадії, як правило, виникають від людей, які можуть брати участь у фактичному виробництві пристрою, тож може бути так, що вони працювали з 24 ГБ оперативної пам’яті та не знали, що 8 ГБ можуть бути зарезервовані для дуже конкретних цілей. Однак це цілком припущення з мого боку, і це спроба розібратися у витоках, де як Digital Chat Station, так і OnLeaks можуть обидва бути правим.

Тим не менш, 24 ГБ оперативної пам’яті — це шалена кількість для смартфона, і коли такі функції з’являються, ще ніколи не було так зрозуміло, що смартфони — це просто суперпотужні комп’ютери, які можуть ставати лише більшими потужний.