Uvažovat o tom, že 24GB RAM bude v budoucnu standardem pro smartphony, není příliš přitažené za vlasy, a to díky AI.
Už nějakou dobu se mluví o tom, že během příštího roku přijdou smartphony, které budou mít ohromných 24 GB RAM. To je obrovské množství podle jakékoli metriky, přičemž nejběžnější konfigurace RAM na herních počítačích je skromných 16 GB v době psaní. 24 GB RAM zní jako směšná částka, ale, ne pokud jde o AI.
AI potřebuje RAM
Pokud chcete spustit jakýkoli model AI na smartphonu, první věc, kterou potřebujete vědět, je, že k provedení v podstatě jakéhokoli modelu potřebujete hodně RAM. Tato filozofie je důvod, proč toho potřebujete hodně VRAM při práci s aplikacemi, jako je Stable Diffusion, a vztahuje se také na textové modely. V zásadě budou tyto modely obvykle načteny do paměti RAM po dobu trvání pracovního zatížení a je to tak Ahodně rychlejší než spouštění z úložiště.
RAM je rychlejší z několika důvodů, ale dva nejdůležitější jsou, že má nižší latenci, protože je blíže k CPU a má vyšší šířku pásma. Kvůli těmto vlastnostem je nutné nahrát velké jazykové modely (LLM) do RAM, ale další otázka, která obvykle následuje, je přesně
jak moc Tyto modely používají RAM.Pokud by Vicuna-7B napájela Asistenta Google na zařízeních lidí s pomocí cloudových služeb, teorie, mají všechny výhody LLM běžící na zařízení s přidanou výhodou shromažďování cloudových dat.
Je toho hodně, co stojí za to prozkoumat, pokud jde o některé LLM, které jsou aktuálně nasazeny, a jeden, se kterým jsem si nedávno hrál, byl Vicuna-7B. Je to LLM vyškolené na datové sadě 7 miliard parametrů, které lze nasadit na smartphone s Androidem prostřednictvím MLC LLM, což je univerzální aplikace, která pomáhá při nasazení LLM. Interakce s ním na smartphonu Android vyžaduje asi 6 GB paměti RAM. Zjevně není tak pokročilý jako některé jiné LLM na trhu právě teď, ale také běží zcela lokálně bez potřeby připojení k internetu. Pro kontext se říká, že GPT-4 má 1.76 bilion parametry a GPT-3 má 175 miliard.
Qualcomm a AI na zařízení
Zatímco se tuny společností předhánějí ve vytváření vlastních velkých jazykových modelů (a rozhraní pro interakci s nimi), Qualcomm se zaměřuje na jednu klíčovou oblast: nasazení. Cloudové služby, které společnosti využívají nákladově miliony provozovat ty nejvýkonnější chatboty a ChatGPT od OpenAI prý provozuje společnost až do výše 700 000 $ ročně den. Jakékoli nasazení na zařízení, které využívá zdroje uživatele, může ušetřit spoustu peněz, zvláště pokud je rozšířené.
Qualcomm to nazývá „hybridní AI“ a kombinuje zdroje cloudu a zařízení k rozdělení výpočtu tam, kde je to nejvhodnější. Nebude to fungovat na všechno, ale pokud by Vicuna-7B poháněla Google Assistant na zařízeních lidí s pomocí cloudu služeb, teoreticky byste měli všechny výhody LLM běžící na zařízení s přidanou výhodou sběru dat cloudová data. Tímto způsobem běží za stejnou cenu pro Google jako Asistent, ale bez jakýchkoli dalších režijních nákladů.
To je jen jeden způsob, jak umělá inteligence na zařízení obchází problém s náklady, kterému společnosti v současné době čelí, ale tam přichází na řadu další hardware. V případě smartphonů Qualcomm předvedl Stable Diffusion na smartphonu Android poháněném Snapdragonem 8 Gen 2, což je něco, s čím by mnoho současných počítačů skutečně bojovalo. Od té doby společnost ukázala, že ControlNet běží také na zařízení Android. Je zřejmé, že již nějakou dobu připravuje hardware schopný intenzivního vytížení AI a MLC LLM je způsob, který můžete otestovat právě teď.
Z výše uvedeného snímku obrazovky si všimněte, že jsem v režimu letadla s vypnutým Wi-Fi a stále to funguje velmi dobře. generuje zhruba pět tokenů za sekundu, přičemž token je asi polovina slova. Proto generuje asi 2,5 slova za sekundu, což je na něco takového dost rychlé. Ve svém současném stavu neinteraguje s internetem, ale vzhledem k tomu, že je to všechno open source, společnost mohl vzít práci MLC LLM a týmu stojícího za modelem Vicuna-7B a implementovat ji do dalšího užitečného kontext.
Aplikace generativní umělé inteligence na zařízení
Mluvil jsem s Karlem Whealtonem, vrchním ředitelem produktového managementu společnosti Qualcomm, který je zodpovědný za CPU, DSP, benchmarking a hardware AI. Řekl mi vše o různých aplikacích modelů AI běžících na čipsetech Snapdragon a dal mi představu o tom, co je dnes možné na čipových sadách Snapdragon. Říká mi, že vyvozování mikro dlaždic Snapdragon 8 Gen 2 je neuvěřitelně dobré s transformátory, kde Transformer je model, který dokáže sledovat vztahy v sekvenčních datech (jako jsou slova ve větě), která se také umí učit kontext.
Za tímto účelem jsem se ho zeptal na ty požadavky na RAM, o kterých se v současnosti mluví, a on mi řekl, že s jazykovým modelem jakéhokoli druhu nebo rozsahu potřeba pro nahrání do RAM. Dále řekl, že by očekával, že pokud OEM implementuje něco takového v omezenějším prostředí RAM, je pravděpodobnější, že použili by menší, možná specializovanější jazykový model v menším segmentu paměti RAM, než aby jej jednoduše vyčerpali z úložiště přístroj. Jinak by to bylo brutálně pomalé a nebyl by to dobrý uživatelský zážitek.
Příkladem specializovaného případu použití je případ, o kterém Qualcomm mluvil nedávno na výročním Computeru Konference Vision and Pattern Recognition — že generativní umělá inteligence může fungovat jako kondiční trenér uživatelů. Vizuálně uzemněný LLM může například analyzovat zdroj videa, aby pak viděl, co uživatel dělá, analyzoval, zda to nedělá špatně, výsledkem je jazykový model, který dokáže vyjádřit slovy, co uživatel dělá špatně, a poté použít řečový model k předání těchto informací uživatel.
Teoreticky by OnePlus mohl poskytnout 16 GB RAM pro běžné použití, ale dalších 8 GB RAM navíc pouze používá se pro AI.
Dalším důležitým faktorem v AI na zařízení je samozřejmě soukromí. U těchto modelů je velmi pravděpodobné, že byste s nimi při kladení otázek sdíleli části svého osobního života, nebo dokonce jen poskytnutí přístupu umělé inteligence k vašemu smartphonu by mohlo lidi znepokojovat. Whealton mi říká, že vše, co vstoupí do SoC, je vysoce bezpečné a že to je „jeden z důvodů“, proč je to na zařízení pro Qualcomm tak důležité.
Za tímto účelem Qualcomm také oznámil, že spolupracuje s Meta na aktivaci open-source společnosti Llama 2 LLM poběží na zařízeních Qualcomm, přičemž je naplánováno zpřístupnění pro zařízení začínající v 2024.
Jak lze do smartphonu začlenit 24 GB RAM
Zdroj: Smartprix
S nedávnými úniky ukazujícími na nadcházející OnePlus 12 s až 16GB RAM, můžete se divit, co se stalo s těmi pověstmi o 24 GB RAM. Jde o to, že to nebrání OnePlus zahrnout AI na zařízení, a má to svůj důvod.
Jak mi poznamenal Whealton, když ovládáte DRAM, nic vám nebrání v segmentaci RAM tak, aby k ní systém neměl přístup. Teoreticky by OnePlus mohl poskytnout 16 GB RAM pro běžné použití, ale dalších 8 GB RAM navíc pouze používá se pro AI. V tomto případě by nemělo smysl inzerovat jej jako součást celkového počtu RAM, protože je pro zbytek systému nepřístupný. Navíc je velmi pravděpodobné, že toto množství RAM zůstane statické i v konfiguracích s 8 GB nebo 12 GB RAM, protože potřeby AI se nezmění.
Jinými slovy, není vyloučeno, že OnePlus 12 bude mít stále 24GB RAM; jen 8GB nemusí být tradičně přístupných. Takové úniky, které jsou hned, jak přicházejí, se obvykle objevují od lidí, kteří se mohou podílet na skutečné výrobě zařízení, může se tedy stát, že pracovali s 24 GB RAM a nevěděli, že 8 GB by mohlo být vyhrazeno pro velmi specifické účely. Z mé strany jsou to však čistě dohady a je to pokus porozumět únikům, kde mohou jak Digital Chat Station, tak OnLeaks oba mít pravdu.
Nicméně 24 GB RAM je ve smartphonu šílená částka, a když jsou představeny funkce, jako jsou tyto, nikdy nebylo jasnější, že smartphony jsou jen super výkonné počítače, které mohou být jen více silný.