Não é exagero considerar que 24 GB de RAM serão a norma para smartphones no futuro, e isso graças à IA.
Já há algum tempo que circulam rumores de que haverá smartphones chegando no próximo ano com impressionantes 24 GB de RAM. Isso é uma quantidade enorme em qualquer métrica, com a configuração de RAM mais comum em PCs para jogos sendo humildes 16 GB no momento em que escrevo. 24 GB de RAM parece uma quantidade absurda, mas, não quando se trata de IA.
AI está com fome de RAM
Se você deseja executar qualquer modelo de IA em um smartphone, a primeira coisa que você precisa saber é que, para executar basicamente qualquer modelo, você precisa de um muito de RAM. Essa filosofia é a razão pela qual você precisa de muito VRAM ao trabalhar com aplicativos como Stable Diffusion, e também se aplica a modelos baseados em texto. Basicamente, esses modelos normalmente serão carregados na RAM durante a carga de trabalho e é amuito mais rápido do que executar a partir do armazenamento.
A RAM é mais rápida por alguns motivos, mas os dois mais importantes são a menor latência, pois está mais próxima da CPU e tem maior largura de banda. É necessário carregar modelos de linguagem grandes (LLM) na RAM devido a essas propriedades, mas a próxima pergunta que normalmente se segue é exatamente
quanto RAM é usada por esses modelos.Se o Vicuna-7B alimentasse o Google Assistant nos dispositivos das pessoas com alguma ajuda dos serviços em nuvem, você, em teoria, têm todos os benefícios de um LLM executado em um dispositivo com o benefício adicional de coletar dados baseados em nuvem.
Há muito que vale a pena investigar quando se trata de alguns LLMs atualmente em implantação, e um com o qual tenho brincado recentemente foi o Vicuna-7B. É um LLM treinado em um conjunto de dados de 7 bilhões de parâmetros que podem ser implantados em um smartphone Android por meio do MLC LLM, que é um aplicativo universal que auxilia na implantação do LLM. São necessários cerca de 6 GB de RAM para interagir com ele em um smartphone Android. Obviamente, não é tão avançado quanto alguns outros LLMs no mercado atualmente, mas também funciona inteiramente localmente, sem a necessidade de conexão com a Internet. Para contextualizar, há rumores de que o GPT-4 tem 1,76 trilhão parâmetros, e o GPT-3 tem 175 bilhões.
Qualcomm e IA no dispositivo
Enquanto inúmeras empresas correm para criar seus próprios grandes modelos de linguagem (e interfaces para interagir com eles), a Qualcomm tem se concentrado em uma área importante: implantação. Os serviços em nuvem que as empresas utilizam custam milhões para executar os chatbots mais poderosos, e diz-se que o ChatGPT da OpenAI administra a empresa até US$ 700.000 por dia. Qualquer implantação no dispositivo que aproveite os recursos do usuário pode economizar muito dinheiro, especialmente se for generalizada.
A Qualcomm se refere a isso como “IA híbrida” e combina os recursos da nuvem e do dispositivo para dividir a computação onde for mais apropriado. Não funcionará para tudo, mas se o Vicuna-7B alimentasse o Google Assistant nos dispositivos das pessoas com a ajuda da nuvem serviços, você teria, em teoria, todos os benefícios de um LLM rodando em um dispositivo com o benefício adicional de coletar dados baseados em nuvem. Dessa forma, ele tem o mesmo custo para o Google que o Assistente, mas sem nenhuma sobrecarga adicional.
Essa é apenas uma maneira pela qual a IA no dispositivo contorna o problema de custos que as empresas enfrentam atualmente, mas é aí que entra o hardware adicional. No caso dos smartphones, a Qualcomm exibiu difusão estável em um smartphone Android equipado com Snapdragon 8 Gen 2, algo com o qual muitos computadores atuais teriam dificuldade. Desde então, a empresa mostrou o ControlNet rodando também em um dispositivo Android. Há algum tempo, ela está claramente preparando hardware capaz de cargas de trabalho intensas de IA, e o MLC LLM é uma maneira de testar isso agora.
Na captura de tela acima, observe que estou no modo avião com o Wi-Fi desligado e ainda funciona muito bem. ele gera cerca de cinco tokens por segundo, onde um token equivale a cerca de meia palavra. Portanto, ele gera cerca de 2,5 palavras por segundo, o que é bastante rápido para algo assim. Ele não interage com a internet no estado atual, mas como tudo é de código aberto, uma empresa poderia pegar o trabalho realizado pela MLC LLM e pela equipe por trás do modelo Vicuna-7B e implementá-lo em outra forma útil contexto.
Aplicações de IA generativa no dispositivo
Falei com Karl Whealton, diretor sênior de gerenciamento de produtos da Qualcomm, responsável por CPU, DSP, benchmarking e hardware de IA. Ele me contou tudo sobre as várias aplicações de modelos de IA executados em chipsets Snapdragon e me deu uma ideia do que pode ser possível nos chipsets Snapdragon hoje. Ele me disse que a inferência de microblocos do Snapdragon 8 Gen 2 é incrivelmente boa com transformadores, onde um transformador é um modelo que pode rastrear relacionamentos em dados sequenciais (como palavras em uma frase) que também pode aprender o contexto.
Para esse fim, perguntei a ele sobre os requisitos de RAM que circulam atualmente, e ele me disse que com um modelo de linguagem de qualquer tipo ou escala, você basicamente precisar para carregá-lo na RAM. Ele continuou dizendo que esperaria que se um OEM implementasse algo assim em um ambiente de RAM mais limitado, é mais provável que eles usariam um modelo de linguagem menor, talvez mais especializado, em um segmento menor de RAM, em vez de simplesmente executá-lo no armazenamento do dispositivo. Caso contrário, seria brutalmente lento e não seria uma boa experiência para o usuário.
Um exemplo de caso de uso especializado é aquele sobre o qual a Qualcomm falou recentemente no evento anual Computer Conferência de visão e reconhecimento de padrões - que a IA generativa pode atuar como um preparador físico para o fim Usuários. Por exemplo, um LLM visualmente fundamentado pode analisar um feed de vídeo para ver o que um usuário está fazendo, analisar se ele está fazendo algo errado, alimentar o resultado para um modelo de linguagem que pode colocar em palavras o que o usuário está fazendo de errado e, em seguida, usar um modelo de fala para transmitir essa informação ao usuário. do utilizador.
Em teoria, o OnePlus poderia fornecer 16 GB de RAM para uso geral, mas 8 GB adicionais de RAM além disso são apenas usado para IA.
Claro, o outro fator importante na IA no dispositivo é a privacidade. Com esses modelos, é muito provável que você compartilhe partes de sua vida pessoal com eles ao fazer perguntas, ou até mesmo dar acesso de IA ao seu smartphone pode preocupar as pessoas. Whealton me disse que qualquer coisa que entre no SoC é altamente segura e que esta é “uma das razões pelas quais” fazê-lo no dispositivo é tão importante para a Qualcomm.
Para esse fim, a Qualcomm também anunciou que estava trabalhando com a Meta para habilitar o software de código aberto da empresa Llama 2 LLM para rodar em dispositivos Qualcomm, com previsão de disponibilização para dispositivos a partir de 2024.
Como 24 GB de RAM podem ser incorporados a um smartphone
Fonte: Smartprix
Com vazamentos recentes apontando para o próximo OnePlus 12 com até 16 GB de RAM, você pode estar se perguntando o que aconteceu com aqueles rumores de 24 GB de RAM. O problema é que isso não impede o OnePlus de incluir IA no dispositivo, e há uma razão para isso.
Como Whealton me observou, quando você controla a DRAM, nada impede você de segmentar a RAM para que o sistema não possa acessá-la totalmente. Em teoria, o OnePlus poderia fornecer 16 GB de RAM para uso geral, mas 8 GB adicionais de RAM além disso são apenas usado para IA. Nesse caso, não faria sentido anunciá-lo como parte do número total de RAM, pois é inacessível ao resto do sistema. Além disso, é muito provável que esta quantidade de RAM permaneça estática mesmo em configurações de 8 GB ou 12 GB de RAM, uma vez que as necessidades da IA não mudarão.
Ou seja, não está fora de questão que o OnePlus 12 ainda terá 24 GB de RAM; só que 8 GB podem não ser tradicionalmente acessíveis. Vazamentos como esses, que ocorrem tão cedo, geralmente surgem de pessoas que podem estar envolvidas na produção real do dispositivo, então pode ser que eles estejam trabalhando com 24 GB de RAM e não saibam que 8 GB poderiam ser reservados para fins muito específicos. No entanto, isso é totalmente uma suposição da minha parte e é uma tentativa de entender os vazamentos onde tanto o Digital Chat Station quanto o OnLeaks podem ambos esteja certo.
No entanto, 24 GB de RAM é uma quantidade absurda em um smartphone e, à medida que recursos como esses são introduzidos, nunca foi tão claro que os smartphones são apenas computadores superpoderosos que só podem se tornar mais poderoso.