¿24 GB de RAM en un teléfono inteligente? No es tan loco como podrías pensar.

No es descabellado pensar que 24 GB de RAM será la norma para los teléfonos inteligentes en el futuro, y es gracias a la IA.

Hace tiempo que circulan rumores de que el próximo año habrá teléfonos inteligentes que tendrán la friolera de 24 GB de RAM. Eso es una cantidad enorme desde cualquier punto de vista, ya que la configuración de RAM más común en las PC para juegos es de unos humildes 16 GB. en el momento de escribir. 24 GB de RAM suena como una cantidad ridícula, pero, no cuando se trata de IA.

La IA consume mucha RAM

Si está buscando ejecutar cualquier modelo de IA en un teléfono inteligente, lo primero que necesita saber es que para ejecutar básicamente cualquier modelo, necesita un lote de RAM. Esa filosofía es la razón por la que necesitas mucha VRAM cuando se trabaja con aplicaciones como Stable Diffusion, y también se aplica a modelos basados en texto. Básicamente, estos modelos normalmente se cargarán en la RAM mientras dure la carga de trabajo, y es alote más rápido que ejecutar desde el almacenamiento.

La RAM es más rápida por un par de razones, pero las dos más importantes son su menor latencia, ya que está más cerca de la CPU y tiene mayor ancho de banda. Es necesario cargar modelos de lenguaje grandes (LLM) en la RAM debido a estas propiedades, pero la siguiente pregunta que suele seguir es exactamente cuánto Estos modelos utilizan RAM.

Si Vicuña-7B implementara el Asistente de Google en los dispositivos de las personas con ayuda de los servicios en la nube, en En teoría, tiene todos los beneficios de un LLM ejecutándose en un dispositivo con el beneficio adicional de recopilar datos basados en la nube.

Hay muchas cosas que vale la pena analizar cuando se trata de algunos LLM actualmente en implementación, y uno con el que he estado probando recientemente ha sido Vicuña-7B. Es un LLM capacitado en un conjunto de datos de 7 mil millones de parámetros que se pueden implementar en un teléfono inteligente Android a través de MLC LLM, que es una aplicación universal que ayuda en la implementación de LLM. Se necesitan alrededor de 6 GB de RAM para interactuar con él en un teléfono inteligente Android. Obviamente no es tan avanzado como otros LLM en el mercado en este momento, pero también se ejecuta completamente localmente sin necesidad de una conexión a Internet. Por contexto, se rumorea que GPT-4 tiene 1,76 billón parámetros, y GPT-3 tiene 175 mil millones.

Qualcomm y la IA en el dispositivo

Mientras toneladas de empresas se apresuran a crear sus propios grandes modelos de lenguaje (e interfaces para interactuar con ellos), Qualcomm se ha centrado en un área clave: la implementación. Costo de los servicios en la nube que utilizan las empresas millones para ejecutar los chatbots más potentes, y se dice que ChatGPT de OpenAI gestiona la empresa hasta 700.000 dólares al año. día. Cualquier implementación en el dispositivo que aproveche los recursos del usuario puede ahorrar mucho dinero, especialmente si es generalizada.

Qualcomm se refiere a esto como "IA híbrida" y combina los recursos de la nube y el dispositivo para dividir la computación donde sea más apropiado. No funcionará para todo, pero si Vicuña-7B potenciara el Asistente de Google en los dispositivos de las personas con ayuda de la nube servicios, en teoría, tendría todos los beneficios de un LLM ejecutándose en un dispositivo con el beneficio adicional de recopilar datos basados en la nube. De esa manera, tiene el mismo costo para Google que el Asistente, pero sin ninguno de los gastos generales adicionales.

Esa es sólo una de las formas en que la IA en el dispositivo soluciona el problema de costos que enfrentan las empresas actualmente, pero ahí es donde entra en juego el hardware adicional. En el caso de los smartphones, Qualcomm mostró Difusión Estable en un teléfono inteligente Android con tecnología Snapdragon 8 Gen 2, que es algo con lo que muchas computadoras actuales tendrían problemas. Desde entonces, la compañía ha demostrado que ControlNet también se ejecuta en un dispositivo Android. Claramente ha estado preparando hardware capaz de soportar cargas de trabajo intensas de IA durante un tiempo, y MLC LLM es una forma de probarlo ahora mismo.

En la captura de pantalla anterior, tenga en cuenta que estoy en modo avión con Wi-Fi apagado y todavía funciona muy bien. genera aproximadamente cinco tokens por segundo, donde un token equivale aproximadamente a media palabra. Por lo tanto, genera alrededor de 2,5 palabras por segundo, lo cual es bastante rápido para algo como esto. No interactúa con Internet en su estado actual, pero dado que todo esto es de código abierto, una empresa podría tomar el trabajo realizado por MLC LLM y el equipo detrás del modelo Vicuña-7B e implementarlo en otro útil contexto.

Aplicaciones de la IA generativa en el dispositivo

Hablé con Karl Whealton, director senior de gestión de productos de Qualcomm, responsable de CPU, DSP, evaluaciones comparativas y hardware de inteligencia artificial. Me contó todo sobre las diversas aplicaciones de los modelos de IA que se ejecutan en los conjuntos de chips Snapdragon y me dio una idea de lo que puede ser posible en los conjuntos de chips Snapdragon hoy en día. Me dice que la inferencia de micro mosaicos del Snapdragon 8 Gen 2 es increíblemente buena con los transformadores, donde un El transformador es un modelo que puede rastrear relaciones en datos secuenciales (como palabras en una oración) que también puede aprender. el contexto.

Para ello le pregunté sobre esos requisitos de RAM que se rumorean actualmente, y me dijo que con un modelo de lenguaje de cualquier tipo o escala, básicamente necesidad para cargarlo en la RAM. Continuó diciendo que esperaría que si un OEM implementara algo como esto en un entorno de RAM más limitado, sería más probable que usarían un modelo de lenguaje más pequeño, quizás más especializado, en un segmento más pequeño de RAM que simplemente ejecutarlo desde el almacenamiento del dispositivo. De lo contrario, sería brutalmente lento y no sería una buena experiencia para el usuario.

Un ejemplo de caso de uso especializado es uno del que Qualcomm habló recientemente en la conferencia anual Computer Conferencia sobre visión y reconocimiento de patrones: la IA generativa puede actuar como preparador físico para el final usuarios. Por ejemplo, un LLM con base visual puede analizar una transmisión de video para luego ver qué está haciendo un usuario, analizar si lo está haciendo mal, alimentar el resultado a un modelo de lenguaje que puede poner en palabras lo que el usuario está haciendo mal, y luego usar un modelo de habla para transmitir esa información al usuario.

En teoría, OnePlus podría proporcionar 16 GB de RAM para uso general, pero además 8 GB de RAM adicionales. solo utilizado para IA.

Por supuesto, el otro factor importante de la IA en el dispositivo es la privacidad. Con estos modelos, es muy probable que compartas partes de tu vida personal con ellos cuando les hagas preguntas, o incluso que simplemente darles acceso a la IA a tu teléfono inteligente pueda preocupar a la gente. Whealton me dice que todo lo que ingresa al SoC es altamente seguro y que esta es "una de las razones" por las que hacerlo en el dispositivo es tan importante para Qualcomm.

Con ese fin, Qualcomm también anunció que estaba trabajando con Meta para habilitar el código abierto de la compañía. Llama 2 LLM se ejecutará en dispositivos Qualcomm y está previsto que esté disponible para dispositivos a partir de 2024.

Cómo se pueden incorporar 24GB de RAM a un smartphone

Fuente: Smartprix

Con filtraciones recientes que apuntan a la próxima OnePlus 12 con hasta 16 GB de RAMQuizás te preguntes qué pasó con esos rumores de 24 GB de RAM. La cuestión es que no impide que OnePlus incluya IA en el dispositivo, y hay una razón para ello.

Como me señaló Whealton, cuando controlas la DRAM, no hay nada que te impida segmentar la RAM para que el sistema no pueda acceder a toda ella. En teoría, OnePlus podría proporcionar 16 GB de RAM para uso general, pero además 8 GB de RAM adicionales. solo utilizado para IA. En este caso, no tendría sentido anunciarlo como parte del número total de RAM, ya que es inaccesible para el resto del sistema. Además, es muy probable que esta cantidad de RAM permanezca estática incluso en configuraciones de RAM de 8 GB o 12 GB, ya que las necesidades de la IA no cambiarán.

En otras palabras, no está descartado que el OnePlus 12 todavía tenga 24 GB de RAM; es sólo que 8 GB pueden no ser accesibles tradicionalmente. Fugas como estas, que ocurren tan pronto como aparecen, generalmente surgen de personas que pueden estar involucradas en la producción real del dispositivo. por lo que puede darse el caso de que hayan estado trabajando con 24GB de RAM y no hayan sido conscientes de que se podían reservar 8GB para fines muy concretos. Sin embargo, esto son totalmente conjeturas de mi parte y es un intento de dar sentido a las filtraciones en las que tanto Digital Chat Station como OnLeaks pueden ambos tener razón.

Sin embargo, 24 GB de RAM es una cantidad increíble en un teléfono inteligente y, a medida que se introducen características como estas, Nunca ha estado más claro que los teléfonos inteligentes son simplemente computadoras súper poderosas que solo pueden volverse más poderoso.