Cómo Qualcomm está mejorando las cámaras de los teléfonos Android

Judd Heape de Qualcomm explica cómo Qualcomm está mejorando las experiencias de la cámara en los teléfonos Android con nuevas funciones en sus ISP Spectra.

Como fabricante de sistemas en chips (SoC) que alimentan gran parte de los teléfonos inteligentes y dispositivos portátiles del mundo, Qualcomm, con sede en Estados Unidos, es sin duda uno de los gigantes de la industria de fabricantes de chips. La línea Snapdragon de SoC, por ejemplo, es utilizada por casi todos los principales fabricantes de dispositivos Android para teléfonos inteligentes emblemáticos, de gama media y económicos. Qualcomm recibe elogios cada año en la Cumbre Tecnológica anual de la compañía por sus avances en los campos de CPU, GPU e inteligencia artificial, ya que incorpora las nuevas microarquitecturas de CPU de ARM. y los complementa con mejoras anuales en sus GPU personalizadas. Sin embargo, sus avances en el campo de las cámaras no se notan tanto, ya que tienden a pasar desapercibidas. Radar.

Sin embargo, esto no significa que el trabajo de Qualcomm en las cámaras de los teléfonos inteligentes carezca de importancia. Por el contrario, los ISP Spectra de Qualcomm en sus SoC Snapdragon ayudan a que gran parte de las cámaras de los teléfonos inteligentes modernos sean posibles con mayor potencia de procesamiento computacional, funciones como grabación de video 8K, video HDR10, soporte para cámaras QCFA de alta megapíxeles y mucho, mucho más. Qualcomm ha promocionado que el ISP Spectra 380 esté en el Snapdragon 855

fue el primer CV-ISP del mundoy ha promovido las primeras funciones de grabación de vídeo 4K HDR del mundo, que ahora se han complementado con la grabación de vídeo 4K HDR10+ de segunda generación. El ISP Spectra 480 de última generación Snapdragon 865 es muy capaz: puede procesar dos gigapíxeles por segundo, un 40% más que su predecesor. Es una propiedad intelectual (IP) que diferencia a Qualcomm de sus competidores en el espacio de proveedores de chips móviles.

Si bien Qualcomm explica la mayoría de las características principales en sus comunicados de prensa y notas de presentación de productos, hasta Hasta ahora, los consumidores no han tenido la oportunidad de conocer la mayoría de los detalles de bajo nivel que hacen que estas cosas trabajar.

Es por eso que en XDA Developers aceptamos con gusto una oferta para hablar con Judd Heape, director senior de gestión de productos de Qualcomm. El editor en jefe de XDA, Mishaal Rahman, y yo tuvimos una entrevista con Judd en junio de 2020 para aprender y ver cómo Qualcomm está superando los objetivos con la fotografía y la grabación de video de teléfonos inteligentes. Hablamos sobre temas que incluyen el procesamiento de imágenes con IA, la reducción de ruido de cuadros múltiples (MFNR), AV1, la grabación de video Dolby Vision, la agrupación de píxeles en cámaras de alta megapíxeles y mucho más. Echemos un vistazo a las ideas de Judd sobre cada tema uno por uno:


Cargas de trabajo de procesamiento de imágenes de IA

Mishaal Rahman: Empezaré con uno de los que tenía Idrees, que es interesante y que a mí también me interesaba. Entonces, nos preguntamos cuáles son las cargas de trabajo de procesamiento de imágenes de IA que utiliza Qualcomm en el ISP Spectra y hasta qué punto los fabricantes de dispositivos las pueden personalizar.

judd heape: Sí, analizamos muchas cargas de trabajo de IA y hay algunas que pueden ejecutarse en el propio ISP. como, por ejemplo, nuestra 3A de próxima generación: la exposición automática, el balance de blancos automático y el enfoque automático son IA basado.

Pero también analizamos algunas otras cargas de trabajo de IA, que se ejecutarían fuera del ISP, en uno de los otros elementos informáticos. En particular, analizamos cosas como: tenemos un núcleo de reducción de ruido basado en IA que se ejecuta externamente desde el ISP, en la parte del chip del motor de IA (AIE).

Además, tenemos cosas como la detección de rostros, que es un motor de aprendizaje profundo completo que también se ejecuta en el complejo AIE, pero, por supuesto, ayuda a la cámara. Y hay otras cosas en las que estamos trabajando además de la detección de rostros y la eliminación de ruido; También estamos considerando hacer cosas como un ajuste automático de instantáneas usando IA que establecería automáticamente parámetros por escena basados ​​en contenido HDR, procesaríamos para modificar sombras, luces y colores y ese tipo de cosa.

Uno de nuestros socios, Morpho, acaba de ganar un enorme premio por carga de trabajo de IA en la Cumbre Embedded Vision de este año. Los socios proveedores de software independientes también tienen muchos algoritmos basados ​​en IA realmente intensos y pueden variar desde cualquier cosa, como una cámara fluida transición, como lo que hace Arcsoft (lo mencioné en la última Cumbre Tecnológica de Snapdragon, que está basada en IA), a la segmentación semántica de Morpho motor. La solución de Morpho es un motor de inteligencia artificial que comprende diferentes partes de la escena, como lo que ya sabes, tela versus piel versus cielo y pasto y construir y ese tipo de cosas y luego el ISP puede tomar esa información y procesar esos píxeles de manera diferente para textura, ruido y color para ejemplo.

La declaración de Qualcomm: Para ML e IA tampoco anunciaremos nuevas actualizaciones para las funciones de detección de rostros y "3A" (AE, AF y AWB) hoy. Sin embargo, como dijo Judd, estamos comprometidos, en el futuro, a incorporar más capacidades de ML/AI a la cámara, incluidas estas dos áreas de funciones.


Análisis y contexto: La IA en los teléfonos inteligentes se ha considerado en gran medida una palabra de moda desde que las primeras unidades de procesamiento neuronal (NPU) y las funciones "basadas en IA" comenzaron a llegar a los teléfonos Android. Sin embargo, eso no significa que la IA en sí misma no tenga sentido. Por el contrario, la IA tiene un gran potencial en los dispositivos móviles, hasta el punto de que tanto los proveedores de chips como los fabricantes de dispositivos sólo están arañando la superficie de lo que es posible.

Gracias a la IA, las cámaras de los teléfonos inteligentes han mejorado: a veces rápidamente, a veces con una lentitud agonizante, pero están logrando ese objetivo. Las cámaras de los teléfonos inteligentes están superando limitaciones fundamentales, como sensores relativamente más pequeños, dispositivos fijos distancias focales y ópticas más pobres con fotografía computacional inteligente impulsada por el aprendizaje automático (ML). La exposición automática, la reducción de ruido, la detección de rostros y la segmentación son solo algunos de los campos donde la IA en la fotografía de teléfonos inteligentes ha podido tener un impacto. En los próximos cinco años, estos campos incipientes de la IA que mejoran diferentes aspectos de la fotografía madurarán mucho.


Reducción de ruido de fotogramas múltiples

Idrees Patel: Qualcomm ha estado mencionando la reducción de ruido de cuadros múltiples como una característica. Me gustaría saber más detalles al respecto sobre cómo funciona el apilamiento de imágenes. ¿Se parece en algo a lo que Google está haciendo con su tecnología HDR+ o es completamente diferente?

judd heape: Es similar pero diferente. Imagine que la cámara hace una ráfaga y captura de cinco a siete fotogramas en rápida sucesión. Luego, el motor del ISP analiza esos fotogramas y elige el mejor (llamado "cuadro de anclaje") para enfoque y claridad y luego puede seleccionar 3-4 fotogramas a cada lado de ese fotograma y luego promediarlos todos juntos. Intenta elegir fotogramas que estén lo suficientemente juntos como para que haya muy poco movimiento.

Y cuando se fija en esos fotogramas, los promedia para discernir qué es diferente, por ejemplo, qué son datos de imagen reales y qué son datos de ruido. Entonces, cuando tienes más y más información, de más y más marcos, puedes hacer cosas simples como observar las diferencias entre los marcos. Las diferencias probablemente sean ruido, mientras que lo que es igual en los fotogramas probablemente sean datos de imagen.

Entonces podemos hacer esa combinación de cuadros en tiempo real para reducir el ruido. Ahora, también puedes hacer lo mismo con poca luz y HDR y eso se parece mucho a lo que probablemente esté haciendo Google. No estamos al tanto de su algoritmo. Pero están utilizando técnicas de fotogramas múltiples para aumentar la sensibilidad y poder "ver" mejor; Una vez que haya reducido el ruido de fondo, ahora puede considerar hacer más mapeo de tonos locales o agregar ganancia a la imagen sin agregar más ruido.

Así es como manejan la poca luz, así como el HDR. Qualcomm realizará mejoras en la función de reducción de ruido de cuadros múltiples, que también incluirán poca luz y HDR. Pero eso es algo que implementaremos en breve.

Mishaal Rahman: Entonces mencionaste que implementaremos esta función en breve. ¿Se trata de una actualización del BSP para los socios?

judd heape: En nuestros productos de próxima generación, a través de una adición de software, tendremos la capacidad de interactuar; de hecho, está sucediendo ahora mismo en la próxima productos de generación: estamos interactuando con los clientes en este momento para implementar más técnicas de fotogramas múltiples más allá de la reducción de ruido, pero también para manejar HDR y condiciones de poca luz. situaciones. Utiliza el mismo motor ISP HW básico, pero estamos agregando más software para manejar estos fotogramas múltiples para algo más que reducción de ruido.

Por lo tanto, no es algo que se haya implementado, pero estamos interactuando con algunos clientes principales clave sobre esas funciones.


Análisis y contexto: Con cada nuevo anuncio de Snapdragon SoC, la tabla de especificaciones de Qualcomm incluye especificaciones relacionadas con la reducción de ruido de cuadros múltiples. El Snapdragon 865, por ejemplo, con sus CV-ISP duales de 14 bits admite hasta una cámara única hipotética de 200MP (Aunque los proveedores de sensores de cámara como Sony, Samsung y OmniVision aún no han lanzado ningún sensor de cámara para teléfonos inteligentes por encima de 108 MP). Sin embargo, cuando se trata de compatibilidad con una sola cámara con MFNR, retraso de obturación cero (ZSL) y compatibilidad con 30 fps, el La especificación cambia a 64MP y, para cámaras duales con las mismas especificaciones, la especificación cambia a 25 megapíxeles.

La reducción de ruido multicuadro de Qualcomm es muy similar a HDR+ pero no del todo igual, como explicó Judd anteriormente. Mientras que HDR+ toma una serie de exposiciones subexpuestas y las promedia para obtener la mejor foto, MFNR toma entre cinco y siete fotogramas normales. No parece que el MFNR de Qualcomm sea tan avanzado como la solución de Google porque HDR y la poca luz no se mencionan como prioridades específicas en la actualidad. flujo de trabajo para Spectra, mientras que HDR+ de Google apunta a HDR, fotografía con poca luz y reducción de ruido al mismo tiempo, con Night Sight llevándolo a un nivel aún mayor. más. Sin embargo, es alentador saber que MFNR está recibiendo mejoras y que Qualcomm implementará estas mejoras para "algunos clientes clave". En el futuro, tal vez no necesitemos puertos no oficiales de la cámara de Google para lograr todo el potencial de las cámaras de los teléfonos inteligentes Android que no son de Google.


Súper resolución para vídeo

El flujo de trabajo de súper resolución de Google

Mishaal Rahman: Entonces, algo que escuché en la Cumbre Tecnológica. En realidad, creo que fue en una entrevista con Autoridad de Android. Es que Qualcomm está planeando extender la superresolución al video como solución de software para socios y que esto se implementaría en una actualización, aparentemente. Me pregunto si tiene alguna actualización para compartir sobre esta función.

judd heape: Sí, esa es una característica que hemos tenido la posibilidad de hacer por un tiempo, y recién ahora se está implementando. No diría que está en una actualización de software, pero diría que es como un beneficio adicional de la capacidad existente de función de fotogramas múltiples y condiciones de poca luz. Estamos interactuando con algunos clientes principales específicos sobre esa función. Entonces, sí, la súper resolución de video es algo que ocurrirá en otra generación, más o menos, lo tendremos como lo que llamar a una función de plan de registro donde en realidad está integrada en la base del código del software para [el] cámara. Pero en este momento, se trata más del nivel de participación específica del cliente para esa nueva característica.


Análisis y contexto: La superresolución para vídeo es una característica que, hasta ahora, no había aparecido en las cámaras de los teléfonos inteligentes. Es un campo tan nuevo que Todavía se están escribiendo artículos de investigación al respecto.. Usar técnicas de fotogramas múltiples para fotografía es una cosa, pero usarlas para video para mejorar el video a una resolución más alta es un asunto completamente diferente. Qualcomm dice que está implementando la función nuevamente para "algunos clientes clave", pero en este momento no está integrada en la base del código de software de la cámara. En el futuro, puede que esté disponible para todos, pero por ahora, es una característica que los consumidores finales ni siquiera han podido utilizar todavía.


Sensores Quad Bayer de altos megapíxeles

Vía: AnandTech

Idrees Patel: Hablemos de los sensores Quad Bayer. Desde 2019, muchos teléfonos ahora tienen sensores de 48MP, 64MP y ahora incluso de 108MP. Se trata de sensores Quad Bayer; en realidad no tienes una resolución de color real de 48, 64 o 108 MP. Una cosa que quería preguntar era en qué se diferencia el ISP en términos de procesamiento de imágenes para estos Quad Bayer o Nona. Sensores Bayer (agrupación de píxeles 4 en 1 o 9 en 1), en comparación con los sensores tradicionales, que no tienen ningún píxel agrupamiento.

judd heape: Sí, por supuesto, el beneficio de estos sensores cuádruples CFA (Quad Color Filter Array) es la capacidad de funcionar con luz brillante. ellos a máxima resolución, y luego el ISP puede procesarlos a 108 megapíxeles o 64 megapíxeles o lo que sea disponible.

Sin embargo, normalmente en la mayoría de las situaciones de iluminación, como en interiores o en la oscuridad, hay que agrupar porque los píxeles del sensor son tan pequeños que hay que combinarlos para obtener una mejor sensibilidad a la luz. Entonces, yo diría que la mayoría de las veces, especialmente si estás grabando un video o si estás en condiciones de poca luz para tomar una instantánea, estás ejecutando en modo agrupado.

Ahora, el ISP puede procesar el sensor de cualquier manera. Puede mirar el sensor en modo agrupado, en cuyo caso es solo una imagen normal de Bayer, o puede verlo en modo de resolución completa, en el que los datos entrantes son cuádruple CFA. Y si está en ese modo el ISP lo convierte a Bayer.

Por eso estamos haciendo lo que llamamos "remosaicing". Esto está haciendo una interpolación de la imagen cuádruple CFA para que parezca Bayer de resolución completa nuevamente. Y eso generalmente se hace en software para instantáneas, aunque eventualmente agregaremos esta capacidad en el hardware para admitir video también.

Lo que hay hoy en el hardware del ISP se está agrupando. Por lo tanto, puede agrupar el sensor y puede hacer que el sensor decida si va a generar una resolución completa, un cuarto o 1/9, o puede agruparlo en el ISP. Y esa es una característica que agregamos en Snapdragon 865, de hecho. Entonces, si agrupa el ISP y luego ejecuta el sensor a resolución completa, el ISP tendrá la capacidad de tener tanto la imagen de resolución completa como la imagen agrupada al mismo tiempo. Por lo tanto, puede usar la resolución más pequeña o la imagen "agrupada" para video (videocámara) y vista previa (visor) y usar simultáneamente la imagen de resolución completa para una instantánea de tamaño completo.

Pero nuevamente, eso sería en el caso de condiciones de iluminación brillante. Pero al menos si conectas el ISP, tienes la capacidad de manejar tanto la imagen grande como la pequeña al mismo tiempo. al mismo tiempo y, por lo tanto, puede obtener video e instantáneas simultáneamente, también puede obtener resolución completa ZSL; todo sin tener que cambiar el sensor de un lado a otro, lo que lleva una cantidad de tiempo considerable.

Esta es una característica realmente buena. Y como sensores Quad CFA e incluso ya sabes, salen los sensores 9x y tal vez incluso más, y a medida que estos sensores se vuelven más omnipresente: buscamos cada vez más cómo manejar esos sensores en el hardware, no solo para agrupar sino también para resaicing.

Y el beneficio de esto es que si lo haces en el hardware en lugar de hacerlo en el software, reduces el latencia para sus clientes y, por lo tanto, los tiempos de toma a toma y sus tasas de ráfaga serán mucho más rápidas. Entonces, a medida que avancemos con nuevos ISP y nuevos chips, comenzarán a ver mucho más de lo que estamos haciendo para estos nuevos tipos de sensores incorporados al hardware.


Análisis y contexto: Huawei fue el primero en utilizar un sensor Quad Bayer de 40MP con el Huawei P20 Pro en 2018, y la popularidad de los sensores Quad Bayer era tan alta que ahora han llegado incluso a teléfonos de 150 dólares con chips Snapdragon/Exynos/MediaTek. En particular, hemos visto a la industria de los teléfonos inteligentes llegar a las cámaras de 48MP y 64MP como el punto óptimo, mientras que algunos teléfonos llegan hasta los 108MP. Los sensores Quad Bayer y Nona Bayer no están exentos de aspectos negativos, ya que su resolución completa tiene sus salvedades.

Sin embargo, por razones de marketing, un sensor de 48MP suena mucho mejor que un sensor de 12MP, incluso si el usuario toma fotografías agrupadas con píxeles de 12MP la mayor parte del tiempo. En teoría, un sensor de 48 MP debería dar como resultado mejores fotografías agrupadas de píxeles de 12 MP en condiciones de poca luz que un sensor tradicional de 12 MP. sensor, pero el procesamiento de imágenes tiene que mantenerse al día y, como menciono a continuación, queda un largo camino por recorrer para lograrlo. suceder. De todos modos, fue interesante ver cómo el ISP de Spectra maneja los sensores Quad Bayer con remosaicing. Hay mucho potencial en estos sensores y en teléfonos como el OnePlus 8 Pro (que utiliza un sensor Sony IMX689 Quad Bayer con píxeles grandes) Actualmente están en la cima de las cámaras de los teléfonos inteligentes..


Reconocimiento facial basado en ML

Mishaal Rahman: Creo que antes mencionaste que el Spectra 480 admite el reconocimiento facial basado en ML. Eso es algo que escuché en la Cumbre Tecnológica. [Que esta es] una de las mejoras del 380 al 480; que es parte de: hay un nuevo bloque de detección de objetivos en el motor de análisis de video que se utiliza para el reconocimiento espacial en el futuro.

¿Puedes hablar más sobre cuánto mejora esto el reconocimiento facial y qué aplicaciones potenciales crees que utilizan los proveedores?

judd heape: Sí, de hecho, estás justo en el bloque de visión por computadora integrada, que es el bloque "EVA", del que hablamos en Tech Summit. Tiene un núcleo de detección de objetos general que usamos cuando la cámara está funcionando, lo usamos para detectar caras. Las técnicas en ese bloque son técnicas más tradicionales, por lo que el reconocimiento de objetos se realiza con métodos tradicionales. clasificadores, pero además de eso tenemos un motor de software ejecutándose para mejorar la precisión de ese bloquear.

Por lo tanto, utilizamos software basado en ML para filtrar los falsos positivos, ya que el hardware podría detectar más cosas como caras en la escena, y luego el software ML es decir "está bien, eso es una cara" o "eso realmente no es una cara", por lo que aumenta la precisión en unos pocos puntos porcentuales al ejecutar ese filtro ML encima del hardware.

Mencioné muchas cosas sobre el futuro. En el futuro, lo que también planeamos hacer es ejecutar toda la detección de rostros en ML o en modo de aprendizaje profundo en el software. Especialmente, eso será cierto en los niveles inferiores, por lo que, por ejemplo, en un nivel donde no tenemos el motor de hardware EVA, comenzaremos a implementar el aprendizaje profundo. como detección, que se ejecuta en el motor de IA del chip y luego, en los niveles superiores en los niveles 700-800 tenemos el hardware EVA para hacer esto...

Sin embargo, diré que, en general, avanzaremos más hacia enfoques de aprendizaje automático para realizar la detección de rostros y eso incluiría tanto el software en el mediano plazo como el hardware en el futuro. No voy a revelar qué productos lo tendrán pero, por supuesto, a medida que avancemos en la mejora del ISP, seguramente agregaremos más y más capacidad de hardware para realizar ML.

Mishaal Rahman: Impresionante. Bueno, creo que es un hecho que la dirección que vamos es llevar las mejoras de aprendizaje automático de la serie 800 al nivel inferior, así que creo que en general es un hecho. Pero, por supuesto, no nos puede dar detalles específicos al respecto. Gracias por la actualizacion.

judd heape: La detección de rostros es algo que nos apasiona mucho. Queremos mejorar estas precisiones, generación tras generación, en todos los niveles, desde el nivel 800 hasta el nivel 400. ML es una gran parte de eso.


Análisis y contexto: Estos aspectos son los que dan a la fotografía con teléfonos inteligentes mucho más potencial que incluso las últimas cámaras sin espejo. Sí, las cámaras sin espejo tienen mejor calidad de imagen en condiciones de poca luz y son mucho más flexibles, pero las cámaras de los teléfonos inteligentes están superando sus limitaciones de formas ingeniosas. La detección de rostros basada en ML es solo una parte de eso.


Mejoras en el motor de procesamiento de imágenes.

Mishaal Rahman: Impresionante. Entonces, una de las cosas que escuché brevemente durante las mesas redondas posteriores a la Cumbre Tecnológica de Snapdragon fue una mejora en el motor de procesamiento de imágenes. Escuché que se ha mejorado la reducción de ruido de frecuencia media baja o LEANR. Y que estás aplicando un mapa dinámico de ganancia inversa; ¿Es algo que mencionaste anteriormente en la conversación?

judd heape: Ah, okey. Entonces creo que estás mezclando dos cosas. Sí, existe el núcleo LEANR, que es el núcleo que trabaja en la reducción de ruido en granos más gruesos, lo que ayuda en condiciones de poca luz. Ese es un nuevo bloque que se agregó en el Snapdragon 865 al ISP, y eso es una cosa.

El mapa de ganancia inversa es otra cosa. Eso es algo más que mencioné en las mesas redondas, pero es revertir los efectos del sombreado de las lentes. Como sabes, si tienes un teléfono y tiene una lente pequeña; el centro de la lente será brillante y los bordes estarán más viñetados; lo que significa que serán más oscuros.

Y entonces, en años pasados ​​en el ISP, lo que hemos tenido es que hemos aplicado un mapa de ganancia inversa estático para eliminar esos bordes oscuros. Y eso ha estado en el ISP durante bastante tiempo. Sin embargo, lo que agregamos en Snapdragon 865 es la capacidad de que ese mapa de ganancia cambie dinámicamente dado el marco de imagen particular, porque si aplicas muchas ganancias a los bordes Lo que sucede es que los bordes pueden recortarse, especialmente si estás mirando escenas de luz brillante en el exterior, como si el cielo azul se volviera blanco o los bordes se recortarían debido a una gran cantidad de ganar.

Entonces, en el Snapdragon 865, ese mapa de ganancia inversa no es estático; es dinámico. Entonces miramos la imagen y decimos: "Está bien, estas partes de la imagen están siendo recortadas y no deberían serlo", para que podamos rodar. fuera del mapa de ganancia de forma natural para que no obtenga franjas brillantes o efectos de halo o este tipo de cosas al corregir la lente sombreado. Eso es diferente de la reducción de ruido, y son dos núcleos diferentes.


Fotografía con poca luz y reducción de ruido agresiva

Sony Xperia 1 II, un buque insignia con motor Snapdragon 865
DxOMark compara la reducción de ruido en las siguientes generaciones de iPhones

Idrees Patel: Una cosa que quería preguntar era sobre la fotografía con poca luz. Como en los últimos años, ha habido muchos modos nocturnos [implementados por OEM], pero una cosa que he notado es que Muchos fabricantes de dispositivos optan por una reducción de ruido agresiva, que reduce los detalles, hasta el punto de que incluso el ruido de luminancia es remoto.

Entonces mi pregunta es: ¿Qualcomm recomienda a los fabricantes de dispositivos que no hagan eso? ¿Es algo que hacen sus procesos de procesamiento o es algo influenciado por el ISP en el SoC?

judd heape: Mucho de eso tiene que ver con el ajuste, y si no tienes multicuadro, o diría que no hay disponible un muy buen sensor de imagen, con alta sensibilidad u óptica con números f bajos. Una forma de eliminar el ruido en condiciones de poca luz en particular es aplicar más reducción de ruido, pero lo que sucede cuando aplica más reducción de ruido es que se pierden detalles, por lo que los bordes nítidos se vuelven borrosos. Ahora puedes deshacerte de eso si aplicas estas técnicas de fotogramas múltiples. O si aplicas técnicas de inteligencia artificial, que pueden determinar dónde están los bordes de los objetos y las caras, y ese tipo de cosas. Por lo tanto, aplicar solo una reducción de ruido de fuerza bruta hoy en día no es realmente la forma de manejarlo porque terminas perdiendo detalles.

Lo que quieres hacer es utilizar técnicas de fotogramas múltiples o técnicas de IA para poder seguir aplicando ruido. reducción a áreas más parecidas al interior de los objetos mientras se mantienen los bordes limpios y agradables o se mantienen los bordes afilados objetos. Entonces eso es lo que yo diría: usar IA o fotogramas múltiples es la forma de reducir el ruido y mejorar las imágenes en condiciones de poca luz en el futuro.

Idrees Patel: Sí, y eso es exactamente lo que quería oír. [Es] porque eso es lo principal que separa las excelentes cámaras de los teléfonos inteligentes de las cámaras de nivel medio o económico.

judd heape: Sí.

Idrees Patel: Las excelentes cámaras de los teléfonos inteligentes saben cuándo aplicar la reducción de ruido y cuándo no.

judd heape: Exactamente. Sí, y como dije, el ajuste de la cámara lo realizan realmente nuestros clientes u OEM, y algunos OEM prefieren una imagen más suave con menos ruido. Algunos prefieren revelar más detalles quizás con un poco más de ruido.

Entonces es una compensación y por eso tienes limitaciones. Y es como dije, lo mejor que se puede hacer es obtener un mejor sensor de imagen con mayor sensibilidad. píxeles más grandes o ópticas de número f más bajo, porque entonces obtienes más luz desde el principio, esto siempre es mejor. Pero si no puedes hacer eso, entonces en lugar de simplemente aumentar la reducción de ruido y perder detalles, lo que debes hacer es usar técnicas de múltiples fotogramas o de IA.


Análisis y contexto: Este, en mi opinión, es actualmente el mayor problema con las cámaras de los teléfonos inteligentes. Sí, puedes usar un sensor de 48MP o 64MP o incluso uno de 108MP. Sin embargo, si no opta por utilizar una reducción de ruido restringida con técnicas MFNR o AI, todos esos megapíxeles, el agrupamiento 4 en 1 e incluso el agrupamiento 9 en 1 no son de mucha utilidad. El Galaxy S20 Ultra es el mejor ejemplo aquí, ya que su cámara principal de 108MP fue considerado en gran medida como una decepción. Samsung retrocedió en el procesamiento de imágenes al utilizar una reducción de ruido extremadamente agresiva en sus modos nocturnos en sus buques insignia de 2020, mientras que, irónicamente, la serie Galaxy S10 de 2019 tenía una mejor calidad de imagen.

Judd revela que algunos fabricantes de equipos originales prefieren una imagen más suave con menos ruido, lo que es fundamentalmente una decisión equivocada. El ajuste lo realizan los fabricantes de dispositivos y, por lo tanto, dos teléfonos que utilizan el mismo sensor y funcionan con el mismo SoC pueden generar fotografías muy, muy diferentes. Es de esperar que estos fabricantes de dispositivos aprendan la verdad de sus competidores con mejor desempeño. Si bien Samsung perdió el rumbo en el procesamiento de imágenes este año, OnePlus ha sido un marcado contraste. El OnePlus 8 Pro es una de las mejores cámaras para teléfonos inteligentes del mercado, lo cual es un logro notable considerando el muy pobre rendimiento de la cámara del OnePlus 5T en 2017. La mentalidad de procesamiento de imágenes tiene que cambiar para que las fotos salgan nítidas, sin importar cuánto continúen las guerras de megapíxeles.


Decodificación y codificación AV1

Mishaal Rahman: Así que esto está un poco separado de las otras discusiones que estamos teniendo sobre la calidad de la cámara. Una de las cosas que algunas personas en la comunidad de códecs de medios de código abierto se han estado preguntando es cuándo admitirá Qualcomm. decodificación AV1 y posiblemente codificación. Sé que es un poco exagerado, pero Google requiere televisores 4K HDR y 8K en Android 10 para admitir la decodificación AV1 y Netflix. YouTube, están iniciando el lanzamiento de videos codificados en AV1. Entonces parece un lento aumento de videos codificados con AV1. Entonces nos preguntamos cuándo estará disponible al menos el soporte de decodificación en Spectra.

La declaración de Qualcomm: Según su pregunta sobre AV1: no tenemos nada que anunciar hoy. Sin embargo, Snapdragon actualmente es capaz de reproducir AV1 a través de software. Qualcomm siempre está trabajando con socios en códecs de próxima generación mediante la creación de software y hardware. Snapdragon, líder en códecs HDR que incluyen captura y reproducción en HEIF, HLG, HDR10, HDR10+ y Dolby Visión. Por supuesto, nos damos cuenta de que para brindar las mejores experiencias CODEC a nuestros clientes, incluido el soporte de alta resolución y menor potencia, es deseable implementarlas en HW.


Grabación de vídeo: compensación de movimiento

Mishaal Rahman: Entonces, no sé si Idrees tiene más preguntas, pero sí tenía una pregunta sobre algo que leí en la Cumbre Tecnológica de Snapdragon. Se trata del núcleo de vídeo con compensación de movimiento. Escuché que hay mejoras en el motor de compensación de movimiento para reducir el ruido al grabar video. Me preguntaba si podría explicar qué se ha mejorado exactamente y qué se ha hecho.

judd heape: El motor EVA (Engine for Video Analytics) se ha mejorado con un núcleo de mapa de movimiento más denso para que el EVA El motor, ya sabes, por ejemplo, siempre está mirando el vídeo entrante y tiene un núcleo allí que está haciendo movimiento. Estimacion. Lo que hemos hecho es que hemos hecho que el núcleo sea mucho más preciso, ya que lo hace casi a nivel de píxel en lugar de algo más. nivel de bloque grueso, por lo que obtenemos muchos más vectores de movimiento del motor EVA en Snapdragon 865 que en versiones anteriores. generaciones. Y lo que eso significa es que el núcleo de vídeo que realiza la codificación puede utilizar esos vectores de movimiento para ser más precisa sobre la codificación, pero el ISP del lado de la cámara también usa esa información para el ruido reducción.

Como saben, durante generaciones hemos tenido filtrado temporal con compensación de movimiento, que en realidad es la reducción activa de ruido durante el video, que promedia los fotogramas a lo largo del tiempo para eliminar el ruido.

Sin embargo, el problema con esa técnica es si hay movimiento en la escena. El movimiento termina siendo rechazado por la reducción de ruido porque no se puede manejar o se mancha, y aparecen estos feos rastros y artefactos en las cosas en movimiento. Entonces, en el filtrado temporal compensado por movimiento, lo que hemos hecho en el pasado ya que no teníamos este mapa de movimiento denso para local. movimiento, tenemos - simplemente manejamos casos cuando estás moviendo la cámara, es bastante fácil porque todo se está moviendo globalmente.

Pero si estás filmando algo y tienes un objeto moviéndose DENTRO de la escena, lo que hicimos antes [fue eso] simplemente ignoramos esos píxeles porque no podíamos procesarlos para detectar ruido, porque era un movimiento local objeto. Y por lo tanto, si promediabas cuadro por cuadro, el objeto estaba en un lugar diferente en cada cuadro, por lo que realmente no podías procesarlo.

Pero en Snapdragon 865, tenemos un mapa de movimiento más denso y tenemos la capacidad de observar los vectores de movimiento en casi un píxel. Por píxel, en realidad podemos procesar esos píxeles movidos localmente cuadro por cuadro para reducir el ruido, mientras que antes no podíamos. Creo que mencioné una métrica en la charla. no recuerdo el numero (era 40%) pero era un gran porcentaje de píxeles en promedio para la mayoría de los videos los que ahora pueden procesarse para detectar ruido, mientras que en la generación anterior no podían serlo. Y eso se debe en parte a tener la capacidad de comprender el movimiento local y no sólo el movimiento global.


Grabación de vídeo - HDR

Idrees Patel: Otra pregunta que tengo es sobre el vídeo HDR. Este año, veo que muchos más fabricantes de dispositivos ofrecen grabación de vídeo HDR10. Entonces, ¿es algo que se promocionó con el Snapdragon 865 o ha estado ahí desde algunas generaciones?

judd heape: Ah, sí, como hablamos de ello en Tech Summit, teníamos HDR10, que es el estándar de video para HDR en el lado de codificación de la cámara desde hace algunas generaciones, desde Snapdragon 845, creo, y hemos mejorado constantemente eso.

El año pasado hablamos de HDR10+, que es grabación HDR de 10 bits, pero en lugar de metadatos estáticos tiene metadatos dinámicos, por lo que los metadatos capturados por la cámara durante la escena se graba en tiempo real, de modo que cuando la reproduce, el motor de reproducción entiende si era una habitación oscura o luminosa, y puede compensar eso.

El año pasado también hablamos en Tech Summit sobre la captura Dolby Vision, que es la alternativa de Dolby a HDR10+. Es muy similar donde también producen metadatos dinámicos. Por lo tanto, hoy Snapdragon puede admitir estos tres formatos: captura HDR10, HDR10+ y Dolby Vision. Y para que realmente no haya restricciones, nuestros OEM pueden elegir el método que prefieran. Hemos tenido clientes que utilizan HDR10 desde hace un tiempo, y el año pasado y este año cada vez más clientes eligieron HDR10+. Y creo que en el futuro también veremos cierta adopción de Dolby Vision Capture.

Así que sí, lo hemos estado promocionando mucho. HDR es realmente importante para nosotros, tanto en el lado de las instantáneas como en el de los vídeos. Y como dije, nos hemos comprometido con los formatos HDR10 y HDR10+ y ahora Dolby Vision, ya sabes, desde Snapdragon 845 y ahora incluso recientemente Snapdragon 865 para Dolby Vision.

Mishaal Rahman: Además, en realidad no estaba seguro de si algún proveedor había implementado todavía la grabación Dolby Vision, pero supongo que eso responde a esa pregunta. [Eso es] algo que veremos en el futuro.

judd heape: Por supuesto, no puedo comentar qué proveedores están interesados ​​ni ese tipo de cosas. Esa sería una pregunta para Dolby; es su característica y, por lo tanto, si desea obtener más información al respecto, le sugiero que se comunique con Dolby. Pero hasta la fecha, hasta donde yo sé, no ha habido ningún teléfono que haya lanzado Dolby Vision Capture.

Idrees Patel: Porque también necesitas soporte de visualización. He notado que las pantallas de los teléfonos inteligentes admiten HDR10 y HDR10+, pero no Dolby Vision.

judd heape: Sí, en realidad, pero la reproducción Dolby Vision fue compatible con Snapdragon en el pasado. Puede funcionar con una pantalla determinada y la pantalla no tiene que cumplir necesariamente ningún criterio específico para ser compatible con Dolby Vision, excepto que Dolby calificará la pantalla y se asegurará de que tenga una cierta gama de colores, gamma, cierta profundidad de bits, cierto brillo y cierto contraste. relación.

Entonces, ya sabes, puedes comprar una pantalla HDR10, pero también puedes comprar un teléfono compatible con Dolby Vision. reproducción, pero Doby habrá calificado esa pantalla para asegurarse de que cumpla con sus estrictas requisitos.


Colaboración con proveedores de software: Imint, Morpho y Arcsoft

Mishaal Rahman: Supongo que solo una pregunta para seguir, para investigar más, es una empresa con la que hemos hablado recientemente: Imint. Recientemente actualizaron su Software de estabilización Vidhance a trabajar con el espectro 480. Sé que ustedes trabajan con muchas empresas que también aprovechan el procesamiento del Spectra 480. Me pregunto si puede revelar más ejemplos de estas tecnologías que tienen (o los socios que han tenido) trabajado, solo para que sea] algo a lo que podamos darle seguimiento, aprender más sobre cómo se usa Spectra 480 en el campo.

judd heape: Trabajamos con muchos proveedores de software. Como mencionamos en el pasado, Dolby es uno de ellos. Hay otros como usted mencionó, Imint/Vidhance para EIS (Estabilización electrónica de imagen). También mencionamos antes a Morpho y Arcsoft, también trabajamos muy de cerca con ellos.

Sin embargo, en cuanto a cómo trabajamos con ellos, nuestra política es que realmente queremos trabajar muy de cerca con estos proveedores de software independientes y hacer Asegúrese de que, independientemente de lo que estén haciendo en el software, puedan aprovechar el hardware en Snapdragon para obtener el menor consumo de energía. posible.

Entonces, una de las cosas que estamos haciendo con estos proveedores es asegurarnos de que tengan muy buen acceso al motor HVX o al núcleo Hexagon DSP. También están usando el motor EVA para obtener vectores de movimiento y usar el hardware y el motor EVA para la manipulación de imágenes, de modo que pueden realizar movimiento de imágenes, traducción y corrección de distorsiones y ese tipo de cosas en un hardware en lugar de usar la GPU para hacerlo. eso.

Por eso, trabajamos muy de cerca con estos ISV, especialmente los que mencioné en particular, para asegurarnos de que no simplemente pongan todo y software en la CPU, pero están usando cosas como el DSP y aceleradores de hardware en el EVA para obtener un mejor rendimiento y menor consumo de energía. consumo. Eso también es muy importante para nosotros porque ofrece a nuestros clientes la mejor combinación posible de funciones y consumo de energía.

[Comentarios finales de Judd]: Solo quería decirles gracias a todos por todas las preguntas realmente buenas. Son muy, muy detallados. He estado en Qualcomm durante aproximadamente tres años y analizo nuestro pasado, incluso más allá de mi mandato aquí, donde comenzamos antes con Spectra. Snapdragon 845, trabajamos muy duro para mejorar drásticamente el ISP, la cámara y la experiencia general en los últimos años. años. Estoy muy entusiasmado incluso con lo que nos depara el futuro. Y estoy entusiasmado con lo que anunciaremos en futuras Cumbres Tecnológicas sobre las cuales ustedes podrán preguntar y escribir. [Spectra Camera], probablemente, en mi opinión, es una de las tecnologías más interesantes de Qualcomm.


Pensamientos finales

Fue fantástico conversar con Judd sobre las contribuciones de Qualcomm a la fotografía de teléfonos inteligentes. Podemos tener sentimientos encontrados sobre la empresa y su sistema de licencias de patentes, pero todos sienten la huella de Qualcomm en la industria de los teléfonos inteligentes, ya sea que se trate de patentes, 4G y 5G, Wi-Fi, las GPU Adreno, los ISP Spectra y los propios chips Snapdragon, que en gran medida se consideran el estándar de oro en los teléfonos inteligentes Android. mercado.

Todavía quedan muchos puntos débiles que deben resolverse en la fotografía con teléfonos inteligentes, pero el futuro es brillante ya que Qualcomm promete hacer más avances en los vastos y crecientes campos del ML, que impulsa AI. Veamos qué tiene que anunciar Qualcomm en este campo en el próximo Snapdragon Tech Summit.