Como a Qualcomm está melhorando as câmeras em telefones Android

Judd Heape, da Qualcomm, explica como a Qualcomm está melhorando as experiências de câmera em telefones Android com novos recursos em seus ISPs Spectra.

Como fabricante de sistemas em chips (SoCs) que alimentam grande parte dos smartphones e wearables do mundo, a Qualcomm, com sede nos EUA, é sem dúvida um dos gigantes da indústria de fabricantes de chips. A linha de SoCs Snapdragon, por exemplo, é usada por quase todos os principais fabricantes de dispositivos Android para smartphones principais, intermediários e econômicos. A Qualcomm recebe aplausos todos os anos no Tech Summit anual da empresa por avanços nos campos de CPU, GPU e IA, ao incorporar as novas microarquiteturas de CPU da ARM e os complementa com melhorias anuais em suas GPUs personalizadas. No entanto, seus avanços no campo das câmeras não são tão notados, pois tendem a passar despercebidos. radar.

Isso não significa, porém, que o trabalho da Qualcomm em câmeras de smartphones não seja importante. Pelo contrário, os ISPs Spectra da Qualcomm em seus SoCs Snapdragon ajudam a tornar possíveis muitas das câmeras de smartphones modernos com maior poder de processamento computacional, recursos como gravação de vídeo 8K, vídeo HDR10, suporte para câmeras QCFA de alto megapixel e muito, muito mais. A Qualcomm promoveu o Spectra 380 ISP no Snapdragon 855

foi o primeiro CV-ISP do mundo, e promoveu os primeiros recursos de gravação de vídeo 4K HDR do mundo, que agora foram complementados pela gravação de vídeo 4K HDR10+ de 2ª geração. O Spectra 480 ISP na última geração Snapdragon 865 é altamente capaz - pode processar dois gigapixels por segundo, um aumento de 40% em relação ao seu antecessor. É uma propriedade intelectual (IP) que diferencia a Qualcomm de seus concorrentes no mercado de fornecedores de chips móveis.

Embora a Qualcomm explique a maioria das manchetes em seus comunicados à imprensa e palestras de produtos, até até agora, os consumidores não tiveram a oportunidade de conhecer a maior parte dos detalhes de baixo nível que tornam essas coisas trabalhar.

É por isso que nós do XDA Developers ficamos felizes em aceitar uma oferta para falar com Judd Heape, Diretor Sênior de Gerenciamento de Produtos da Qualcomm. O editor-chefe do XDA, Mishaal Rahman, e eu tivemos uma entrevista com Judd em junho de 2020 para aprender e ver como a Qualcomm está avançando nas metas com fotografia e gravação de vídeo em smartphones. Conversamos sobre tópicos como processamento de imagem AI, redução de ruído multiquadro (MFNR), AV1, gravação de vídeo Dolby Vision, binning de pixels em câmeras de alto megapixel e muito mais. Vamos dar uma olhada nos insights de Judd sobre cada tópico, um por um:

Cargas de trabalho de processamento de imagens de IA

Mishaal Rahman: Vou começar com um dos que o Idrees tinha, que é interessante e que também me interessou. Então, estamos nos perguntando quais são as cargas de trabalho de processamento de imagens de IA que a Qualcomm usa no Spectra ISP e até que ponto elas são personalizáveis pelos fabricantes de dispositivos?

Judd Heape: Sim, analisamos muitas cargas de trabalho de IA e há algumas IA que podem ser executadas no próprio ISP como, por exemplo, nossa próxima geração 3A: exposição automática, equilíbrio de branco automático e foco automático são IA baseado.

Mas também analisamos algumas outras cargas de trabalho de IA, que seriam executadas fora do ISP, em um dos outros elementos de computação. Então, em particular, olhamos para coisas como: temos um núcleo de redução de ruído baseado em IA que funciona externamente do ISP, na parte do mecanismo de IA (AIE) do chip.

Além disso, temos coisas como detecção de rosto, que é um mecanismo completo de aprendizado profundo que também roda no complexo AIE, mas é claro que auxilia a câmera. E há outras coisas em que estamos trabalhando além da detecção de rosto e eliminação de ruído; também estamos pensando em fazer coisas como um ajuste automático de instantâneos usando IA que definiria automaticamente parâmetros por cena com base no conteúdo HDR, processaríamos para modificar sombras, realces e cores e esse tipo de coisa.

Um de nossos parceiros, Morpho, acaba de ganhar um grande prêmio de carga de trabalho de IA no Embedded Vision Summit deste ano. Parceiros fornecedores de software independentes também têm muitos algoritmos realmente intensos baseados em IA e podem variar de qualquer coisa como câmera suave transição, como o que a Arcsoft faz, (mencionei isso no último Snapdragon Tech Summit que é baseado em IA), para a segmentação semântica do Morpho motor. A solução da Morpho é um mecanismo de IA que entende diferentes partes da cena, como você sabe, tecido versus pele versus céu e grama e construção e esse tipo de coisa e então o ISP pode pegar essa informação e processar esses pixels de maneira diferente para textura, ruído e cor para exemplo.

Declaração da Qualcomm: Para ML e IA, também não estamos anunciando nenhuma nova atualização para os recursos de detecção de rosto e “3A” (AE, AF e AWB) hoje. No entanto, como Judd disse, estamos comprometidos, no futuro, em trazer mais capacidade de ML/AI para a câmera, incluindo essas duas áreas de recursos.

Análise e contexto: IA em smartphones tem sido amplamente considerada uma palavra da moda desde que as primeiras unidades de processamento neural (NPUs) e recursos "baseados em IA" começaram a chegar em telefones Android. No entanto, isso não significa que a IA em si não tenha sentido. Pelo contrário, a IA tem muito potencial em dispositivos móveis, a tal ponto que os fornecedores de chips e os fabricantes de dispositivos estão apenas arranhando a superfície do que é possível.

Graças à IA, as câmeras dos smartphones ficaram melhores – às vezes rapidamente, às vezes dolorosamente lentas, mas estão chegando lá. As câmeras dos smartphones estão superando limitações fundamentais, como sensores relativamente menores, distâncias focais e óptica pior com fotografia computacional inteligente alimentada por aprendizado de máquina (ML). Exposição automática, redução de ruído, detecção de rosto e segmentação são apenas alguns dos campos onde a IA na fotografia de smartphones conseguiu causar impacto. Nos próximos cinco anos, esses campos nascentes de IA que melhoram diferentes aspectos da fotografia amadurecerão muito.

Redução de ruído multiquadro

Idrees Patel: A Qualcomm tem mencionado a redução de ruído multiquadro como um recurso. Gostaria de saber mais detalhes sobre como funciona o empilhamento de imagens. É semelhante ao que o Google está fazendo com sua tecnologia HDR + ou é completamente diferente?

Judd Heape: É semelhante, mas diferente. Imagine a câmera fazendo uma sequência e capturando de cinco a sete quadros em rápida sucessão. Em seguida, o mecanismo do ISP analisa esses quadros e escolhe o melhor (chamado de "quadro âncora") para foco e clareza e, em seguida, ele pode escolher de 3 a 4 quadros em cada lado desse quadro e, em seguida, calcular a média de todos eles junto. Ele tenta escolher quadros que estejam próximos o suficiente para que haja muito pouco movimento.

E quando se estabelece nesses quadros, ele calcula a média deles para discernir o que é diferente, por exemplo, o que são dados de imagem reais versus o que são dados de ruído. Então, quando você tem mais e mais informações, de mais e mais quadros, você pode fazer coisas simples, como observar as diferenças entre os quadros. As diferenças são provavelmente ruído, enquanto o que é igual nos quadros provavelmente são dados de imagem.

Assim, podemos fazer essa combinação de quadros em tempo real para reduzir o ruído. Agora, você também pode fazer a mesma coisa com pouca luz e HDR, e isso é muito parecido com o que o Google provavelmente está fazendo. Não temos conhecimento do algoritmo deles. Mas eles estão usando técnicas multi-frame para aumentar a sensibilidade para que você possa “ver” melhor; depois de reduzir o nível de ruído, agora você pode fazer mais mapeamento de tons locais ou adicionar ganho à imagem sem adicionar mais ruído.

É assim que eles lidam com pouca luz, assim como com HDR. Aprimoramentos no recurso de redução de ruído multiquadro virão da Qualcomm, que também incluirá pouca luz e HDR. Mas isso é algo que lançaremos em breve.

Mishaal Rahman: Então você mencionou o lançamento desse recurso em breve. Isso é uma atualização do BSP para parceiros?

Judd Heape: Em nossos produtos de próxima geração, por meio de uma adição de software, teremos a capacidade de interagir - na verdade, isso está acontecendo agora mesmo no próximo produtos de última geração - estamos interagindo com os clientes agora para usar mais técnicas multi-frame além da redução de ruído, mas também para lidar com HDR e pouca luz situações. Ele está usando o mesmo mecanismo básico de HW do ISP, mas estamos adicionando mais software para lidar com esses multi-frames para mais do que apenas redução de ruído.

Portanto, não é algo que foi lançado, mas estamos interagindo com alguns clientes importantes sobre esses recursos.

Análise e contexto: A cada novo anúncio do Snapdragon SoC, a tabela de especificações da Qualcomm inclui especificações relacionadas à redução de ruído multiframe. O Snapdragon 865, por exemplo, com seus ISPs CV duplos de 14 bits suporta até uma hipotética câmera única de 200 MP (embora fornecedores de sensores de câmera como Sony, Samsung e OmniVision ainda não tenham lançado nenhum sensor de câmera de smartphone acima de 108MP). No entanto, quando se trata de suporte para câmera única com MFNR, atraso zero do obturador (ZSL) e suporte a 30fps, o a especificação muda para 64 MP, e para câmeras duplas com as mesmas especificações, a especificação muda para 25 MP.

A redução de ruído multiquadro da Qualcomm é muito semelhante ao HDR+, mas não totalmente igual, conforme explicado por Judd acima. Enquanto o HDR+ tira uma série de exposições subexpostas e calcula a média delas para obter a melhor foto, o MFNR tira cinco a sete quadros normais. Não parece que o MFNR da Qualcomm seja tão avançado quanto a solução do Google porque o HDR e a pouca luz não são mencionados como prioridades específicas no atual fluxo de trabalho para Spectra, enquanto o HDR + do Google visa HDR, fotografia com pouca luz e redução de ruído ao mesmo tempo, com Night Sight aumentando ainda mais avançar. No entanto, é encorajador saber que o MFNR está recebendo melhorias e a Qualcomm irá lançá-las para “alguns clientes importantes”. No futuro, talvez não precisemos de portas não oficiais da Câmera do Google para atingir todo o potencial das câmeras de smartphones Android que não são do Google.

Super resolução para vídeo

Fluxo de trabalho de super resolução do Google

Mishaal Rahman: Então, algo que ouvi no Tech Summit. Na verdade, acho que foi em entrevista com Autoridade Android. É que a Qualcomm está a planear estender a super resolução ao vídeo como uma solução de software para parceiros e que isso estaria a ser lançado numa atualização, aparentemente. Gostaria de saber se você tem alguma atualização para compartilhar sobre esse recurso.

Judd Heape: Sim, esse é um recurso que já conseguimos fazer há algum tempo e que só agora está sendo implementado. Eu não diria que está em uma atualização de software, mas diria que é como um benefício adicional do recurso existente de vários quadros e pouca luz. Estamos interagindo com alguns clientes líderes específicos sobre esse recurso. Então, sim, a super resolução de vídeo é algo em outra geração ou algo assim, teremos isso como chame um recurso de plano de registro onde ele realmente está integrado à base de código do software para [o] Câmera. Mas agora, está mais no nível de envolvimento específico do cliente para esse novo recurso.

Análise e contexto: A super resolução para vídeo é um recurso que, até agora, não aparecia nas câmeras dos smartphones. É um campo tão novo que trabalhos de pesquisa ainda estão sendo escritos sobre isso. Usar técnicas de vários quadros para fotografia é uma coisa, mas usá-las para vídeo para aprimorar o vídeo para uma resolução mais alta é uma questão totalmente diferente. A Qualcomm diz que está lançando o recurso para “alguns clientes importantes” novamente, mas no momento ele não está integrado à base de código do software da câmera. No futuro, poderá estar disponível para todos, mas por enquanto é um recurso que os consumidores finais ainda nem conseguiram usar.

Sensores Quad Bayer de alto megapixel

Via: AnandTech

Idrees Patel: Vamos falar sobre sensores Quad Bayer. Desde 2019, muitos telefones agora possuem sensores de 48 MP, 64 MP e agora até 108 MP. Estes são sensores Quad Bayer; na verdade, você não tem uma resolução em cores reais de 48, 64 ou 108 MP. Uma coisa que eu queria perguntar é como o ISP difere em termos de processamento de imagem para esses Quad Bayer ou Nona Sensores Bayer (binning de pixels 4 em 1 ou 9 em 1), quando comparados aos sensores tradicionais, que não possuem nenhum pixel lixo.

Judd Heape: Sim, então é claro que o benefício desses sensores quad CFA (Quad Color Filter Array) é a capacidade de funcionar sob luz forte eles em resolução total, e então o ISP pode processá-los em 108 megapixels ou 64 megapixels ou o que for disponível.

No entanto, normalmente na maioria das situações de iluminação, como ambientes internos ou escuros, é necessário descartá-los porque os pixels do sensor são tão pequenos que é necessário combiná-los para obter a melhor sensibilidade à luz. Então, eu diria que na maioria das vezes, especialmente se você estiver gravando um vídeo ou se estiver com pouca luz para tirar fotos, você está executando no modo binned.

Agora, o ISP pode processar o sensor de qualquer maneira. Você pode observar o sensor no modo binned, caso em que é apenas uma imagem normal da Bayer chegando, ou pode observá-lo no modo de resolução total, no qual os dados recebidos são quad CFA. E se estiver nesse modo o ISP converte para Bayer.

Então estamos fazendo - o que chamamos - "remosaicing". Isso está fazendo alguma interpolação da imagem quad CFA para fazer com que pareça novamente com a resolução total do Bayer. E isso normalmente é feito em software para instantâneo, embora eventualmente adicionemos esse recurso ao hardware para suportar vídeo também.

O que está no hardware do ISP hoje é binning. Assim, você pode armazenar o sensor e fazer com que o sensor decida se produzirá resolução total, um quarto ou 1/9, ou você pode armazenar no ISP. E esse é um recurso que adicionamos ao Snapdragon 865, na verdade. Portanto, se você armazenar no ISP e executar o sensor em resolução total, o ISP terá a capacidade de ter a imagem de resolução total e a imagem armazenada ao mesmo tempo. Portanto, ele pode usar a resolução menor ou imagem "armazenada" para vídeo (câmera de vídeo) e visualização (visor) e, simultaneamente, usar a imagem de resolução total para instantâneos em tamanho real.

Mas, novamente, isso seria no caso de condições de iluminação intensa. Mas pelo menos se você armazenar no ISP, terá a capacidade de lidar com imagens grandes e pequenas no ao mesmo tempo e, portanto, você pode obter vídeo e instantâneo simultâneos, também pode obter resolução total ZSL; tudo sem ter que alternar o sensor para frente e para trás, o que leva um tempo considerável.

Este é um recurso muito bom. E como sensores Quad CFA e até você sabe, os sensores 9x e talvez até mais são lançados, e à medida que esses sensores se tornam mais onipresente - estamos procurando cada vez mais lidar com esses sensores no hardware, não apenas para armazenamento, mas também para resaicing.

E então o benefício disso é que se você fizer isso no hardware em vez de fazer isso no software, você reduz o latência para seus clientes e, portanto, seus tempos de disparo a disparo e suas taxas de burst serão muito mais rápidos. Assim, à medida que avançamos com novos ISPs e novos chips, vocês começarão a ver muito mais do que estamos fazendo para esses novos tipos de sensores colocados em hardware.

Análise e contexto: A Huawei foi a primeira a usar um sensor Quad Bayer de 40MP com o Huawei P20 Pro em 2018, e a popularidade dos sensores Quad Bayer era tão alta que agora chegou a telefones de US$ 150 equipados com chips Snapdragon/Exynos/MediaTek. Em particular, vimos a indústria de smartphones chegar a câmeras de 48 MP e 64 MP como o ponto ideal, enquanto alguns telefones chegam a 108 MP. Os sensores Quad Bayer e Nona Bayer não vêm sem negativos, pois sua resolução total vem com ressalvas.

No entanto, por razões de marketing, um sensor de 48 MP soa muito melhor do que um sensor de 12 MP, mesmo que o usuário tire fotos com pixels de 12 MP na maior parte do tempo. Um sensor de 48 MP deveria, teoricamente, resultar em melhores fotos agrupadas em pixels de 12 MP com pouca luz do que um sensor tradicional de 12 MP sensor, mas o processamento de imagem tem que acompanhar, e como menciono abaixo, há um longo caminho a percorrer para que isso aconteça acontecer. Independentemente disso, foi interessante ver como o Spectra ISP lida com sensores Quad Bayer com resaicing. Há muito potencial nesses sensores e em telefones como o OnePlus 8 Pro (que usa um sensor Sony IMX689 Quad Bayer com pixels grandes) estão atualmente no auge das câmeras de smartphones.

Reconhecimento facial baseado em ML

Mishaal Rahman: Acho que você mencionou anteriormente que o reconhecimento facial baseado em ML é compatível com o Spectra 480. Isso foi algo que ouvi no Tech Summit. [Que esta é] uma das melhorias do 380 para o 480; que faz parte - há um novo bloco de detecção de objetivo no mecanismo de análise de vídeo que será usado para reconhecimento espacial daqui para frente.

Você pode falar mais sobre o quanto isso melhora o reconhecimento facial e quais aplicações potenciais você vê sendo usadas pelos fornecedores?

Judd Heape: Sim, na verdade, você está certo no bloco de visão computacional incorporada, que é o bloco "EVA", sobre o qual falamos no Tech Summit. Ele possui um núcleo geral de detecção de objetos que usamos quando a câmera está funcionando, estamos usando isso para detectar rostos. As técnicas desse bloco são técnicas mais tradicionais, portanto o reconhecimento do objeto é feito com métodos tradicionais classificadores, mas além disso temos um mecanismo de software em execução para realmente melhorar a precisão disso bloquear.

Então, estamos usando software baseado em ML para filtrar os falsos positivos, já que o hardware pode detectar mais coisas como rostos na cena, e então o software de ML é dizendo, "tudo bem, isso é um rosto" ou "isso realmente não é um rosto" e, portanto, está aumentando a precisão em alguns pontos percentuais executando o filtro de ML no topo do hardware.

Mencionei muitas coisas sobre o futuro. No futuro, o que planejamos fazer também é executar toda a detecção facial em ML ou em modo de aprendizagem profunda em software. Especialmente, isso será verdade nos níveis mais baixos, por exemplo, em um nível onde não temos o mecanismo de hardware EVA, começaremos a implementar o aprendizado profundo. como detecção, que está sendo executada no mecanismo de IA do chip e, mais tarde, nas camadas superiores das camadas 700-800, temos o hardware EVA para fazer isso...

Direi, porém, que em geral estaremos avançando mais em direção a abordagens de ML para fazer detecção de rosto e isso incluiria software no médio prazo e hardware no futuro. Não vou divulgar quais produtos o terão, mas é claro que, à medida que avançamos na melhoria do ISP, adicionaremos cada vez mais capacidade de hardware para fazer ML, com certeza.

Mishaal Rahman: Incrível. Bem, acho que é certo que a direção que você está tomando é trazer as melhorias de aprendizado de máquina da série 800 para o nível inferior, então acho que isso geralmente é um dado adquirido. Mas é claro que você não pode nos fornecer detalhes específicos sobre isso. Obrigado pela atualização.

Judd Heape: A detecção de rosto é algo pelo qual somos muito apaixonados. Queremos melhorar essas precisões, geração após geração em todos os níveis, desde o nível 800 até o nível 400. ML é uma grande parte disso.

Análise e contexto: Esses aspectos são o que dão à fotografia em smartphones muito mais potencial até mesmo em relação às câmeras sem espelho mais recentes. Sim, as câmeras sem espelho têm melhor qualidade de imagem com pouca luz e são muito mais flexíveis, mas as câmeras dos smartphones estão superando suas limitações de maneiras engenhosas. A detecção facial baseada em ML é apenas uma parte disso.

Melhorias no mecanismo de processamento de imagem

Mishaal Rahman: Incrível. Portanto, uma das coisas que ouvi brevemente durante as mesas redondas após o Snapdragon Tech Summit foi uma melhoria no mecanismo de processamento de imagem. Ouvi dizer que houve uma redução aprimorada de ruído de baixa frequência média ou LEANR. E que você está aplicando um mapa de ganho reverso dinâmico; é algo que você mencionou anteriormente na conversa.

Judd Heape: Oh, tudo bem. Então acho que você está misturando duas coisas. Pois é, então existe o núcleo LEANR, que é o núcleo que atua na redução de ruído em granulação mais grossa, o que ajuda em condições de pouca luz. Esse é um novo bloco que foi adicionado no Snapdragon 865 ao ISP, e isso é uma coisa.

O mapa de ganho reverso é outra coisa. Isso é outra coisa que mencionei nas mesas redondas, mas é para reverter os efeitos do sombreamento das lentes. Então, como você sabe, se você tem um aparelho com uma lente pequena; o centro da lente ficará brilhante e as bordas ficarão mais vinhetas; o que significa que eles ficarão mais escuros.

E assim, nos últimos anos, no ISP, o que tivemos foi que aplicamos um mapa de ganho reverso estático para nos livrar dessas bordas escuras. E isso já está no ISP há algum tempo. O que adicionamos no Snapdragon 865, porém, é a capacidade desse mapa de ganho mudar dinamicamente de acordo com o quadro de imagem específico, porque se você aplicar muitos ganhos nas bordas o que acontece é que as bordas podem ficar cortadas, especialmente se você estiver olhando para cenas com muita luz lá fora, como o céu azul pode ficar branco ou as bordas ficarão cortadas devido a muita luz ganho.

Portanto, no Snapdragon 865, esse mapa de ganho reverso não é estático; é dinâmico. Então, estamos olhando para a imagem e dizemos: "ok, essas partes da imagem estão sendo cortadas e não deveriam estar" para que possamos rolar fora do mapa de ganho naturalmente para que você não obtenha franjas brilhantes ou efeitos de halo ou esse tipo de coisa ao corrigir a lente sombreamento. Isso é diferente da redução de ruído e são dois núcleos diferentes.

Fotografia com pouca luz e redução agressiva de ruído

Sony Xperia 1 II, um carro-chefe com Snapdragon 865

DxOMark compara redução de ruído em gerações sucessivas de iPhones

Idrees Patel: Então, uma coisa que eu queria perguntar era sobre fotografia com pouca luz. Como nos últimos anos, houve muitos modos noturnos [implementados por OEM], mas uma coisa que tenho notado é que muitos fabricantes de dispositivos optam por uma redução agressiva de ruído, que reduz os detalhes, a ponto de até mesmo o ruído de luminância ser removido.

Então, minha pergunta é se a Qualcomm está aconselhando qualquer fabricante de dispositivos a não fazer isso e é algo que seus pipelines de processamento fazem ou é algo influenciado pelo ISP no SoC.

Judd Heape: Muito disso tem a ver com ajuste, e se você não tem multi-frame, ou eu diria, não está disponível um sensor de imagem muito bom, com alta sensibilidade ou óptica com números f baixos. Uma maneira de se livrar do ruído com pouca luz, em particular, é aplicar mais redução de ruído, mas o que acontece quando você aplica mais redução de ruído é que você perde detalhes, de modo que as bordas nítidas ficam borradas. Agora, você pode se livrar disso aplicando essas técnicas de vários quadros. Ou se você aplicar técnicas de IA, que podem descobrir onde estão as bordas dos objetos e rostos, e esse tipo de coisa. Portanto, aplicar apenas a redução de ruído por força bruta nos dias de hoje não é realmente a maneira de lidar com isso, porque você acaba perdendo detalhes.

O que você quer fazer é usar técnicas multi-frame ou técnicas de IA para que ainda possa aplicar ruído redução para áreas mais parecidas com o interior dos objetos, mantendo bordas limpas ou afiadas objetos. Então é isso que eu diria: usar IA ou multi-frame é a maneira de reduzir o ruído e melhorar as imagens com pouca luz daqui para frente.

Idrees Patel: Sim, e era exatamente isso que eu queria ouvir. [É] porque essa é a principal coisa que separa as ótimas câmeras de smartphones das câmeras intermediárias ou econômicas.

Judd Heape: Sim.

Idrees Patel: ótimas câmeras de smartphones sabem quando aplicar a redução de ruído e quando não.

Judd Heape: Exatamente. Sim, e como eu disse, o ajuste da câmera é realmente feito por nossos clientes ou OEMs, e alguns OEMs preferem uma imagem mais suave com menos ruído. Alguns preferem revelar mais detalhes talvez com um pouco mais de ruído.

E então é uma troca e você tem limitações. E é como eu disse, a melhor coisa a fazer é obter um sensor de imagem melhor com maior sensibilidade, pixels maiores ou óptica de número f menor, porque então você recebe mais luz desde o início, isso é sempre melhorar. Mas se você não pode fazer isso, em vez de apenas aumentar a redução de ruído e perder detalhes, o que você quer fazer é usar técnicas de multi-frame ou IA.

Análise e contexto: Este, na minha opinião, é atualmente o maior problema com as câmeras dos smartphones. Sim, você pode usar um sensor de 48MP ou 64MP ou até mesmo um sensor de 108MP. No entanto, se você não optar por usar redução de ruído restrita com técnicas MFNR ou AI, todos esses megapixels, binning 4 em 1 e até binning 9 em 1 não serão de muita utilidade. O Galaxy S20 Ultra é o principal exemplo aqui, já que sua câmera primária de 108MP foi amplamente considerado uma decepção. A Samsung retrocedeu no processamento de imagem ao usar redução de ruído extremamente agressiva em seus modos noturnos em seus carros-chefe de 2020, enquanto a série Galaxy S10 2019 ironicamente tinha melhor qualidade de imagem.

Judd revela que alguns OEMs preferem uma imagem mais suave e com menos ruído, o que é fundamentalmente a escolha errada a ser feita. O ajuste é feito pelos fabricantes de dispositivos e, portanto, dois telefones usando o mesmo sensor e alimentados pelo mesmo SoC podem produzir fotos muito, muito diferentes. É de esperar que estes fabricantes de dispositivos aprendam a verdade com os seus concorrentes com melhor desempenho. Embora a Samsung tenha perdido o rumo no processamento de imagens este ano, o OnePlus tem sido um grande contraste. O OnePlus 8 Pro é uma das melhores câmeras de smartphone do mercado, o que é uma conquista notável considerando o desempenho muito fraco da câmera do OnePlus 5T em 2017. A mentalidade de processamento de imagens precisa mudar para que as fotos fiquem nítidas, não importa o quanto a guerra dos megapixels continue.

Decodificação e codificação AV1

Mishaal Rahman: Isso é um pouco diferente de outras discussões que estamos tendo sobre qualidade da câmera. Uma das coisas que algumas pessoas na comunidade de codecs de mídia de código aberto se perguntam é quando a Qualcomm oferecerá suporte Decodificação AV1 e possivelmente codificação. Eu sei que isso é um pouco exagerado, mas o Google está exigindo TVs 4K HDR e 8K no Android 10 para suportar decodificação AV1 e Netflix, YouTube, eles estão iniciando o lançamento de vídeos codificados em AV1. Portanto, parece um aumento lento de vídeos codificados em AV1. Portanto, estamos nos perguntando quando pelo menos o suporte à decodificação estará disponível no Spectra.

Declaração da Qualcomm: De acordo com sua pergunta no AV1 – não temos nada a anunciar hoje. No entanto, o Snapdragon é atualmente capaz de reproduzir AV1 via software. A Qualcomm está sempre trabalhando com parceiros em codecs de próxima geração por meio da fabricação de software e hardware Snapdragon, líder em codecs HDR, incluindo captura e reprodução em HEIF, HLG, HDR10, HDR10+ e Dolby Visão. Claro, percebemos que para trazer as melhores experiências CODEC aos nossos clientes, incluindo suporte de alta resolução e menor consumo de energia, é desejável implementá-las em HW.

Gravação de vídeo - compensação de movimento

Mishaal Rahman: Não sei se Idrees tem mais perguntas, mas tenho uma pergunta sobre algo que li no Snapdragon Tech Summit. É sobre o núcleo de vídeo com compensação de movimento. Ouvi dizer que há melhorias no mecanismo de compensação de movimento, para reduzir o ruído durante a gravação de vídeo. Eu queria saber se você pode expandir o que exatamente foi melhorado e o que foi feito.

Judd Heape: O mecanismo EVA (Engine for Video Analytics) foi aprimorado com um núcleo de mapa de movimento mais denso para que o EVA mecanismo, você sabe, por exemplo, está sempre olhando para o vídeo recebido e tem um núcleo que faz movimento estimativa. O que fizemos foi tornar esse núcleo muito mais preciso, onde ele faz isso quase no nível por pixel, em vez de mais nível de bloco grosseiro e, portanto, estamos obtendo muito mais vetores de movimento do mecanismo EVA no Snapdragon 865 do que no anterior gerações. E o que isso significa é que o núcleo de vídeo que faz a codificação pode usar esses vetores de movimento para ser mais preciso sobre a codificação, mas o ISP do lado da câmera também usa essas informações para ruído redução.

Como vocês sabem, há gerações temos filtragem temporal com compensação de movimento, que é na verdade a redução ativa de ruído durante o vídeo, que calcula a média dos quadros ao longo do tempo para eliminar o ruído.

O problema com essa técnica, porém, é se você tem movimento na cena. O movimento acaba sendo rejeitado pela redução de ruído porque não pode ser manuseado ou fica manchado, e você obtém essas trilhas e artefatos feios nas coisas em movimento. Então, na filtragem temporal compensada por movimento, o que fizemos no passado, já que não tínhamos esse mapa de movimento denso para locais movimento, nós temos - simplesmente tratamos apenas de casos quando você está movendo a câmera, é muito fácil porque tudo está se movendo globalmente.

Mas se você está filmando algo e tem um objeto se movendo DENTRO da cena, o que fizemos antes [foi isso] simplesmente ignoramos esses pixels porque não conseguimos processá-los quanto ao ruído, porque era um movimento local objeto. E, portanto, se você calculasse a média quadro a quadro, o objeto estava em um lugar diferente a cada quadro, então você não poderia realmente processá-lo.

Mas no Snapdragon 865, porque temos o mapa de movimento mais denso e temos a capacidade de observar os vetores de movimento em quase um pixel por pixel, somos realmente capazes de processar esses pixels movidos localmente, quadro a quadro, para redução de ruído, enquanto antes não podíamos. Acho que mencionei uma métrica na palestra. não lembro o número (foram 40%) mas era uma grande porcentagem de pixels, em média, para a maioria dos vídeos que agora podem ser processados para detectar ruído, enquanto na geração anterior não era possível. E isso se deve em parte à capacidade de compreender o movimento local e não apenas o movimento global.

Gravação de vídeo - HDR

Idrees Patel: Outra dúvida que tenho é sobre vídeo HDR. Este ano, vejo muitos mais fabricantes de dispositivos oferecendo gravação de vídeo HDR10. Então é algo que foi promovido com o Snapdragon 865, ou já existe há algumas gerações.

Judd Heape: Ah, sim, enquanto falamos sobre isso no Tech Summit, tivemos o HDR10, que é o padrão de vídeo para HDR no lado da codificação da câmera há algumas gerações, desde o Snapdragon 845, acredito, e temos melhorado constantemente que.

Então, no ano passado, falamos sobre HDR10+, que é gravação HDR de 10 bits, mas em vez de metadados estáticos, possui metadados dinâmicos, então os metadados capturados pela câmera durante a cena é realmente gravada em tempo real, de modo que quando você a reproduz, o mecanismo de reprodução entende se era uma sala escura ou clara e pode compensar que.

Também no ano passado, no Tech Summit, falamos sobre a captura Dolby Vision, que é a alternativa do Dolby ao HDR10 +. É muito semelhante onde eles também produzem os metadados dinâmicos. Portanto, o Snapdragon hoje pode suportar todos esses três formatos: captura HDR10, HDR10 + e Dolby Vision. E, portanto, não há realmente nenhuma restrição, nossos OEMs podem escolher o método que preferirem. Já há algum tempo que clientes usam HDR10 e, no ano passado e neste ano, mais e mais clientes optaram pelo HDR10 +. E acho que no futuro você também verá alguma adoção do Dolby Vision Capture.

Então, sim, temos promovido isso fortemente. O HDR é muito importante para nós, tanto no lado da fotografia quanto no lado do vídeo. E como eu disse, estamos comprometidos com os formatos HDR10 e HDR10 + e agora Dolby Vision, você sabe, desde o Snapdragon 845 e agora até recentemente o Snapdragon 865 para Dolby Vision.

Mishaal Rahman: Além disso, eu não tinha certeza se algum fornecedor já implementou a gravação Dolby Vision, mas acho que isso responde a essa pergunta. [Isso é] algo que veremos no futuro.

Judd Heape: Claro - não posso comentar quais fornecedores estão interessados e coisas assim. Essa seria uma pergunta para Dolby; é uma característica deles e se você quiser mais informações sobre isso, sugiro entrar em contato com a Dolby. Mas até o momento, até onde eu sei, nenhum aparelho foi lançado com Dolby Vision Capture.

Idrees Patel: Porque você também precisa de suporte de exibição. Percebi que as telas dos smartphones suportam HDR10 e HDR10+, mas não Dolby Vision.

Judd Heape: Sim, na verdade, mas a reprodução Dolby Vision foi suportada no Snapdragon no passado. Ele pode funcionar com um determinado monitor e o monitor não precisa necessariamente atender a nenhum critério específico para ser compatível com Dolby Vision, exceto que Dolby irá graduar a tela e garantir que ela tenha uma certa gama de cores, gama, uma certa profundidade de bits, um certo brilho e um certo contraste razão.

Então, você sabe, você pode comprar um monitor HDR10, mas também pode comprar um aparelho que suporte Dolby Vision reprodução, mas Doby terá qualificado essa exibição para garantir que esteja em conformidade com seus rigorosos requisitos.

Colaboração com fornecedores de software: Imint, Morpho e Arcsoft

Mishaal Rahman: Acho que apenas uma pergunta para eu acompanhar, para fazer mais pesquisas, é uma empresa com quem conversamos recentemente: Imint. Recentemente, eles atualizaram seu Software de estabilização Vidhance para trabalhar com o Spectra 480. Eu sei que vocês trabalham com muitas empresas que também aproveitam o Spectra 480, o processamento. Gostaria de saber se você pode divulgar mais exemplos dessas tecnologias que têm - ou dos parceiros que você tem trabalhei, apenas para que seja algo que possamos acompanhar, aprender mais sobre como o Spectra 480 está sendo usado no campo.

Judd Heape: Trabalhamos com muitos fornecedores de software. Assim como mencionamos no passado, Dolby é um deles. Existem outros como você mencionou, Imint/Vidhance para EIS (Estabilização Eletrônica de Imagem). Também mencionamos Morpho e Arcsoft antes, também trabalhamos de perto com eles.

No entanto, no que diz respeito à forma como trabalhamos com eles, a nossa política é que realmente queremos trabalhar em estreita colaboração com estes fornecedores de software independentes e fazer com que certifique-se de que, independentemente do que estejam fazendo em software, eles sejam capazes de aproveitar o hardware do Snapdragon para obter o menor consumo de energia possível.

Portanto, uma das coisas que estamos fazendo com esses fornecedores é garantir que eles tenham um acesso realmente bom ao mecanismo HVX ou ao núcleo Hexagon DSP. Eles também estão usando o mecanismo EVA para obter vetores de movimento e usar o hardware e o mecanismo EVA para manipulação de imagens para que eles podem realizar movimento de imagem, tradução e correção de distorção e esse tipo de coisa em um hardware, em vez de usar a GPU para fazer que.

E assim, nós realmente trabalhamos em estreita colaboração com esses ISVs, especialmente aqueles que mencionei em particular, para garantir que eles não estejam apenas colocando tudo e software na CPU, mas eles estão usando coisas como DSP e aceleradores de hardware no EVA para obter melhor desempenho e menor consumo de energia consumo. Isso também é muito importante para nós porque oferece aos nossos clientes a melhor combinação possível de recursos e consumo de energia.

[Comentários finais de Judd]: Eu só queria dizer obrigado a vocês por todas as perguntas realmente boas. Eles são muito, muito detalhados. Estou na Qualcomm há cerca de três anos e olho para o nosso passado, mesmo além da minha gestão aqui, onde começamos no Spectra antes Snapdragon 845, trabalhamos muito para melhorar drasticamente o ISP, a câmera e apenas a experiência geral nos últimos vários anos. Estou muito animado até mesmo com o que o futuro traz. E estou animado com o que anunciaremos em futuros Tech Summits, sobre os quais vocês poderão perguntar e escrever. [Spectra Camera], provavelmente, na minha opinião, é uma das tecnologias mais interessantes da Qualcomm.

Pensamentos finais

Foi ótimo conversar com Judd sobre as contribuições da Qualcomm para a fotografia de smartphones. Podemos ter sentimentos contraditórios sobre a empresa e seu sistema de licenciamento de patentes, mas a marca da Qualcomm na indústria de smartphones é sentida por todos, quer você fale sobre patentes, 4G e 5G, Wi-Fi, as GPUs Adreno, os ISPs Spectra e os próprios chips Snapdragon, que são amplamente considerados o padrão ouro no smartphone Android mercado.

Ainda existem muitos pontos problemáticos que precisam ser resolvidos na fotografia com smartphones, mas o futuro está brilhante, pois a Qualcomm promete fazer mais avanços nos vastos e crescentes campos de ML, que alimenta IA. Vamos ver o que a Qualcomm tem a anunciar neste campo no próximo Snapdragon Tech Summit.

Como a Qualcomm está melhorando as câmeras em telefones Android

Cargas de trabalho de processamento de imagens de IA

Judd Heape: Sim, analisamos muitas cargas de trabalho de IA e há algumas IA que podem ser executadas no próprio ISP como, por exemplo, nossa próxima geração 3A: exposição automática, equilíbrio de branco automático e foco automático são IA baseado.

Redução de ruído multiquadro

É assim que eles lidam com pouca luz, assim como com HDR. Aprimoramentos no recurso de redução de ruído multiquadro virão da Qualcomm, que também incluirá pouca luz e HDR. Mas isso é algo que lançaremos em breve.

Portanto, não é algo que foi lançado, mas estamos interagindo com alguns clientes importantes sobre esses recursos.

Super resolução para vídeo

Sensores Quad Bayer de alto megapixel

Judd Heape: Sim, então é claro que o benefício desses sensores quad CFA (Quad Color Filter Array) é a capacidade de funcionar sob luz forte eles em resolução total, e então o ISP pode processá-los em 108 megapixels ou 64 megapixels ou o que for disponível.

Reconhecimento facial baseado em ML

Judd Heape: A detecção de rosto é algo pelo qual somos muito apaixonados. Queremos melhorar essas precisões, geração após geração em todos os níveis, desde o nível 800 até o nível 400. ML é uma grande parte disso.

Melhorias no mecanismo de processamento de imagem

Fotografia com pouca luz e redução agressiva de ruído

Judd Heape: Sim.

Judd Heape: Exatamente. Sim, e como eu disse, o ajuste da câmera é realmente feito por nossos clientes ou OEMs, e alguns OEMs preferem uma imagem mais suave com menos ruído. Alguns preferem revelar mais detalhes talvez com um pouco mais de ruído.

Decodificação e codificação AV1

Gravação de vídeo - compensação de movimento

Como vocês sabem, há gerações temos filtragem temporal com compensação de movimento, que é na verdade a redução ativa de ruído durante o vídeo, que calcula a média dos quadros ao longo do tempo para eliminar o ruído.

Gravação de vídeo - HDR

Judd Heape: Ah, sim, enquanto falamos sobre isso no Tech Summit, tivemos o HDR10, que é o padrão de vídeo para HDR no lado da codificação da câmera há algumas gerações, desde o Snapdragon 845, acredito, e temos melhorado constantemente que.

Então, você sabe, você pode comprar um monitor HDR10, mas também pode comprar um aparelho que suporte Dolby Vision reprodução, mas Doby terá qualificado essa exibição para garantir que esteja em conformidade com seus rigorosos requisitos.

Colaboração com fornecedores de software: Imint, Morpho e Arcsoft

Judd Heape: Trabalhamos com muitos fornecedores de software. Assim como mencionamos no passado, Dolby é um deles. Existem outros como você mencionou, Imint/Vidhance para EIS (Estabilização Eletrônica de Imagem). Também mencionamos Morpho e Arcsoft antes, também trabalhamos de perto com eles.

Pensamentos finais