Come Qualcomm sta migliorando le fotocamere sui telefoni Android

Judd Heape di Qualcomm spiega come Qualcomm sta migliorando l'esperienza della fotocamera sui telefoni Android con nuove funzionalità nei suoi ISP Spectra.

In qualità di produttore di system-on-chips (SoC) che alimentano gran parte degli smartphone e dei dispositivi indossabili del mondo, Qualcomm con sede negli Stati Uniti è senza dubbio uno dei giganti del settore dei produttori di chip. La linea di SoC Snapdragon, ad esempio, viene utilizzata da quasi tutti i principali produttori di dispositivi Android per smartphone di punta, di fascia media ed economici. Qualcomm riceve consensi ogni anno al Tech Summit annuale dell'azienda per i progressi nei campi CPU, GPU e intelligenza artificiale, poiché incorpora le nuove microarchitetture CPU di ARM e li integra con miglioramenti annuali nelle sue GPU personalizzate. Tuttavia, i suoi progressi nel campo delle fotocamere non vengono notati così tanto, poiché tendono a passare sotto radar.

Ciò non significa, tuttavia, che il lavoro di Qualcomm nel campo delle fotocamere degli smartphone non sia importante. Al contrario, gli ISP Spectra di Qualcomm nei suoi SoC Snapdragon contribuiscono a rendere possibili gran parte delle moderne fotocamere degli smartphone con una maggiore potenza di elaborazione computazionale, funzionalità come registrazione video 8K, video HDR10, supporto per fotocamere QCFA ad alto megapixel e molto, molto Di più. Qualcomm ha promosso l'ISP Spectra 380 nello Snapdragon 855

è stato il primo CV-ISP al mondoe ha promosso le prime funzionalità di registrazione video 4K HDR al mondo, ora integrate dalla registrazione video 4K HDR10+ di seconda generazione. Lo Spectra 480 ISP di ultima generazione Snapdragon 865 è altamente capace: può elaborare due gigapixel al secondo, un aumento del 40% rispetto al suo predecessore. È una proprietà intellettuale (IP) che differenzia Qualcomm dai suoi concorrenti nello spazio dei fornitori di chip mobili.

Mentre Qualcomm spiega la maggior parte delle caratteristiche principali nei suoi comunicati stampa e nei keynote del prodotto, in alto fino ad ora, i consumatori non hanno avuto la possibilità di conoscere la maggior parte dei dettagli di basso livello che rendono queste cose lavoro.

Ecco perché noi di XDA Developers siamo stati felici di accettare l'offerta di parlare con Judd Heape, Senior Director, Product Management presso Qualcomm. Il redattore capo di XDA, Mishaal Rahman, e io abbiamo avuto un'intervista con Judd nel giugno 2020 per scoprire e vedere come Qualcomm sta spingendo oltre gli obiettivi con la fotografia e la registrazione video per smartphone. Abbiamo parlato di argomenti tra cui l'elaborazione delle immagini AI, la riduzione del rumore multi-frame (MFNR), AV1, la registrazione video Dolby Vision, il pixel binning nelle fotocamere ad alto megapixel e molto altro. Diamo un'occhiata alle intuizioni di Judd su ciascun argomento uno per uno:

Carichi di lavoro di elaborazione delle immagini AI

Mishaal Rahman: Inizierò con uno di quelli che aveva Idrees, che è interessante e che interessava anche a me. Quindi ci chiediamo quali sono i carichi di lavoro di elaborazione delle immagini AI che Qualcomm utilizza nell'ISP Spectra e in che misura sono personalizzabili dai produttori di dispositivi?

Judd Heape: Sì, quindi esaminiamo molti carichi di lavoro di intelligenza artificiale e ce ne sono alcuni che possono essere eseguiti nell'ISP stesso come, ad esempio, la nostra prossima generazione 3A: esposizione automatica, bilanciamento automatico del bianco e messa a fuoco automatica sono AI basato.

Ma esaminiamo anche alcuni altri carichi di lavoro dell’intelligenza artificiale, che verrebbero eseguiti al di fuori dell’ISP, in uno degli altri elementi informatici. Quindi, in particolare, esaminiamo cose del tipo: abbiamo un core di riduzione del rumore basato sull'intelligenza artificiale che funziona esternamente all'ISP, nella parte del motore AI (AIE) del chip.

Inoltre, abbiamo cose come il rilevamento dei volti, che è un motore di deep learning completo che funziona anche nel complesso AIE, ma ovviamente assiste la fotocamera. E ci sono altre cose su cui stiamo lavorando oltre al rilevamento dei volti e alla rimozione del rumore; stiamo anche cercando di fare cose come la regolazione automatica delle istantanee utilizzando l'intelligenza artificiale che si imposterebbe automaticamente parametri per scena basati sul contenuto HDR, elaboreremmo per modificare ombre, luci, colori e cose del genere cosa.

Uno dei nostri partner, Morpho, ha appena vinto un enorme premio per il carico di lavoro AI all'Embedded Vision Summit di quest'anno. I partner fornitori di software indipendenti dispongono anche di molti algoritmi basati sull'intelligenza artificiale davvero intensi e questi possono variare da qualsiasi cosa, come una fotocamera fluida transizione, come quello che fa Arcsoft (ne ho parlato all'ultimo Snapdragon Tech Summit che è basato sull'intelligenza artificiale), alla segmentazione semantica di Morpho motore. La soluzione di Morpho è un motore di intelligenza artificiale che comprende diverse parti della scena, come quello che sai, tessuto contro pelle contro cielo ed erba e edificio e cose del genere e poi l'ISP può prendere quelle informazioni ed elaborare quei pixel in modo diverso per texture, rumore e colore per esempio.

La dichiarazione di Qualcomm: Per ML e AI non annunceremo nemmeno nuovi aggiornamenti per le funzionalità di rilevamento dei volti e "3A" (AE, AF e AWB). Tuttavia, come ha affermato Judd, ci impegniamo, in futuro, a portare più funzionalità ML/AI nella fotocamera, comprese queste due aree di funzionalità.

Analisi e contesto: L'intelligenza artificiale negli smartphone è stata ampiamente considerata una parola d'ordine da quando le prime unità di elaborazione neurale (NPU) e le prime funzionalità "basate sull'intelligenza artificiale" hanno iniziato ad arrivare nei telefoni Android. Tuttavia, ciò non significa che l’intelligenza artificiale stessa sia priva di significato. Al contrario, l'intelligenza artificiale ha un grande potenziale nel settore mobile, al punto che sia i fornitori di chip che i produttori di dispositivi stanno solo scalfindo la superficie di ciò che è possibile.

Grazie all'intelligenza artificiale, le fotocamere degli smartphone sono migliorate: a volte rapidamente, a volte con una lentezza straziante, ma ci stanno arrivando. Le fotocamere degli smartphone stanno superando limitazioni fondamentali come sensori relativamente più piccoli, fissi lunghezze focali e ottiche più scadenti con una fotografia computazionale intelligente basata sull'apprendimento automatico (ML). Esposizione automatica, riduzione del rumore, rilevamento dei volti e segmentazione sono solo alcuni dei campi in cui l'intelligenza artificiale nella fotografia da smartphone è stata in grado di avere un impatto. Nei prossimi cinque anni, questi campi nascenti dell’intelligenza artificiale che migliorano diversi aspetti della fotografia matureranno molto.

Riduzione del rumore multi-frame

Idrees Patel: Qualcomm ha menzionato la riduzione del rumore multi-frame come funzionalità. Vorrei sapere più dettagli su come funziona l'impilamento delle immagini. È in qualche modo simile a ciò che Google sta facendo con la sua tecnologia HDR+ o è completamente diverso?

Judd Heape: È simile ma diverso. Immagina che la fotocamera esegua una raffica e catturi da cinque a sette fotogrammi in rapida successione. Quindi il motore dell'ISP dà un'occhiata a quei frame e sceglie quello migliore (chiamato "frame di ancoraggio"). messa a fuoco e chiarezza, quindi può scegliere 3-4 fotogrammi su entrambi i lati di quel fotogramma e quindi mediarli tutti insieme. Cerca di scegliere fotogrammi abbastanza vicini tra loro in modo che ci sia pochissimo movimento.

E quando si ferma su quei fotogrammi, ne calcola la media per discernere ciò che è diverso, ad esempio, quali sono i dati dell'immagine effettivi rispetto a quali sono i dati del rumore. Quindi, quando hai sempre più informazioni, da sempre più fotogrammi, puoi effettivamente fare cose semplici come guardare le differenze tra i fotogrammi. Le differenze sono probabilmente dovute al rumore, mentre ciò che è uguale nei fotogrammi sono probabilmente i dati dell'immagine.

Quindi possiamo combinare i frame in tempo reale per ridurre il rumore. Ora puoi fare la stessa cosa anche con scarsa illuminazione e HDR ed è molto simile a quello che probabilmente sta facendo Google. Non siamo a conoscenza del loro algoritmo. Ma stanno usando tecniche multi-frame per aumentare la sensibilità in modo da poter "vedere" meglio; una volta ridotto il rumore di fondo, puoi ora provare a eseguire una mappatura dei toni più locale o aggiungere guadagno all'immagine senza aggiungere altro rumore.

Ecco come gestiscono la scarsa illuminazione, così come l'HDR. I miglioramenti alla funzionalità di riduzione del rumore multi-frame arriveranno da Qualcomm, che includerà anche scarsa illuminazione e HDR. Ma è qualcosa che pubblicheremo a breve.

Mishaal Rahman: Quindi hai menzionato l'implementazione di questa funzionalità a breve. Si tratta di un aggiornamento del BSP per i partner?

Judd Heape: Nei nostri prodotti di prossima generazione, attraverso l'aggiunta di un software, avremo la possibilità di interagire con - in realtà sta accadendo proprio ora, nel prossimo prodotti di nuova generazione: stiamo collaborando con i clienti proprio adesso per realizzare più tecniche multi-frame oltre la riduzione del rumore, ma anche per gestire HDR e condizioni di scarsa illuminazione situazioni. Utilizza lo stesso motore HW dell'ISP di base, ma stiamo aggiungendo più software per gestire questi multi-frame per qualcosa di più della semplice riduzione del rumore.

Quindi non è qualcosa che è stato lanciato, ma stiamo collaborando con alcuni clienti chiave su queste funzionalità.

Analisi e contesto: Con ogni annuncio di un nuovo SoC Snapdragon, la tabella delle specifiche di Qualcomm include specifiche relative alla riduzione del rumore multi-frame. Lo Snapdragon 865, ad esempio, con i suoi doppi CV-ISP a 14 bit supporta fino ad un'ipotetica singola fotocamera da 200MP (anche se i fornitori di sensori per fotocamere come Sony, Samsung e OmniVision non hanno ancora rilasciato alcun sensore per fotocamera per smartphone superiore a 108 MP). Tuttavia, quando si tratta del supporto di una singola fotocamera con MFNR, zero ritardo dell'otturatore (ZSL) e supporto di 30 fps, il la specifica cambia in 64MP e, per le doppie fotocamere con le stesse specifiche, la specifica cambia in 25MP.

La riduzione del rumore multi-frame di Qualcomm è molto simile all'HDR+ ma non del tutto uguale, come spiegato sopra da Judd. Mentre HDR+ prende una serie di esposizioni sottoesposte e ne calcola la media per ottenere la foto migliore, MFNR scatta da cinque a sette fotogrammi normali. Non sembra che l'MFNR di Qualcomm sia avanzato quanto la soluzione di Google perché l'HDR e la scarsa illuminazione non sono menzionate come priorità specifiche al momento flusso di lavoro per Spectra, mentre HDR+ di Google si rivolge contemporaneamente a HDR, fotografia in condizioni di scarsa illuminazione e riduzione del rumore, con Night Sight che fa un passo avanti ulteriore. Tuttavia, è incoraggiante apprendere che MFNR sta ricevendo miglioramenti e Qualcomm distribuirà questi miglioramenti ad "alcuni clienti chiave". In futuro, forse non avremo bisogno di porting non ufficiali di Google Camera per sfruttare tutto il potenziale delle fotocamere degli smartphone Android non Google.

Super risoluzione per i video

Il flusso di lavoro ad alta risoluzione di Google

Mishaal Rahman: Allora, qualcosa che ho sentito al Tech Summit. In realtà, penso che lo fosse in un'intervista con Autorità Android. Qualcomm sta pianificando di estendere la super risoluzione ai video come soluzione software per i partner e che, a quanto pare, questa verrà implementata in un aggiornamento. Mi chiedo se hai aggiornamenti da condividere su questa funzionalità.

Judd Heape: Sì, quindi è una funzionalità che abbiamo la possibilità di realizzare già da un po', e che è stata implementata proprio adesso. Non direi che sia incluso in un aggiornamento software, ma direi che è una specie di ulteriore vantaggio della funzionalità multi-frame esistente in condizioni di scarsa illuminazione. Stiamo collaborando con alcuni clienti principali specifici su tale funzionalità. Quindi sì, la super risoluzione video sarà qualcosa in un'altra generazione o almeno così lo avremo come quello che abbiamo noi chiama una funzionalità del piano di registrazione in cui è effettivamente integrata nel codice base del software per [il] telecamera. Ma in questo momento, è più al livello del coinvolgimento specifico dei clienti per quella nuova funzionalità.

Analisi e contesto: La super risoluzione per i video è una funzionalità che, fino ad ora, non era presente nelle fotocamere degli smartphone. È un campo così nuovo che si stanno ancora scrivendo articoli di ricerca al riguardo. Usare tecniche multi-frame per la fotografia è una cosa, ma usarle per i video per eseguire l'upscaling del video a una risoluzione più elevata è una questione completamente diversa. Qualcomm afferma che sta distribuendo nuovamente la funzionalità ad "alcuni clienti chiave", ma al momento non è integrata nel codice base del software per la fotocamera. In futuro potrebbe essere disponibile per tutti, ma per ora è una funzionalità che i consumatori finali non hanno ancora avuto modo di utilizzare.

Sensori Quad Bayer da alto megapixel

Via: AnandTech

Idrees Patel: Parliamo dei sensori Quad Bayer. Dal 2019, molti telefoni ora dispongono di sensori da 48 MP, 64 MP e ora anche da 108 MP. Questi sono sensori Quad Bayer; in realtà non hai una risoluzione true color di 48 o 64 o 108 MP. Una cosa che volevo chiedere era in che modo l'ISP differisce in termini di elaborazione delle immagini per questi Quad Bayer o Nona Sensori Bayer (pixel binning 4-in-1 o 9-in-1), rispetto ai sensori tradizionali, che non hanno pixel cestinare.

Judd Heape: Sì, quindi ovviamente il vantaggio di questi sensori quad CFA (Quad Color Filter Array) è la capacità di funzionare in condizioni di luce intensa a piena risoluzione, e poi l'ISP può elaborarli a 108 megapixel o 64 megapixel o qualunque sia disponibile.

Tuttavia, in genere nella maggior parte delle situazioni di illuminazione, come quelle interne o al buio, è necessario effettuare il bin perché i pixel del sensore sono così piccoli che è necessario combinare i pixel per ottenere la migliore sensibilità alla luce. Quindi direi che la maggior parte delle volte, soprattutto se stai girando un video o se sei in condizioni di scarsa illuminazione per uno snapshot, stai funzionando in modalità binned.

Ora l'ISP può elaborare il sensore in entrambi i modi. Puoi guardare il sensore in modalità bin, nel qual caso è solo una normale immagine Bayer in arrivo, oppure puoi guardarlo in modalità a piena risoluzione in cui i dati in ingresso sono quad CFA. E se è in quella modalità, l'ISP lo converte in Bayer.

Quindi stiamo facendo quello che chiamiamo "rimosaico". Si tratta di un'interpolazione dell'immagine quad CFA per farla sembrare nuovamente Bayer a piena risoluzione. E questo in genere viene fatto nel software per le istantanee, anche se alla fine aggiungeremo questa funzionalità nell'hardware per supportare anche i video.

Ciò che c'è oggi nell'hardware dell'ISP è in binning. Quindi puoi inserire il sensore e puoi effettivamente fare in modo che il sensore decida se emetterà una risoluzione completa, un quarto o 1/9 oppure puoi inserire nell'ISP. E questa è una funzionalità che abbiamo aggiunto in Snapdragon 865, in realtà. Pertanto, se si inserisce l'ISP e quindi si esegue il sensore alla massima risoluzione, l'ISP avrà la possibilità di avere contemporaneamente sia l'immagine a piena risoluzione che l'immagine raccolta. Pertanto, può utilizzare la risoluzione più piccola o l'immagine "raggruppata" per il video (videocamera) e l'anteprima (mirino) e contemporaneamente utilizzare l'immagine a risoluzione completa per l'istantanea a grandezza naturale.

Ma ancora una volta, ciò sarebbe nel caso di condizioni di illuminazione intensa. Ma almeno se inserisci l'ISP, hai la capacità di gestire sia l'immagine grande che quella piccola a livello allo stesso tempo e quindi è possibile ottenere video e istantanee simultanei, è anche possibile ottenere la massima risoluzione ZSL; il tutto senza dover cambiare il sensore avanti e indietro, il che richiede una notevole quantità di tempo.

Questa è davvero una buona funzionalità. E come sensori Quad CFA e anche tu lo sai, escono i sensori 9x e forse anche altri, e man mano che questi sensori diventano più onnipresente: stiamo cercando sempre di più di gestire questi sensori nell'hardware, non solo per il binning ma anche per rimosaico.

E quindi il vantaggio è che se lo fai nell'hardware invece di farlo nel software riduci il latenza per i tuoi clienti e quindi i tempi da uno scatto all'altro e le velocità di burst saranno molto più veloci. Quindi, mentre avanziamo con nuovi ISP e nuovi chip, inizierai a vedere molto di più di ciò che stiamo facendo per questi nuovi tipi di sensori inseriti nell'hardware.

Analisi e contesto: Huawei è stata la prima a utilizzare un sensore Quad Bayer da 40 MP con il Huawei P20Pro nel 2018, e la popolarità dei sensori Quad Bayer è stata così alta che ora è arrivata anche a telefoni da $ 150 alimentati da chip Snapdragon/Exynos/MediaTek. In particolare, abbiamo visto l'industria degli smartphone arrivare alle fotocamere da 48MP e 64MP come punto debole, mentre alcuni telefoni arrivano fino a 108MP. I sensori Quad Bayer e Nona Bayer non sono privi di aspetti negativi, poiché la loro piena risoluzione presenta alcuni avvertimenti.

Tuttavia, per ragioni di marketing, un sensore da 48 MP suona molto meglio di un sensore da 12 MP, anche se l'utente scatta comunque foto da 12 MP con pixel bin per la maggior parte del tempo. Un sensore da 48 MP dovrebbe teoricamente produrre foto migliori con pixel bin da 12 MP in condizioni di scarsa illuminazione rispetto a un sensore da 12 MP tradizionale sensore, ma l'elaborazione delle immagini deve tenere il passo e, come ho menzionato di seguito, c'è ancora molta strada da fare per raggiungere questo obiettivo accadere. In ogni caso, è stato interessante vedere come l'ISP Spectra gestisce i sensori Quad Bayer con la ristrutturazione. C'è molto potenziale in questi sensori e in telefoni come OnePlus 8 Pro (che utilizza un sensore Sony IMX689 Quad Bayer con pixel di grandi dimensioni) sono attualmente all'apice delle fotocamere degli smartphone.

Riconoscimento facciale basato su ML

Mishaal Rahman: Quindi penso che prima tu abbia menzionato che il riconoscimento facciale basato su ML è supportato nello Spectra 480. Questo è qualcosa che ho sentito effettivamente al Tech Summit. [Che questo è] uno dei miglioramenti dal 380 al 480; che fa parte del... c'è un nuovo blocco di rilevamento oggettivo nel motore di analisi video che verrà utilizzato per il riconoscimento spaziale in futuro.

Puoi parlarci di quanto questo migliora il riconoscimento facciale e quali potenziali applicazioni vedi che verrà utilizzato dai fornitori?

Judd Heape: Sì in realtà, quindi hai ragione nel blocco della visione artificiale incorporata, che è il blocco "EVA", di cui abbiamo parlato al Tech Summit. Contiene un nucleo generale di rilevamento degli oggetti che utilizziamo quando la fotocamera è in funzione, lo utilizziamo per rilevare i volti. Le tecniche in quel blocco sono tecniche più tradizionali, quindi il riconoscimento degli oggetti viene eseguito in modo tradizionale classificatori, ma soprattutto abbiamo un motore software in funzione per migliorarne effettivamente la precisione bloccare.

Quindi utilizziamo un software basato su ML per filtrare i falsi positivi, poiché l'hardware potrebbe rilevare più cose come volti nella scena, e quindi il software ML è dicendo "okay, quella è una faccia" o "non è proprio una faccia" e quindi aumenta la precisione di alcuni punti percentuali eseguendo il filtro ML sopra hardware.

Ho menzionato molte cose sul futuro. In futuro, ciò che prevediamo di fare è eseguire l'intero rilevamento dei volti in ML o in modalità deep learning nel software. Soprattutto, ciò sarà vero ai livelli inferiori, quindi, ad esempio, in un livello in cui non disponiamo del motore hardware EVA, inizieremo a introdurre gradualmente il deep learning come rilevamento, che viene eseguito nel motore AI del chip e successivamente, nei livelli superiori 700-800, abbiamo l'hardware EVA per farlo...

Dirò in generale, tuttavia, che ci sposteremo maggiormente verso approcci ML per il rilevamento dei volti e ciò includerebbe sia il software a medio termine che l'hardware a lungo termine. Non rivelerò quali prodotti lo avranno, ma ovviamente mentre avanziamo nel miglioramento dell'ISP, aggiungeremo sicuramente sempre più funzionalità hardware per eseguire il ML.

Mishaal Rahman: Eccezionale. Beh, penso che sia un dato di fatto che la direzione che stai prendendo sia quella di portare i miglioramenti dell'apprendimento automatico della serie 800 al livello inferiore, quindi penso che sia generalmente un dato di fatto. Ma ovviamente non puoi darci dettagli al riguardo. Grazie per l'aggiornamento.

Judd Heape: Il rilevamento dei volti è qualcosa che ci appassiona molto. Vogliamo migliorare questi livelli di precisione, lo sai generazione dopo generazione in tutti i livelli, dal livello 800 fino al livello 400. Il ML è una parte importante di questo.

Analisi e contesto: Questi aspetti sono ciò che dà alla fotografia su smartphone un potenziale molto maggiore anche rispetto alle più recenti fotocamere mirrorless. Sì, le fotocamere mirrorless hanno una migliore qualità dell'immagine in condizioni di scarsa illuminazione e sono molto più flessibili, ma le fotocamere degli smartphone stanno superando i loro limiti in modi ingegnosi. Il rilevamento dei volti basato su ML è solo una parte di tutto ciò.

Miglioramenti nel motore di elaborazione delle immagini

Mishaal Rahman: Eccezionale. Quindi una delle cose che ho sentito brevemente durante la tavola rotonda dopo lo Snapdragon Tech Summit è stato un miglioramento del motore di elaborazione delle immagini. Ho sentito che è stata migliorata la riduzione del rumore a bassa frequenza media o LEANR. E che stai applicando una mappa dinamica di guadagno inverso; è qualcosa che hai menzionato prima nella conversazione.

Judd Heape: Oh ok. Quindi penso che tu stia mescolando due cose insieme. Sì, quindi c'è il nucleo LEANR, che è il nucleo che funziona sulla riduzione del rumore su grana più grossa, il che aiuta in condizioni di scarsa illuminazione. Questo è un nuovo blocco che è stato aggiunto in Snapdragon 865 all'ISP, e questa è una cosa.

La mappa del guadagno inverso è qualcos'altro. Questo è un altro aspetto che ho menzionato alle tavole rotonde, ma riguarda l'inversione degli effetti dell'ombreggiamento delle lenti. Quindi, come sai, se hai un telefono e ha un obiettivo piccolo; il centro della lente sarà luminoso ed i bordi saranno più vignettati; il che significa che saranno più scuri.

E così negli anni passati nell'ISP, quello che abbiamo avuto è stato l'applicazione di una mappa statica di guadagno inverso per eliminare quei bordi oscuri. E quindi è nell'ISP da un bel po' di tempo. Ciò che abbiamo aggiunto in Snapdragon 865, però, è la possibilità per la mappa di guadagno di cambiare dinamicamente in base al particolare fotogramma dell'immagine, perché se applichi molti guadagni ai bordi quello che succede è che i bordi possono ritagliarsi, soprattutto se stai guardando scene di luce intensa all'esterno, come il cielo azzurro che può diventare bianco o i bordi si ritagliano a causa di un sacco di guadagno.

Quindi nello Snapdragon 865, la mappa di guadagno inverso non è statica; è dinamico. Quindi guardiamo l'immagine e diciamo "okay, queste parti dell'immagine vengono ritagliate e non dovrebbero esserlo", quindi possiamo scorrere fuori dalla mappa del guadagno in modo naturale in modo da non ottenere frange luminose o effetti di alone o cose del genere dalla correzione dell'obiettivo ombreggiatura. Quindi è diverso dalla riduzione del rumore e sono due core diversi.

Fotografia in condizioni di scarsa illuminazione e riduzione aggressiva del rumore

Sony Xperia 1 II, un'ammiraglia alimentata da Snapdragon 865

DxOMark confronta la riduzione del rumore nelle generazioni successive di iPhone

Idrees Patel: Quindi una cosa che volevo chiederti era la fotografia in condizioni di scarsa illuminazione. Come negli ultimi anni, ci sono state molte modalità notturne [implementate dall'OEM], ma una cosa che ho notato è che molti produttori di dispositivi optano per una riduzione aggressiva del rumore, che riduce i dettagli, fino al punto in cui viene eliminato anche il rumore della luminanza RIMOSSO.

Quindi la mia domanda è: Qualcomm consiglia a qualsiasi produttore di dispositivi di non farlo ed è qualcosa che fanno le loro pipeline di elaborazione o è qualcosa influenzato dall'ISP nel SoC.

Judd Heape: Molto ha a che fare con la messa a punto, e se non hai il multi-frame, o direi che non è disponibile un ottimo sensore di immagine, con un'alta sensibilità o ottiche con numeri f bassi. Un modo per eliminare il rumore in particolare in condizioni di scarsa illuminazione è applicare una maggiore riduzione del rumore, ma ciò che accade quando si applica una maggiore riduzione del rumore è che si perdono dettagli, quindi i bordi netti diventano sfocati. Ora puoi sbarazzartene se applichi queste tecniche multi-frame. O se applichi tecniche di intelligenza artificiale, che possono in un certo senso capire dove sono i bordi di oggetti e volti, e cose del genere. Quindi applicare solo la riduzione del rumore con la forza bruta al giorno d'oggi non è proprio il modo di gestirlo perché si finisce per perdere i dettagli.

Quello che vuoi fare è utilizzare tecniche multi-frame o tecniche di intelligenza artificiale in modo da poter comunque applicare il rumore riduzione ad aree interne più simili agli oggetti mantenendo i bordi puliti o mantenendo gli spigoli vivi oggetti. Ecco cosa direi: usare l'intelligenza artificiale o il multi-frame è il modo per ridurre il rumore e migliorare le immagini in condizioni di scarsa illuminazione in futuro.

Idrees Patel: Sì, ed è esattamente quello che volevo sentire. [È] perché questa è la cosa principale che separa le ottime fotocamere degli smartphone dalle fotocamere di livello medio o economico.

Judd Heape: Sì.

Idrees Patel: Le ottime fotocamere degli smartphone sanno quando applicare la riduzione del rumore e quando no.

Judd Heape: Esattamente. Sì, e come ho detto, la messa a punto della fotocamera viene effettivamente eseguita dai nostri clienti o OEM e alcuni OEM preferiscono un'immagine più morbida con meno rumore. Alcuni preferiscono rivelare più dettagli forse con un po’ più di rumore.

E quindi è un compromesso e quindi hai dei limiti. Ed è come ho detto, la cosa migliore da fare è ottenere un sensore di immagine migliore con una sensibilità più elevata, pixel più grandi o ottiche con numero f inferiore, perché così ottieni più luce fin dall'inizio, questo è sempre Meglio. Ma se non puoi farlo, invece di aumentare semplicemente la riduzione del rumore e perdere dettagli, quello che vuoi fare è utilizzare tecniche multi-frame o AI.

Analisi e contesto: Questo, secondo me, è attualmente il problema più grande con le fotocamere degli smartphone. Sì, puoi utilizzare un sensore da 48 MP o 64 MP o anche uno da 108 MP. Tuttavia, se non si sceglie di utilizzare una riduzione contenuta del rumore con tecniche MFNR o AI, tutti quei megapixel, il binning 4 in 1 e persino il binning 9 in 1 non sono di grande utilità. Il Galaxy S20 Ultra è il primo esempio qui, come la sua fotocamera principale da 108 MP è stato in gran parte considerato una delusione. Samsung è andata indietro nell'elaborazione delle immagini utilizzando una riduzione del rumore estremamente aggressiva nelle modalità notturne dei suoi flagship del 2020, mentre la serie Galaxy S10 del 2019 ironicamente aveva una qualità dell'immagine migliore.

Judd rivela che alcuni OEM in realtà preferiscono un'immagine più morbida con meno rumore, il che è fondamentalmente la scelta sbagliata da fare. La sintonizzazione viene effettuata dai produttori di dispositivi e quindi due telefoni che utilizzano lo stesso sensore e sono alimentati dallo stesso SoC possono produrre foto molto, molto diverse. Bisogna sperare che questi produttori di dispositivi imparino la verità dai loro concorrenti più performanti. Mentre quest'anno Samsung ha perso la strada nell'elaborazione delle immagini, OnePlus è stato in netto contrasto. Il OnePlus 8 Pro è una delle migliori fotocamere per smartphone sul mercato, il che è un risultato notevole considerando lo scarso rendimento della fotocamera del OnePlus 5T nel 2017. La mentalità di elaborazione delle immagini deve cambiare affinché le foto risultino nitide, non importa quanto infuria la guerra dei megapixel.

Decodifica e codifica AV1

Mishaal Rahman: Quindi questo è un po' separato dalle altre discussioni che stiamo avendo sulla qualità della fotocamera. Una delle cose che alcune persone nella comunità dei codec multimediali open source si sono chiesti è quando Qualcomm supporterà Decodifica AV1 e possibilmente codifica. So che è un po' eccessivo, ma Google richiede TV 4K HDR e 8K su Android 10 per supportare la decodifica AV1 e Netflix, Youtube, stanno iniziando il lancio dei video codificati in AV1. Quindi sembra un lento aumento dei video codificati AV1. Quindi ci chiediamo quando almeno il supporto per la decodifica sarà disponibile in Spectra.

La dichiarazione di Qualcomm: Secondo la tua domanda su AV1, non abbiamo nulla da annunciare oggi. Tuttavia, Snapdragon è attualmente in grado di riprodurre AV1 tramite software. Qualcomm collabora costantemente con i partner sui codec di prossima generazione tramite la creazione di software e hardware Snapdragon è il leader nei codec HDR, inclusa l'acquisizione e la riproduzione in HEIF, HLG, HDR10, HDR10+ e Dolby Visione. Naturalmente, ci rendiamo conto che per offrire ai nostri clienti le migliori esperienze CODEC, incluso il supporto di alta risoluzione e consumo minimo, è auspicabile implementarle nell'HW.

Registrazione video - compensazione del movimento

Mishaal Rahman: Quindi non so se Idrees ha altre domande, ma ne ho una su qualcosa che ho riletto allo Snapdragon Tech Summit. Riguarda il core video con compensazione del movimento. Ho sentito che ci sono miglioramenti nel motore di compensazione del movimento, per ridurre il rumore durante la registrazione video. Mi chiedevo se potessi approfondire cosa è stato migliorato esattamente e cosa è stato fatto.

Judd Heape: Il motore EVA (Engine for Video Analytics) è stato migliorato con un core della motion map più denso in modo che EVA il motore, sai, ad esempio guarda sempre il video in arrivo e ha un nucleo lì dentro che fa movimento stima. Ciò che abbiamo fatto è stato rendere il core molto più accurato, facendolo quasi a livello di pixel invece che in modo più accurato. livello di blocco grossolano e quindi stiamo ottenendo molti più vettori di movimento dal motore EVA in Snapdragon 865 rispetto al precedente generazioni. E ciò significa che il core video che esegue la codifica può utilizzare questi vettori di movimento per essere di più accurato riguardo alla codifica, ma anche l'ISP lato fotocamera utilizza tali informazioni per il rumore riduzione.

Come sapete, da generazioni disponiamo di un filtraggio temporale con compensazione del movimento, che in realtà è la riduzione attiva del rumore durante il video, che calcola la media dei fotogrammi nel tempo per eliminare il rumore.

Il problema con questa tecnica, però, è se c'è movimento nella scena. Il movimento finisce per essere rifiutato dalla riduzione del rumore perché non può essere gestito o viene imbrattato, e si ottengono queste brutte tracce e artefatti sugli oggetti in movimento. Quindi, nel filtraggio temporale compensato in movimento, quello che abbiamo fatto in passato poiché non avevamo questa mappa di movimento densa per i locali movimento, abbiamo - abbiamo gestito semplicemente i casi solo quando muovi la telecamera, è abbastanza facile perché tutto si muove a livello globale.

Ma se stai riprendendo qualcosa e hai un oggetto che si muove ALL'INTERNO della scena, quello che abbiamo fatto prima [era questo] abbiamo semplicemente ignorato quei pixel perché non potevamo elaborarli per il rumore, perché si trattava di un movimento locale oggetto. E quindi, se calcolavi la media fotogramma per fotogramma, l'oggetto si trovava in un posto diverso in ogni fotogramma, quindi non potevi realmente elaborarlo.

Ma su Snapdragon 865, perché abbiamo la mappa di movimento più densa e abbiamo la capacità di guardare i vettori di movimento su quasi un pixel in base ai pixel, siamo effettivamente in grado di elaborare i pixel spostati localmente fotogramma per fotogramma per la riduzione del rumore, mentre prima non potevamo. Penso di aver menzionato una metrica nel discorso. Non ricordo il numero (era il 40%) ma in media per la maggior parte dei video era una grande percentuale di pixel che ora può essere elaborata per il rumore, mentre nella generazione precedente non poteva esserlo. E questo è in parte dovuto alla capacità di comprendere il movimento locale e non solo quello globale.

Registrazione video - HDR

Idrees Patel: Un'altra domanda che ho riguarda i video HDR. Quest'anno vedo che molti più produttori di dispositivi offrono la registrazione video HDR10. Quindi è qualcosa che è stato promosso con lo Snapdragon 865, o è lì da alcune generazioni.

Judd Heape: Oh sì, quindi mentre ne parlavamo al Tech Summit, abbiamo avuto HDR10, che è lo standard video per HDR sul lato codifica della fotocamera ormai da alcune generazioni, a partire dallo Snapdragon 845, credo, e abbiamo costantemente migliorato Quello.

Quindi l'anno scorso abbiamo parlato di HDR10+, che è una registrazione HDR a 10 bit, ma invece di metadati statici ha metadati dinamici, quindi i metadati catturati dalla fotocamera durante la scena viene effettivamente registrata in tempo reale, in modo che quando la riproduci il motore di riproduzione capisce se si trattava di una stanza buia o luminosa, e può compensare Quello.

Anche l'anno scorso al Tech Summit abbiamo parlato dell'acquisizione Dolby Vision, che è l'alternativa Dolby a HDR10+. È molto simile anche nel caso in cui producono effettivamente i metadati dinamici. Quindi Snapdragon oggi può supportare tutti e tre questi formati: acquisizione HDR10, HDR10+ e Dolby Vision. Quindi non c'è davvero alcun vincolo: i nostri OEM possono scegliere il metodo che preferiscono. Abbiamo clienti che utilizzano HDR10 ormai da un po', e l'anno scorso e quest'anno sempre più clienti scelgono HDR10+. E penso che in futuro vedrete anche l'adozione di Dolby Vision Capture.

Quindi sì, lo stiamo promuovendo pesantemente. L'HDR è davvero importante per noi, sia dal punto di vista delle istantanee che da quello dei video. E come ho detto, ci siamo impegnati nei formati HDR10 e HDR10+ e ora Dolby Vision, lo sai dallo Snapdragon 845 e ora anche recentemente dallo Snapdragon 865 per Dolby Vision.

Mishaal Rahman: Inoltre, in realtà non ero sicuro che qualche fornitore avesse già implementato la registrazione Dolby Vision, ma immagino che questo risponda a questa domanda. [Questo è] qualcosa che vedremo in futuro.

Judd Heape: Naturalmente, non posso commentare quali fornitori siano interessati e cose del genere. Questa sarebbe una domanda per Dolby; è una loro caratteristica e quindi se volessi maggiori informazioni a riguardo, ti suggerirei di contattare Dolby. Ma ad oggi, per quanto ne so, non è stato ancora prodotto alcun portatile con Dolby Vision Capture.

Idrees Patel: Perché hai bisogno anche del supporto del display. Ho notato che i display degli smartphone supportano HDR10 e HDR10+ ma non Dolby Vision.

Judd Heape: Sì, in realtà, ma la riproduzione Dolby Vision è stata supportata su Snapdragon in passato. Può funzionare con un determinato display e il display non deve necessariamente soddisfare alcun criterio specifico per essere compatibile con Dolby Vision, tranne quello Dolby classificherà il display e si assicurerà che abbia una certa gamma di colori, una certa profondità di bit, una certa luminosità e un certo contrasto rapporto.

Quindi, sai, puoi acquistare un display HDR10, ma puoi anche acquistare un telefono che supporti Dolby Vision riproduzione, ma Doby avrà qualificato quel display per assicurarsi che sia conforme ai loro rigidi requisiti requisiti.

Collaborazione con fornitori di software: Imint, Morpho e Arcsoft

Mishaal Rahman: Credo che l'unica domanda a cui rispondere e su cui fare ulteriori ricerche sia un'azienda con cui abbiamo parlato di recente è Imint. Recentemente hanno aggiornato il loro Software di stabilizzazione Vidhance A lavorare con lo Spectra 480. So che voi ragazzi lavorate con molte aziende che sfruttano anche lo Spectra 480, l'elaborazione. Mi chiedo se sei in grado di rivelare più esempi di queste tecnologie che hai - o dei partner che hai lavorato, solo perché sia] qualcosa a cui potremmo dare seguito, saperne di più su come Spectra 480 viene utilizzato nel campo.

Judd Heape: Lavoriamo con molti fornitori di software. Come quello che abbiamo menzionato in passato, Dolby è uno di questi. Ce ne sono altri come quelli che hai citato, Imint/Vidhance per EIS (stabilizzazione elettronica dell'immagine). Abbiamo menzionato prima anche Morpho e Arcsoft, anche noi lavoriamo a stretto contatto con loro.

Per quanto riguarda il modo in cui lavoriamo con loro, la nostra politica è che vogliamo davvero lavorare a stretto contatto con questi fornitori di software indipendenti e fare in modo che sicuri che qualunque cosa stiano facendo a livello software, siano in grado di sfruttare l'hardware di Snapdragon per ottenere il consumo energetico più basso possibile.

Quindi una delle cose che stiamo facendo con questi fornitori è assicurarci che abbiano un ottimo accesso al motore HVX o al core Hexagon DSP. Stanno anche utilizzando il motore EVA per ottenere vettori di movimento e per utilizzare l'hardware e il motore EVA per la manipolazione delle immagini in questo modo possono eseguire il movimento, la traduzione, la deformazione delle immagini e cose del genere in un hardware anziché utilizzare la GPU Quello.

E quindi, lavoriamo a stretto contatto con questi ISV, soprattutto quelli che ho citato in particolare, per assicurarci che non si limitino a mettere tutto e software nella CPU, ma utilizzano elementi come il DSP e gli acceleratori hardware nell'EVA per ottenere prestazioni migliori e ridurre i consumi consumo. Quindi questo è molto importante anche per noi perché offre ai nostri clienti la migliore combinazione possibile di funzionalità e consumo energetico.

[Commenti di chiusura di Judd]: Volevo solo dire grazie ragazzi per tutte le domande davvero interessanti. Sono davvero, davvero dettagliati. Lavoro in Qualcomm ormai da circa tre anni e guardo al nostro passato, anche oltre il mio mandato qui, dove prima abbiamo iniziato con Spectra Snapdragon 845, negli ultimi anni abbiamo lavorato davvero duramente per migliorare notevolmente l'ISP, la fotocamera e l'esperienza complessiva anni. Sono davvero entusiasta anche di ciò che porterà il futuro. E sono entusiasta di ciò che annunceremo ai futuri Tech Summit di cui voi ragazzi potrete chiedere e scrivere. [Spectra Camera], probabilmente, secondo me, è una delle tecnologie più interessanti di Qualcomm.

Pensieri finali

È stato fantastico discutere con Judd sui contributi di Qualcomm alla fotografia per smartphone. Possiamo avere sentimenti contrastanti sull'azienda e sul suo sistema di licenza dei brevetti, ma il segno di Qualcomm nel settore degli smartphone è sentito da tutti, sia che si parli di brevetti, 4G e 5G, Wi-Fi, le GPU Adreno, gli ISP Spectra e gli stessi chip Snapdragon, che sono in gran parte ritenuti il gold standard negli smartphone Android mercato.

Ci sono ancora molti punti critici che devono essere risolti nella fotografia da smartphone, ma il futuro sì brillante poiché Qualcomm promette di compiere ulteriori progressi nei vasti e crescenti campi del ML, che alimenta AI. Vediamo cosa ha da annunciare Qualcomm in questo campo al prossimo Snapdragon Tech Summit.

Come Qualcomm sta migliorando le fotocamere sui telefoni Android

Carichi di lavoro di elaborazione delle immagini AI

Riduzione del rumore multi-frame

Ecco come gestiscono la scarsa illuminazione, così come l'HDR. I miglioramenti alla funzionalità di riduzione del rumore multi-frame arriveranno da Qualcomm, che includerà anche scarsa illuminazione e HDR. Ma è qualcosa che pubblicheremo a breve.

Quindi non è qualcosa che è stato lanciato, ma stiamo collaborando con alcuni clienti chiave su queste funzionalità.

Super risoluzione per i video

Sensori Quad Bayer da alto megapixel

Judd Heape: Sì, quindi ovviamente il vantaggio di questi sensori quad CFA (Quad Color Filter Array) è la capacità di funzionare in condizioni di luce intensa a piena risoluzione, e poi l'ISP può elaborarli a 108 megapixel o 64 megapixel o qualunque sia disponibile.

Riconoscimento facciale basato su ML

Judd Heape: Il rilevamento dei volti è qualcosa che ci appassiona molto. Vogliamo migliorare questi livelli di precisione, lo sai generazione dopo generazione in tutti i livelli, dal livello 800 fino al livello 400. Il ML è una parte importante di questo.

Miglioramenti nel motore di elaborazione delle immagini

Fotografia in condizioni di scarsa illuminazione e riduzione aggressiva del rumore

Judd Heape: Sì.

Judd Heape: Esattamente. Sì, e come ho detto, la messa a punto della fotocamera viene effettivamente eseguita dai nostri clienti o OEM e alcuni OEM preferiscono un'immagine più morbida con meno rumore. Alcuni preferiscono rivelare più dettagli forse con un po’ più di rumore.

Decodifica e codifica AV1

Registrazione video - compensazione del movimento

Come sapete, da generazioni disponiamo di un filtraggio temporale con compensazione del movimento, che in realtà è la riduzione attiva del rumore durante il video, che calcola la media dei fotogrammi nel tempo per eliminare il rumore.

Registrazione video - HDR

Judd Heape: Oh sì, quindi mentre ne parlavamo al Tech Summit, abbiamo avuto HDR10, che è lo standard video per HDR sul lato codifica della fotocamera ormai da alcune generazioni, a partire dallo Snapdragon 845, credo, e abbiamo costantemente migliorato Quello.

Quindi, sai, puoi acquistare un display HDR10, ma puoi anche acquistare un telefono che supporti Dolby Vision riproduzione, ma Doby avrà qualificato quel display per assicurarsi che sia conforme ai loro rigidi requisiti requisiti.

Collaborazione con fornitori di software: Imint, Morpho e Arcsoft

Pensieri finali