Hvordan Qualcomm forbedrer kameraene på Android-telefoner

Qualcomms Judd Heape forklarer hvordan Qualcomm forbedrer kameraopplevelsene på Android-telefoner med nye funksjoner i sine Spectra ISP-er.

Som produsent av system-on-chips (SoCs) som driver mye av verdens smarttelefoner og wearables, er USA-baserte Qualcomm utvilsomt en av gigantene i brikkeprodusentindustrien. Snapdragon-linjen med SoCs, for eksempel, brukes av nesten alle store Android-enhetsprodusenter for flaggskip, mellomtoner og budsjettsmarttelefoner. Qualcomm mottar hyllest hvert år på selskapets årlige Tech Summit for fremskritt innen CPU, GPU og AI-feltene, ettersom det inkorporerer ARMs nye CPU-mikroarkitekturer og utfyller dem med årlige forbedringer i sine tilpassede GPUer. Dens fremskritt innen kameraer blir imidlertid ikke lagt så mye merke til, da de har en tendens til å gå under radar.

Dette betyr imidlertid ikke at Qualcomms arbeid med smarttelefonkameraer er uviktig. Tvert imot, Qualcomms Spectra ISP-er i sine Snapdragon SoCs bidrar til å gjøre mye av moderne smarttelefonkameraer mulig med økt databehandlingskraft, funksjoner som 8K-videoopptak, HDR10-video, støtte for QCFA-kameraer med høye megapiksler, og mye, mye mer. Qualcomm har fremmet at Spectra 380 ISP i Snapdragon 855

var verdens første CV-ISP, og den har promotert verdens første 4K HDR-videoopptaksfunksjoner, som i seg selv nå har supplert med 2. generasjons 4K HDR10+ videoopptak. Spectra 480 ISP i siste generasjon Snapdragon 865 er svært dyktig - den kan behandle to gigapiksler per sekund, en økning på 40 % i forhold til forgjengeren. Det er en intellektuell eiendom (IP) som skiller Qualcomm fra konkurrentene innen mobilbrikkeleverandører.

Mens Qualcomm forklarer de fleste overskriftene i sine pressemeldinger og produktinnlegg, opp til nå har forbrukerne ikke fått en sjanse til å vite det meste av detaljene på lavt nivå som gjør disse tingene arbeid.

Derfor var vi i XDA Developers glade for å akseptere et tilbud om å snakke med Judd Heape, Senior Director, Product Management hos Qualcomm. XDAs sjefredaktør, Mishaal Rahman, og jeg hadde et intervju med Judd i juni 2020 for å lære og se hvordan Qualcomm presser målstolpene med smarttelefonfotografering og videoopptak. Vi snakket om emner inkludert AI-bildebehandling, multi-frame noise reduction (MFNR), AV1, Dolby Vision-videoopptak, pixel binning i kameraer med høy megapiksel og mye mer. La oss ta en titt på Judds innsikt om hvert emne én etter én:

Arbeidsbelastninger for AI-bildebehandling

Mishaal Rahman: Jeg starter med en av de som Idrees hadde, som er interessant, og som jeg også var interessert i. Så vi lurer på hva er arbeidsbelastningene for AI-bildebehandling som Qualcomm bruker i Spectra ISP, og i hvilken grad kan de tilpasses av enhetsprodusenter?

Judd Heape: Ja, så vi ser på mange AI-arbeidsbelastninger, og det er noen AI som kan kjøre i selve ISP-en som for eksempel vår neste generasjon 3A: autoeksponering, automatisk hvitbalanse og autofokus er AI basert.

Men vi ser også på noen få andre AI-arbeidsbelastninger, som vil kjøre utenfor Internett-leverandøren, i et av de andre dataelementene. Så spesielt ser vi på ting som: vi har en AI-basert støyreduksjonskjerne som kjører eksternt fra ISP-en, i AI-motordelen (AIE) av brikken.

Dessuten har vi ting som ansiktsgjenkjenning, som er en full dyplæringsmotor som også kjører i AIE-komplekset, men som selvfølgelig hjelper kameraet. Og det er andre ting vi jobber med annet enn ansiktsgjenkjenning og fornektelse; vi ser også på å gjøre ting som en automatisk justering av øyeblikksbilder ved hjelp av AI som automatisk vil settes parametere per scene basert på HDR-innhold, behandler vi for å endre skygger og høylys og farger og den slags ting.

En av våre partnere, Morpho, vant nettopp en stor AI-arbeidsmengdepris på Embedded Vision Summit i år. Uavhengige programvareleverandører har også mange veldig intense AI-baserte algoritmer, og de kan variere fra alt som jevnt kamera overgang, som det Arcsoft gjør, (jeg nevnte det på siste Snapdragon Tech Summit som er AI-basert), til Morphos semantiske segmentering motor. Morphos løsning er en AI-motor som forstår forskjellige deler av scenen, som hva du vet, stoff versus hud versus himmel og gress og bygge og den slags ting, og så kan Internett-leverandøren ta den informasjonen og behandle disse pikslene annerledes for tekstur og støy og farge for eksempel.

Qualcomms uttalelse: For ML og AI kunngjør vi heller ingen nye oppdateringer for funksjonene til ansiktsgjenkjenning og "3A" (AE, AF og AWB) i dag heller. Men, som Judd sa, er vi forpliktet til å bringe mer ML/AI-kapasitet til kameraet, inkludert disse to funksjonsområdene.

Analyse og kontekst: AI i smarttelefoner har stort sett blitt holdt for å være et buzzword helt siden de første nevrale prosesseringsenhetene (NPU-er) og "AI-baserte" funksjoner begynte å komme til Android-telefoner. Det betyr imidlertid ikke at AI i seg selv er meningsløst. Tvert imot, AI har mye potensial i mobil, til det punktet hvor både chipleverandører og enhetsprodusenter bare skraper overflaten så langt av hva som er mulig.

Takket være AI har smarttelefonkameraer blitt bedre - noen ganger raskt, noen ganger smertefullt sakte, men de kommer dit. Smarttelefonkameraer overvinner grunnleggende begrensninger som relativt mindre sensorer, fast brennvidder, og dårligere optikk med smart beregningsfotografering som drives av maskinlæring (ML). Autoeksponering, støyreduksjon, ansiktsgjenkjenning og segmentering er bare noen av feltene hvor AI i smarttelefonfotografering har vært i stand til å gjøre inntrykk. I løpet av de neste fem årene vil disse begynnende feltene innen kunstig intelligens som forbedrer ulike aspekter ved fotografering modnes mye.

Multi-frame støyreduksjon

Idrees Patel: Qualcomm har nevnt multi-frame støyreduksjon som en funksjon. Jeg vil gjerne vite mer detaljer om det som hvordan bildestablingen fungerer. Er det på noen måte likt det Google gjør med deres HDR+-teknologi, eller er det helt annerledes?

Judd Heape: Det er likt, men annerledes. Se for deg at kameraet tar en serie og tar fem til syv bilder i rask rekkefølge. Deretter tar ISP-motoren en titt på disse rammene og velger den beste (kalt "ankerrammen") for fokus og klarhet, og deretter kan den velge 3-4 bilder på hver side av den rammen og deretter snitte dem alle sammen. Den prøver å velge rammer som er tett nok sammen slik at det er veldig lite bevegelse.

Og når den legger seg på disse rammene, beregner den gjennomsnittet av dem sammen for å finne ut hva som er annerledes, for eksempel hva som er faktiske bildedata kontra hva som er støydata. Så når du har mer og mer informasjon, fra flere og flere rammer, kan du faktisk gjøre enkle ting som å se på forskjellene mellom rammene. Forskjellene er sannsynligvis støy, mens det som er likt i rammene sannsynligvis er bildedata.

Så vi kan gjøre den sanntidsrammekombinasjonen for å redusere støy. Nå kan du også gjøre det samme med lite lys og HDR, og det er mye som det Google sannsynligvis gjør. Vi er ikke kjent med algoritmen deres. Men de bruker multi-frame-teknikker for å øke følsomheten slik at du bedre kan "se"; Når du har redusert støybunnen, kan du nå se på å gjøre mer lokal tonekartlegging, eller legge til forsterkning i bildet uten å legge til mer støy.

Så det er hvordan de håndterer lite lys, så vel som HDR. Forbedringer til multi-frame støyreduksjonsfunksjonen vil komme fra Qualcomm, som også vil inkludere lite lys og HDR. Men det er noe vi kommer til å rulle ut snart.

Mishaal Rahman: Så du nevnte å rulle ut denne funksjonen snart. Kommer det inn som en oppdatering til BSP for partnere?

Judd Heape: I våre neste generasjons produkter, gjennom et programvaretillegg, vil vi ha muligheten til å engasjere oss - faktisk skjer det akkurat nå på neste generasjonsprodukter - vi er i kontakt med kunder akkurat nå for å gjøre flere multi-frame-teknikker utover støyreduksjon, men også for å håndtere HDR og lite lys situasjoner. Den bruker den samme grunnleggende ISP HW-motoren, men vi legger til mer programvare for å håndtere disse multi-frames for mer enn bare støyreduksjon.

Så det er ikke noe som har rullet ut, men vi jobber med noen hovedkunder om disse funksjonene.

Analyse og kontekst: Med hver nye Snapdragon SoC-kunngjøring inkluderer Qualcomms spesifikasjonstabell spesifikasjoner knyttet til støyreduksjon med flere bilder. Snapdragon 865, for eksempel, med sine doble 14-biters CV-ISP-er støtter opptil et hypotetisk 200 MP enkeltkamera (selv om kamerasensorleverandører som Sony, Samsung og OmniVision ennå ikke har gitt ut noen smarttelefonkamerasensor over 108MP). Men når det gjelder støtte for enkeltkameraer med MFNR, null lukkerforsinkelse (ZSL) og 30 bilder per sekund, spesifikasjonen endres til 64MP, og for doble kameraer med samme spesifikasjoner endres spesifikasjonen til 25 MP.

Qualcomms multi-frame støyreduksjon er veldig lik HDR+, men ikke helt den samme, som forklart av Judd ovenfor. Mens HDR+ tar en rekke undereksponerte eksponeringer og beregner gjennomsnittet for å få det beste bildet, tar MFNR fem-sju normale bilder. Det virker ikke som Qualcomms MFNR er like avansert som Googles løsning fordi HDR og lite lys ikke er nevnt som spesifikke prioriteringer i den nåværende arbeidsflyt for Spectra, mens Googles HDR+ retter seg mot HDR, fotografering i lite lys og støyreduksjon samtidig, med Night Sight som tar det opp et hakk til og med lengre. Det er imidlertid oppmuntrende å høre at MFNR mottar forbedringer og Qualcomm vil rulle ut disse forbedringene til "noen nøkkelkunder". I fremtiden vil vi kanskje ikke trenge uoffisielle Google Camera-porter for å oppnå det fulle potensialet til ikke-Google Android-smarttelefonkameraer.

Super oppløsning for video

Googles arbeidsflyt med superoppløsning

Mishaal Rahman: Så, noe jeg hørte på Tech Summit. Egentlig tror jeg det var det i et intervju med Android Authority. Er at Qualcomm planlegger å utvide superoppløsning til video som en programvareløsning for partnere, og at dette tilsynelatende vil bli rullet ut i en oppdatering. Jeg lurer på om du har noen oppdateringer å dele på denne funksjonen.

Judd Heape: Ja, så det er en funksjon som vi har hatt muligheten til å gjøre en stund, og den er akkurat nå å rulle ut. Jeg vil ikke si at det er i en programvareoppdatering, men jeg vil si at det er litt som en ekstra fordel med den eksisterende funksjonen med flere rammer og lite lys. Vi snakker med noen spesifikke hovedkunder om den funksjonen. Så ja, video superoppløsning er noe i en annen generasjon eller så vil vi ha det som det vi kall en plan for registreringsfunksjon der den faktisk er innebygd i programvarekodebasen for [den] kamera. Men akkurat nå handler det mer om spesifikke kundeengasjementer for den nye funksjonen.

Analyse og kontekst: Superoppløsning for video er en funksjon som til nå ikke har vist seg i smarttelefonkameraer. Det er et så nytt felt Det skrives fortsatt forskningsartikler om det. Å bruke multi-frame-teknikker for fotografering er én ting, men å bruke dem til video for å oppskalere videoen til en høyere oppløsning er en helt annen sak. Qualcomm sier at det ruller ut funksjonen til "noen nøkkelkunder" igjen, men akkurat nå er den ikke innebygd i programvarekodebasen for kameraet. I fremtiden kan det være tilgjengelig for alle, men foreløpig er det en funksjon som sluttforbrukerne ikke engang har fått brukt ennå.

Quad Bayer-sensorer med høye megapiksler

Via: AnandTech

Idrees Patel: La oss snakke om Quad Bayer-sensorer. Siden 2019 har mange telefoner nå 48MP, 64MP og nå til og med 108MP sensorer. Dette er Quad Bayer-sensorer; du har faktisk ikke ekte fargeoppløsning på 48 eller 64 eller 108MP. En ting jeg ville spørre var hvordan er ISP forskjellig når det gjelder bildebehandling for disse Quad Bayer eller Nona Bayer-sensorer (4-i-1 eller 9-i-1 piksel binning), sammenlignet med tradisjonelle sensorer, som ikke har noen piksler binning.

Judd Heape: Ja, så selvfølgelig er fordelen med disse quad CFA (Quad Color Filter Array) sensorene muligheten til å kjøre i sterkt lys dem i full oppløsning, og så kan Internett-leverandøren behandle dem med hele 108 megapiksler eller 64 megapiksler eller hva som er tilgjengelig.

Vanligvis i de fleste lyssituasjoner, som innendørs eller mørke, må du imidlertid kaste fordi sensorpikslerne er så små at du må kombinere piksler for å få bedre lysfølsomhet. Så jeg vil si at mesteparten av tiden, spesielt hvis du tar opp video eller hvis du er i lite lys for øyeblikksbilder, kjører du i innlagt modus.

Nå kan Internett-leverandøren behandle sensoren uansett. Du kan se på sensoren i innlagt modus, i så fall er det bare et vanlig Bayer-bilde som kommer inn, eller den kan se på det i full oppløsningsmodus der de innkommende dataene er quad CFA. Og hvis den er i den modusen, konverterer Internett-leverandøren den til Bayer.

Så vi holder på med - det vi kaller - "remosering". Dette gjør en viss interpolering av quad CFA-bildet for å få det til å se ut som Bayer i full oppløsning igjen. Og det gjøres vanligvis i programvare for snapshot, selv om vi etter hvert kommer til å legge til denne muligheten i maskinvaren for å støtte video også.

Det som er i ISP-maskinvaren i dag er binning. Så du kan sette inn sensoren, og du kan faktisk få sensoren til å bestemme om den skal gi full eller kvart eller 1/9-dels oppløsning, eller du kan legge inn i ISP-en. Og det er en funksjon som vi la til i Snapdragon 865, faktisk. Så hvis du setter inn ISP-en og deretter kjører sensoren med full oppløsning, vil ISP-en ha muligheten til å ha både fulloppløsningsbildet og det lagrede bildet på samme tid. Derfor kan den bruke den mindre oppløsningen eller "binned"-bildet for video (videokamera) og forhåndsvisning (søker) og samtidig bruke fulloppløsningsbildet for stillbilde i full størrelse.

Men igjen, det ville være i tilfelle av lyse lysforhold. Men i det minste hvis du legger inn Internett-leverandøren, har du muligheten til å håndtere både det store og det lille bildet på samtidig, og derfor kan du få samtidig video og øyeblikksbilde, du kan også få full oppløsning ZSL; alt uten å måtte bytte sensoren frem og tilbake, noe som tar betydelig tid.

Dette er en veldig god funksjon. Og som Quad CFA-sensorer og du vet, kommer 9x-sensorene og kanskje enda flere ut, og etter hvert som disse sensorene blir flere allestedsnærværende - vi ser mer og mer etter å håndtere disse sensorene i maskinvaren, ikke bare for binning, men også for remosaikering.

Og så fordelen med det er at hvis du gjør det i maskinvaren kontra å gjøre det i programvare, reduserer du ventetid for kundene dine, og derfor vil skudd-til-skudd-tidene og eksplosjonshastighetene være mye raskere. Så når vi marsjerer fremover med nye Internett-leverandører og nye brikker, vil du begynne å se mye mer av det vi gjør for disse nye typer sensorer satt inn i maskinvare.

Analyse og kontekst: Huawei var den første som brukte en 40MP Quad Bayer-sensor med Huawei P20 Pro i 2018, og populariteten til Quad Bayer-sensorer var så høy at den nå har nådd til og med $150-telefoner drevet av Snapdragon/Exynos/MediaTek-brikker. Spesielt har vi sett smarttelefonindustrien komme til 48MP og 64MP kameraer som sweet spot, mens noen få telefoner går så høyt som 108MP. Quad Bayer- og Nona Bayer-sensorer kommer ikke uten negativer, siden deres fulle oppløsning kommer med forbehold.

Av markedsføringsmessige årsaker høres imidlertid en 48MP-sensor mye bedre ut enn en 12MP-sensor, selv om brukeren tar bilder med 12MP-piksler mesteparten av tiden uansett. En 48 MP-sensor skal teoretisk gi bedre 12 MP-piksler innebygde bilder i lite lys enn en tradisjonell 12 MP sensor, men bildebehandlingen må følge med, og som jeg nevner nedenfor, er det en lang vei å gå for å skje. Uansett var det interessant å se hvordan Spectra ISP håndterer Quad Bayer-sensorer med remosaicing. Det er mye potensial i disse sensorene, og telefoner som OnePlus 8 Pro (som bruker en Sony IMX689 Quad Bayer-sensor med store piksler) er for tiden på toppen av smarttelefonkameraer.

ML-basert ansiktsgjenkjenning

Mishaal Rahman: Så jeg tror du tidligere hadde nevnt at ML-basert ansiktsgjenkjenning støttes i Spectra 480. Det er noe jeg faktisk hørte på Tech Summit. [At dette er] en av forbedringene fra 380 til 480; at det er en del av - det er en ny objektiv deteksjonsblokk i videoanalysemotoren som brukes til romlig gjenkjenning fremover.

Kan du snakke mer om hvor mye dette forbedrer ansiktsgjenkjenning og hvilke potensielle applikasjoner ser du at det blir brukt av leverandører?

Judd Heape: Ja faktisk, så du har rett i den innebygde datasynsblokken, som er "EVA"-blokken, som vi snakket om på Tech Summit. Den har en generell gjenstandsgjenkjenningskjerne som vi bruker når kameraet kjører, vi bruker den til å oppdage ansikter. Teknikkene i den blokken er mer tradisjonelle teknikker, så gjenkjenningen av gjenstander gjøres med tradisjonelle klassifiserere, men på toppen av det har vi en programvaremotor som kjører for å faktisk forbedre nøyaktigheten av det blokkere.

Så vi bruker ML-basert programvare for å filtrere ut de falske positive sidene, siden maskinvaren kan oppdage flere ting som ansikter i scenen, og da er ML-programvaren sier "ok, det er et ansikt", eller "det er egentlig ikke et ansikt", og så øker det nøyaktigheten med noen få prosentpoeng ved å kjøre det ML-filteret på toppen av maskinvare.

Jeg nevnte mange ting om fremtiden. Fremover i fremtiden er det vi planlegger å også kjøre selve hele ansiktsdeteksjonen i ML eller i dyp læringsmodus i programvare. Spesielt vil det være sant på de lavere nivåene, så for eksempel i et nivå der vi ikke har EVA-maskinvaremotoren, vil vi begynne å fase inn dyp læring som deteksjon, som kjører i AI-motoren til brikken og senere, i de øvre lagene i 700-800-lagene, har vi EVA-maskinvaren for å gjøre dette...

Jeg vil imidlertid si generelt at vi vil bevege oss mer mot ML-tilnærminger for å gjøre ansiktsgjenkjenning, og det vil inkludere både programvare på mellomlang sikt og maskinvare på senere sikt. Jeg kommer ikke til å avsløre hvilke produkter som vil ha det, men etter hvert som vi går fremover for å forbedre Internett-leverandøren, vil vi selvfølgelig legge til mer og mer maskinvare for å gjøre ML.

Mishaal Rahman: Rått. Vel, jeg tror det er gitt at retningen du går er å bringe 800-seriens maskinlæringsforbedringer ned til det lavere nivået, så jeg tror det generelt er gitt. Men du kan selvfølgelig ikke gi oss noen detaljer om det. Takk for oppdateringen.

Judd Heape: Ansiktsgjenkjenning er noe vi brenner veldig for. Vi ønsker å forbedre disse nøyaktighetene, du vet generasjon over generasjon i alle nivåer hele veien fra 800 tier ned til 400 tier. ML er en stor del av det.

Analyse og kontekst: Disse aspektene er det som gir smarttelefonfotografering så mye mer potensial enn selv de nyeste speilløse kameraene. Ja, de speilløse kameraene har bedre bildekvalitet i lite lys og er mye mer fleksible, men smarttelefonkameraer overvinner sine begrensninger på geniale måter. ML-basert ansiktsgjenkjenning er bare en del av det.

Forbedringer i bildebehandlingsmotoren

Mishaal Rahman: Rått. Så en av tingene jeg kort hørte under rundebordsdiskusjonene etter Snapdragon Tech Summit var en forbedring av bildebehandlingsmotoren. Jeg hørte at det har blitt forbedret lav mellomfrekvens støyreduksjon eller LEANR. Og at du bruker et dynamisk omvendt forsterkningskart; er det noe du nevnte tidligere i samtalen.

Judd Heape: Å, greit. Så jeg tror du blander to ting sammen. Ja, så det er LEANR-kjernen, som er kjernen som fungerer på støyreduksjon på grovere korn, noe som hjelper i dårlig lys. Det er en ny blokk som ble lagt til i Snapdragon 865 i ISP, og det er én ting.

Det omvendte gevinstkartet er noe annet. Det er noe annet jeg nevnte ved de runde bordene, men det er å reversere effekten av linseskygge. Så som du vet, hvis du har et håndsett og det har et lite objektiv; midten av objektivet vil være lyst og kantene vil bli mer vignetterte; betyr at de blir mørkere.

Og så i tidligere år i ISP, det vi har hatt er at vi har brukt et statisk omvendt forsterkningskart for å bli kvitt de mørke kantene. Og så det har vært i ISP en god stund. Det vi imidlertid la til i Snapdragon 865, er muligheten for at gevinstkartet endres dynamisk gitt den bestemte bilderammen, fordi hvis du bruker mye gevinst på kantene Det som skjer er at kantene kan bli klippet, spesielt hvis du ser på scener med sterkt lys ute, som blå himmel kan bli hvit eller kantene vil klippes på grunn av mye gevinst.

Så i Snapdragon 865 er ikke det omvendte gevinstkartet statisk; det er dynamisk. Så vi ser på bildet og vi sier, "ok disse delene av bildet blir klippet og de burde ikke bli det" slik at vi kan rulle av gain-kartet naturlig slik at du ikke får lyse frynser eller halo-effekter eller denne typen ting fra å korrigere linsen skyggelegging. Så det er forskjellig fra støyreduksjon, og de er to forskjellige kjerner.

Fotografering med lite lys og aggressiv støyreduksjon

Sony Xperia 1 II, et Snapdragon 865-drevet flaggskip

DxOMark sammenligner støyreduksjon i påfølgende generasjoner av iPhones

Idrees Patel: Så en ting jeg ville spørre om var fotografering med lite lys. Som de siste årene har det vært mange [OEM-implementerte] nattmoduser, men en ting jeg har lagt merke til er at mange enhetsprodusenter går for aggressiv støyreduksjon, som reduserer detaljer, til det punktet hvor jevn luminansstøy er fjernet.

Så spørsmålet mitt er at Qualcomm råder alle enhetsprodusenter til ikke å gjøre det, og er det noe som deres prosesseringsrør gjør, eller er det noe som er påvirket av ISPen i SoC.

Judd Heape: Mye av det har med tuning å gjøre, og hvis du ikke har multi-frame, eller jeg vil si at en veldig god bildesensor ikke er tilgjengelig, med høy følsomhet eller optikk med lave f-tall. En måte å bli kvitt støy i spesielt dårlig lys er å bruke mer støyreduksjon, men det som skjer når du bruker mer støyreduksjon er at du mister detaljer, slik at skarpe kanter blir uskarpe. Nå kan du bli kvitt det hvis du bruker disse multi-frame-teknikkene. Eller hvis du bruker AI-teknikker, som liksom kan finne ut hvor kantene på objekter og ansikter er, og den slags. Så å bruke bare brute force støyreduksjon i denne tiden er egentlig ikke måten å håndtere det på, fordi du ender opp med å miste detaljer.

Det du vil gjøre er å gjøre multi-frame-teknikker eller AI-teknikker slik at du fortsatt kan bruke støy reduksjon til mer som indre områder av gjenstander mens du beholder fine rene kanter eller holder skarpe kanter på gjenstander. Så det er det jeg vil si: å bruke enten AI eller multi-frame er måten å gjøre støyreduksjonen på og forbedre bilder i dårlig lys fremover.

Idrees Patel: Ja, og det var akkurat det jeg ønsket å høre. [Det er] fordi det er det viktigste som skiller flotte smarttelefonkameraer fra kameraer på mellomnivå eller budsjettnivå.

Judd Heape: Ja.

Idrees Patel: Flotte smarttelefonkameraer vet når de skal bruke støyreduksjon og når ikke.

Judd Heape: Nøyaktig. Ja, og som jeg sa, kamerainnstillingen gjøres virkelig av våre kunder eller OEM-er, og noen OEM-er foretrekker et mykere bilde med mindre støy. Noen foretrekker å avsløre flere detaljer med kanskje litt mer støy.

Og så det er en avveining og så har du begrensninger. Og det er som jeg sa det beste å gjøre, er å få en bedre bildesensor med høyere følsomhet, større piksler eller lavere f-tall optikk, for da får du inn mer lys fra starten, dette er alltid bedre. Men hvis du ikke kan gjøre det, så i stedet for bare å skru opp støyreduksjonen og miste detaljer, er det du vil gjøre å bruke multi-frame- eller AI-teknikker.

Analyse og kontekst: Dette, etter min mening, er for øyeblikket det største problemet med smarttelefonkameraer. Ja, du kan bruke en 48MP eller 64MP eller til og med en 108MP sensor. Men hvis du ikke velger å bruke begrenset støyreduksjon med MFNR- eller AI-teknikker, er ikke alle disse megapikslene, 4-i-1-binning og til og med 9-i-1-binning til stor nytte. Galaxy S20 Ultra er hovedeksemplet her, som hovedkameraet på 108 MP ble stort sett ansett for å være en skuffelse. Samsung gikk baklengs i bildebehandling ved å bruke ekstremt aggressiv støyreduksjon i nattmodusene i flaggskipene fra 2020, mens 2019 Galaxy S10-serien ironisk nok hadde bedre bildekvalitet.

Judd avslører at noen OEM-er faktisk foretrekker et mykere bilde med mindre støy, noe som i bunn og grunn er feil valg å ta. Tuning er laget av enhetsprodusenter, og derfor kan to telefoner som bruker samme sensor og drives av samme SoC produsere veldig, veldig forskjellige bilder. Man må håpe at disse enhetsprodusentene lærer sannheten fra sine konkurrenter med bedre resultater. Mens Samsung mistet veien i bildebehandling i år, har OnePlus vært en sterk kontrast. OnePlus 8 Pro er et av de beste smarttelefonkameraene på markedet, noe som er en bemerkelsesverdig prestasjon tatt i betraktning den svært dårlige utgangen til OnePlus 5Ts kamera i 2017. Bildebehandlingstankegangen må endres for at bildene skal bli skarpe, uansett hvor mye megapikselkrigene raser.

AV1-dekoding og -koding

Mishaal Rahman: Så dette er litt atskilt fra de andre diskusjonene vi har om kamerakvalitet. En av tingene som noen mennesker i open source media codec-fellesskapet har lurt på er når Qualcomm vil støtte AV1-dekoding og muligens koding. Jeg vet at en er litt av en strek, men Google krever 4K HDR og 8K TVer på Android 10 for å støtte AV1-dekoding og Netflix, YouTube, de starter utrullingen av videoer kodet i AV1. Så det ser ut som en langsom økning av AV1-kodede videoer. Så vi lurer på når i det minste dekodingsstøtten vil være tilgjengelig i Spectra.

Qualcomms uttalelse: Per spørsmålet ditt på AV1 - vi har ingenting å kunngjøre i dag. Imidlertid er Snapdragon for øyeblikket i stand til AV1-avspilling via programvare. Qualcomm jobber alltid med partnere om neste generasjons kodeker via programvare- og maskinvareproduksjon Snapdragon er ledende innen HDR-kodeker inkludert fangst og avspilling i HEIF, HLG, HDR10, HDR10+ og Dolby Syn. Selvfølgelig innser vi for å bringe de beste CODEC-opplevelsene til våre kunder, inkludert støtte for høy oppløsning og lavest effekt, at implementering av disse i HW er ønsket.

Videoopptak - bevegelseskompensasjon

Mishaal Rahman: Så jeg vet ikke om Idrees har flere spørsmål, men jeg hadde ett spørsmål om noe som jeg leste tilbake på Snapdragon Tech Summit. Det handler om den bevegelseskompenserte videokjernen. Jeg hørte at det er like forbedringer i bevegelseskompensasjonsmotoren for å redusere støyen ved videoopptak. Jeg lurte på om du kan utdype nøyaktig hva det har blitt forbedret og hva som er gjort.

Judd Heape: EVA-motoren (Engine for Video Analytics) har blitt forbedret med en tettere bevegelseskartkjerne slik at EVA motor, du vet, for eksempel ser alltid på den innkommende videoen og den har en kjerne der inne som gjør bevegelse anslag. Det vi har gjort er at vi har gjort den kjernen mye mer nøyaktig der den gjør det på nesten et nivå per piksel i stedet for på en måte mer grovt blokknivå, så vi får mye flere bevegelsesvektorer ut av EVA-motoren i Snapdragon 865 enn vi gjorde tidligere generasjoner. Og hva det betyr er at videokjernen som gjør koding kan bruke disse bevegelsesvektorene til å være mer nøyaktig om kodingen, men Internett-leverandøren på kamerasiden bruker også den informasjonen for støy reduksjon.

Så som du vet, har vi i generasjoner hatt bevegelseskompensert tidsfiltrering, som egentlig er den aktive støyreduksjonen under video, som gir gjennomsnitt av bilder over tid for å bli kvitt støy.

Problemet med den teknikken er imidlertid hvis du har bevegelse i scenen. Bevegelse ender opp med å bare bli avvist fra støyreduksjon fordi den ikke kan håndteres eller den blir flettet ut, og du får disse stygge sporene og gjenstandene på ting som beveger seg. Så, i bevegelseskompensert tidsfiltrering, det vi har gjort tidligere siden vi ikke hadde dette tette bevegelseskartet for lokale bevegelse, vi har - rett og slett bare håndtert saker når du flytter kameraet, det er ganske enkelt fordi alt beveger seg globalt.

Men hvis du fotograferer noe og du har et objekt som beveger seg INNE i scenen, det vi gjorde før [var det] vi bare ignorerte disse pikslene fordi vi ikke kunne behandle dem for støy, fordi det var en lokal bevegelse gjenstand. Og derfor, hvis du satte gjennomsnittet frame-for-frame, var objektet på et annet sted hver frame, slik at du egentlig ikke kunne behandle det.

Men på Snapdragon 865, fordi vi har det tettere bevegelseskartet og vi har muligheten til å se på bevegelsesvektorene på nesten en piksel på pikselbasis er vi faktisk i stand til å behandle de lokalt flyttede pikslene bilde for bilde for støyreduksjon, mens vi tidligere ikke kunne det. Jeg tror jeg nevnte en beregning i foredraget. Jeg husker ikke nummeret (det var 40%) men det var en stor prosentandel av piksler i gjennomsnitt for de fleste videoer som nå kan behandles for støy, mens det i forrige generasjon ikke kunne være det. Og det er egentlig delvis for å ha evnen til å forstå lokal bevegelse og ikke bare global bevegelse.

Videoopptak - HDR

Idrees Patel: Et annet spørsmål jeg har er om HDR-video. I år ser jeg at mange flere enhetsprodusenter tilbyr HDR10-videoopptak. Så er det noe som ble promotert med Snapdragon 865, eller har det vært der siden noen generasjoner.

Judd Heape: Å ja, så mens vi snakket om det på Tech Summit, har vi hatt HDR10, som er videostandarden for HDR på kamerakodesiden i noen generasjoner nå, siden Snapdragon 845, tror jeg, og vi har stadig forbedret oss at.

Så i fjor snakket vi om HDR10+, som er 10-bits HDR-opptak, men i stedet for med statiske metadata har den dynamiske metadata, så metadataene som fanges opp av kameraet under scenen blir faktisk tatt opp i sanntid, slik at når du spiller den av, forstår avspillingsmotoren om det var et mørkt rom eller et lyst rom, og den kan kompensere for at.

Vi snakket også i fjor på Tech Summit om Dolby Vision-fangst, som er Dolbys alternativ til HDR10+. Det er veldig likt hvor de faktisk produserer dynamiske metadata også. Så Snapdragon i dag kan støtte alle tre av disse formatene: HDR10, HDR10+ og Dolby Vision-opptak. Og så det er egentlig ingen begrensning, våre OEM-er kan velge hvilken metode de foretrekker. Vi har hatt kunder som bruker HDR10 en stund nå, og vi har i fjor og i år fått flere og flere kunder HDR10+. Og jeg tror du i fremtiden vil se en viss adopsjon av Dolby Vision Capture også.

Så ja, vi har promotert det tungt. HDR er veldig viktig for oss, både på snapshot-siden og på videosiden. Og som jeg sa, vi har vært forpliktet til HDR10 og HDR10+ og nå Dolby Vision-formatene, du vet siden Snapdragon 845 og nå til og med nylig Snapdragon 865 for Dolby Vision.

Mishaal Rahman: Dessuten var jeg faktisk ikke sikker på om noen leverandører implementerte Dolby Vision-opptak ennå, men jeg antar at det svarer på det spørsmålet. [Det er] noe vi vil se i fremtiden.

Judd Heape: Selvfølgelig - jeg kan ikke kommentere hvilke leverandører som er interessert og sånn. Det ville vært et spørsmål for Dolby; det er deres funksjon, og hvis du vil ha mer informasjon om det, vil jeg foreslå å kontakte Dolby. Men til dags dato, så vidt jeg vet, har det ikke vært noe håndsett som ennå har kommet ut med Dolby Vision Capture.

Idrees Patel: Fordi du trenger skjermstøtte også. Jeg har lagt merke til at smarttelefonskjermer støtter HDR10 og HDR10+, men ikke Dolby Vision.

Judd Heape: Ja faktisk, men Dolby Vision-avspilling har vært støttet på Snapdragon tidligere. Den kan fungere med en gitt skjerm, og skjermen trenger ikke nødvendigvis å oppfylle noen spesifikke kriterier for å være Dolby Vision-kompatibel bortsett fra at Dolby vil gradere skjermen og sørge for at den har en viss fargeskala, gamma, en viss bitdybde, en viss lysstyrke og en viss kontrast forhold.

Så du vet, du kan kjøpe en HDR10-skjerm, men du kan også kjøpe et håndsett som støtter Dolby Vision avspilling, men Doby vil ha kvalifisert den skjermen for å sikre at den er i samsvar med deres strenge krav.

Samarbeid med programvareleverandører: Imint, Morpho og Arcsoft

Mishaal Rahman: Jeg antar at bare ett spørsmål for meg å følge opp, for å gjøre mer undersøkelser med, er et selskap som vi har snakket med nylig er Imint. De har nylig oppgradert sine Vidhance Stabilization programvare til arbeid med Spectra 480. Jeg vet at dere jobber med mange selskaper som også drar nytte av Spectra 480, behandlingen. Jeg lurer på om du kan avsløre flere eksempler på disse teknologiene som har - eller partnerne du har jobbet med, bare så det er] noe vi kan følge opp på, lære mer om hvordan Spectra 480 brukes i felt.

Judd Heape: Vi jobber med mange programvareleverandører. Som det vi nevnte tidligere, er Dolby en av dem. Det er andre som du nevnte, Imint/Vidhance for EIS (Electronic Image Stabilization). Vi har også nevnt Morpho og Arcsoft før, vi jobber veldig tett med dem også.

Når det gjelder hvordan vi jobber med dem, er vår policy at vi virkelig ønsker å jobbe tett med disse uavhengige programvareleverandørene og gjøre sikker på at uansett hva de gjør i programvare, at de er i stand til å utnytte maskinvaren i Snapdragon for å få det laveste strømforbruket mulig.

Så en av tingene vi gjør med disse leverandørene er at vi sørger for at de har veldig god tilgang til HVX-motoren, eller Hexagon DSP-kjernen. De bruker også EVA-motoren for å få bevegelsesvektorer og for å bruke maskinvaren og i EVA-motoren for bildemanipulering slik at de kan utføre bildebevegelse, oversettelse og de-warping og den slags ting i en maskinvare i stedet for å bruke GPUen til å gjøre at.

Og så jobber vi virkelig tett med disse ISV-ene, spesielt de jeg nevnte spesielt, for å sikre at de ikke bare legger alt og programvare i CPU, men de bruker ting som DSP og maskinvareakseleratorer i EVA for å få bedre ytelse og lavere effekt forbruk. Så det er veldig viktig for oss også fordi det gir kundene våre den best mulige blandingen av funksjoner og strømforbruk.

[Avsluttende kommentarer fra Judd]: Jeg ville bare si takk for alle de virkelig gode spørsmålene. De er virkelig, virkelig detaljerte. Jeg har vært i Qualcomm i omtrent tre år nå og ser på fortiden vår, til og med utover min ansettelsestid her hvor vi begynte på Spectra før Snapdragon 845, vi jobbet veldig hardt for å dramatisk forbedre Internett-leverandøren og kameraet, og bare den generelle opplevelsen de siste årene år. Jeg er veldig spent på hva fremtiden bringer. Og jeg er spent på hva vi vil kunngjøre på fremtidige Tech Summits som dere kan komme til å spørre og skrive om. [Spectra Camera], er sannsynligvis, etter min mening, en av de mest spennende teknologiene hos Qualcomm.

Siste tanker

Det var flott å ha en diskusjon med Judd om Qualcomms bidrag til smarttelefonfotografering. Vi kan ha blandede følelser om selskapet og deres patentlisensieringssystem, men Qualcomms preg på smarttelefonindustrien merkes av alle, enten du snakker om patenter, 4G og 5G, Wi-Fi, Adreno GPU-ene, Spectra ISP-ene og selve Snapdragon-brikkene, som i stor grad anses for å være gullstandarden i Android-smarttelefonen marked.

Det er fortsatt mange smertepunkter som må løses i smarttelefonfotografering, men fremtiden er det lys som Qualcomm lover at for å gjøre flere fremskritt i de enorme, voksende feltene i ML, som driver AI. La oss se hva Qualcomm har å kunngjøre i dette feltet på neste Snapdragon Tech Summit.

Hvordan Qualcomm forbedrer kameraene på Android-telefoner

Arbeidsbelastninger for AI-bildebehandling

Judd Heape: Ja, så vi ser på mange AI-arbeidsbelastninger, og det er noen AI som kan kjøre i selve ISP-en som for eksempel vår neste generasjon 3A: autoeksponering, automatisk hvitbalanse og autofokus er AI basert.

Men vi ser også på noen få andre AI-arbeidsbelastninger, som vil kjøre utenfor Internett-leverandøren, i et av de andre dataelementene. Så spesielt ser vi på ting som: vi har en AI-basert støyreduksjonskjerne som kjører eksternt fra ISP-en, i AI-motordelen (AIE) av brikken.

Multi-frame støyreduksjon

Så det er hvordan de håndterer lite lys, så vel som HDR. Forbedringer til multi-frame støyreduksjonsfunksjonen vil komme fra Qualcomm, som også vil inkludere lite lys og HDR. Men det er noe vi kommer til å rulle ut snart.

Så det er ikke noe som har rullet ut, men vi jobber med noen hovedkunder om disse funksjonene.

Super oppløsning for video

Quad Bayer-sensorer med høye megapiksler

Judd Heape: Ja, så selvfølgelig er fordelen med disse quad CFA (Quad Color Filter Array) sensorene muligheten til å kjøre i sterkt lys dem i full oppløsning, og så kan Internett-leverandøren behandle dem med hele 108 megapiksler eller 64 megapiksler eller hva som er tilgjengelig.

ML-basert ansiktsgjenkjenning

Judd Heape: Ansiktsgjenkjenning er noe vi brenner veldig for. Vi ønsker å forbedre disse nøyaktighetene, du vet generasjon over generasjon i alle nivåer hele veien fra 800 tier ned til 400 tier. ML er en stor del av det.

Forbedringer i bildebehandlingsmotoren

Judd Heape: Å, greit. Så jeg tror du blander to ting sammen. Ja, så det er LEANR-kjernen, som er kjernen som fungerer på støyreduksjon på grovere korn, noe som hjelper i dårlig lys. Det er en ny blokk som ble lagt til i Snapdragon 865 i ISP, og det er én ting.

Fotografering med lite lys og aggressiv støyreduksjon

Judd Heape: Ja.

Judd Heape: Nøyaktig. Ja, og som jeg sa, kamerainnstillingen gjøres virkelig av våre kunder eller OEM-er, og noen OEM-er foretrekker et mykere bilde med mindre støy. Noen foretrekker å avsløre flere detaljer med kanskje litt mer støy.

AV1-dekoding og -koding

Videoopptak - bevegelseskompensasjon

Så som du vet, har vi i generasjoner hatt bevegelseskompensert tidsfiltrering, som egentlig er den aktive støyreduksjonen under video, som gir gjennomsnitt av bilder over tid for å bli kvitt støy.

Videoopptak - HDR

Judd Heape: Å ja, så mens vi snakket om det på Tech Summit, har vi hatt HDR10, som er videostandarden for HDR på kamerakodesiden i noen generasjoner nå, siden Snapdragon 845, tror jeg, og vi har stadig forbedret oss at.

Så ja, vi har promotert det tungt. HDR er veldig viktig for oss, både på snapshot-siden og på videosiden. Og som jeg sa, vi har vært forpliktet til HDR10 og HDR10+ og nå Dolby Vision-formatene, du vet siden Snapdragon 845 og nå til og med nylig Snapdragon 865 for Dolby Vision.

Så du vet, du kan kjøpe en HDR10-skjerm, men du kan også kjøpe et håndsett som støtter Dolby Vision avspilling, men Doby vil ha kvalifisert den skjermen for å sikre at den er i samsvar med deres strenge krav.

Samarbeid med programvareleverandører: Imint, Morpho og Arcsoft

Judd Heape: Vi jobber med mange programvareleverandører. Som det vi nevnte tidligere, er Dolby en av dem. Det er andre som du nevnte, Imint/Vidhance for EIS (Electronic Image Stabilization). Vi har også nevnt Morpho og Arcsoft før, vi jobber veldig tett med dem også.

Siste tanker