Hur Qualcomm förbättrar kamerorna på Android-telefoner

Qualcomms Judd Heape förklarar hur Qualcomm förbättrar kameraupplevelserna på Android-telefoner med nya funktioner i sina Spectra ISP: er.

Som tillverkare av system-on-chips (SoCs) som driver mycket av världens smartphones och wearables, är USA-baserade Qualcomm utan tvekan en av jättarna inom chiptillverkningsindustrin. Snapdragon-serien av SoCs, till exempel, används av nästan alla stora Android-enhetstillverkare för flaggskepp, mellanklass och budgetsmarttelefoner. Qualcomm får beröm varje år vid företagets årliga Tech Summit för framsteg inom CPU-, GPU- och AI-områdena, eftersom det innehåller ARMs nya CPU-mikroarkitekturer och kompletterar dem med årliga förbättringar i sina anpassade GPU: er. Dess framsteg inom kameror märks dock inte lika mycket, eftersom de tenderar att gå under radar.

Detta betyder dock inte att Qualcomms arbete med smartphonekameror är oviktigt. Tvärtom, Qualcomms Spectra ISPs i sina Snapdragon SoCs hjälper till att göra mycket av moderna smartphonekameror möjliga med ökad beräkningskraft, funktioner som 8K-videoinspelning, HDR10-video, stöd för högmegapixel QCFA-kameror och mycket, mycket Mer. Qualcomm har främjat att Spectra 380 ISP i Snapdragon 855

var världens första CV-ISP, och det har marknadsfört världens första 4K HDR-videoinspelningsfunktioner, som nu har kompletterats med andra generationens 4K HDR10+ videoinspelning. Spectra 480 ISP i den senaste generationen Snapdragon 865 är mycket kapabel - den kan bearbeta två gigapixlar per sekund, en ökning med 40 % jämfört med föregångaren. Det är en immateriell egendom (IP) som skiljer Qualcomm från sina konkurrenter inom mobilchipsleverantörer.

Medan Qualcomm förklarar de flesta av rubrikerna i sina pressmeddelanden och produktnyckeltal, upp tills nu har konsumenterna inte fått en chans att känna till det mesta av lågnivådetaljerna som gör dessa saker arbete.

Det är därför vi på XDA Developers gärna accepterade ett erbjudande om att prata med Judd Heape, Senior Director, Product Management på Qualcomm. XDA: s chefredaktör, Mishaal Rahman, och jag hade en intervju med Judd i juni 2020 för att lära oss och se hur Qualcomm driver målstolparna med smartphonefotografering och videoinspelning. Vi pratade om ämnen inklusive AI-bildbehandling, multi-frame brusreducering (MFNR), AV1, Dolby Vision videoinspelning, pixel binning i högmegapixelkameror och mycket mer. Låt oss ta en titt på Judds insikter om varje ämne en efter en:

Arbetsbelastningar för AI-bildbehandling

Mishaal Rahman: Jag börjar med en av de som Idrees hade, som är en intressant sådan, och som jag också var intresserad av. Så vi undrar vilka arbetsbelastningar för AI-bildbehandling som Qualcomm använder i Spectra ISP och i vilken grad är de anpassningsbara av enhetstillverkare?

Judd Heape: Ja, så vi tittar på många AI-arbetsbelastningar och det finns en del AI som kan köras i själva ISP: n som till exempel vår nästa generation 3A: autoexponering, automatisk vitbalans och autofokus är AI baserad.

Men vi tittar också på några andra AI-arbetsbelastningar, som skulle köras utanför ISP: n, i ett av de andra datorelementen. Så vi tittar särskilt på saker som: vi har en AI-baserad brusreduceringskärna som körs externt från ISP: n, i AI-motordelen (AIE) av chipet.

Dessutom har vi saker som ansiktsdetektion, som är en full djupinlärningsmotor som också körs i AIE-komplexet, men som naturligtvis hjälper kameran. Och det finns andra saker vi jobbar med förutom ansiktsdetektering och nedtoning; vi tittar också på att göra saker som en automatisk justering av ögonblicksbilder med hjälp av AI som ställs in automatiskt parametrar per scen baserat på HDR-innehåll, skulle vi bearbeta för att modifiera skugga och högdagrar och färg och den typen av sak.

En av våra partners, Morpho, vann just ett enormt AI-arbetsbelastningspris vid Embedded Vision Summit i år. Oberoende mjukvaruleverantörspartner har också många riktigt intensiva AI-baserade algoritmer och de kan variera från allt som smidig kamera övergång, som vad Arcsoft gör, (jag nämnde det vid det senaste Snapdragon Tech Summit som är AI-baserat), till Morphos semantiska segmentering motor. Morphos lösning är en AI-motor som förstår olika delar av scenen, som vad vet du, tyg kontra hud kontra himmel och gräs och bygga och sånt och sedan kan Internetleverantören ta den informationen och bearbeta dessa pixlar på olika sätt för textur och brus och färg för exempel.

Qualcomms uttalande: För ML & AI tillkännager vi inte heller några nya uppdateringar för funktionerna för ansiktsdetektion och "3A" (AE, AF och AWB) idag heller. Men, som Judd sa, är vi fast beslutna, framöver, att föra mer ML/AI-kapacitet till kameran, inklusive dessa två funktionsområden.

Analys och sammanhang: AI i smartphones har i stort sett ansetts vara ett modeord ända sedan de första neurala bearbetningsenheterna (NPU) och "AI-baserade" funktioner började komma till Android-telefoner. Det betyder dock inte att AI i sig är meningslös. Tvärtom, AI har en hel del potential i mobilen, till den punkt där både chipleverantörer och enhetstillverkare bara skrapar på ytan så långt av vad som är möjligt.

Tack vare AI har smartphonekameror blivit bättre - ibland snabbt, ibland plågsamt långsamt, men de når dit. Smartphonekameror övervinner grundläggande begränsningar som relativt mindre sensorer, fast brännvidder och sämre optik med smart beräkningsfotografering som drivs av maskininlärning (ML). Autoexponering, brusreducering, ansiktsdetektering och segmentering är bara några av de områden där AI inom smartphonefotografering har kunnat påverka. Under de kommande fem åren kommer dessa begynnande områden av AI som förbättrar olika aspekter av fotografi att mogna mycket.

Flerbilds brusreducering

Idrees Patel: Qualcomm har nämnt multi-frame brusreducering som en funktion. Jag skulle vilja veta mer detaljer om det som hur bildstaplingen fungerar. Liknar det på något sätt att gilla vad Google gör med sin HDR+-teknik eller är det helt annorlunda?

Judd Heape: Det är likt men annorlunda. Föreställ dig att kameran gör en serie och tar fem till sju bilder i snabb följd. Sedan tar ISP-motorn en titt på dessa ramar och väljer den bästa (kallad "ankarramen") för fokus och klarhet och sedan kan den välja 3-4 bildrutor på vardera sidan av den bilden och sedan snitta dem alla tillsammans. Den försöker välja ramar som är tillräckligt nära varandra så att det blir väldigt lite rörelse.

Och när det sätter sig på dessa ramar, sätter det ett genomsnitt av dem tillsammans för att urskilja vad som är annorlunda, till exempel vad som är faktisk bilddata jämfört med vad som är brusdata. Så när du har mer och mer information, från fler och fler ramar, kan du faktiskt göra enkla saker som att titta på skillnaderna mellan ramarna. Skillnaderna är förmodligen brus, medan det som är lika i ramarna förmodligen är bilddata.

Så vi kan göra den realtidsramkombinationen för att minska brus. Nu kan du också göra samma sak med svagt ljus och HDR och det är ungefär som vad Google förmodligen gör. Vi är inte insatta i deras algoritm. Men de använder flerbildstekniker för att öka känsligheten så att du bättre kan "se"; när du har minskat brusgolvet kan du nu titta på att göra mer lokal tonmappning eller lägga till förstärkning till bilden utan att lägga till mer brus.

Så det är så de hanterar svagt ljus, liksom HDR. Förbättringar av brusreduceringsfunktionen för flera bildrutor kommer från Qualcomm, som även kommer att inkludera svagt ljus och HDR. Men det är något vi kommer att rulla ut inom kort.

Mishaal Rahman: Så du nämnde att den här funktionen snart skulle lanseras. Kommer det in som en uppdatering av BSP för partners?

Judd Heape: I våra nästa generations produkter, genom ett programtillägg, kommer vi att ha möjligheten att engagera oss - faktiskt händer det just nu på nästa generationsprodukter - vi samarbetar med kunder just nu för att göra fler flerbildstekniker utöver brusreducering, men också för att hantera HDR och svagt ljus situationer. Den använder samma bas ISP HW-motor, men vi lägger till mer programvara för att hantera dessa multi-frames för mer än bara brusreducering.

Så det är inte något som har rullat ut men vi samarbetar med några nyckelkunder om dessa funktioner.

Analys och sammanhang: Med varje nytt Snapdragon SoC-meddelande innehåller Qualcomms specifikationstabell specifikationer relaterade till brusreducering med flera bildrutor. Snapdragon 865, till exempel, med sina dubbla 14-bitars CV-ISP: er stöder upp till en hypotetisk 200 MP enkelkamera (även om kamerasensorleverantörer som Sony, Samsung och OmniVision ännu inte har släppt någon smartphonekamerasensor över 108MP). Men när det kommer till stöd för en kamera med MFNR, noll slutarfördröjning (ZSL) och 30 fps stöd, specifikationen ändras till 64MP, och för dubbla kameror med samma specifikationer ändras specifikationen till 25 MP.

Qualcomms multi-frame brusreducering är väldigt lik HDR+ men inte helt densamma, som förklarats av Judd ovan. Medan HDR+ tar en serie underexponerade exponeringar och tar ett genomsnitt av dem för att få det bästa fotot, tar MFNR fem-sju normala bildrutor. Det verkar inte som att Qualcomms MFNR är lika avancerad som Googles lösning eftersom HDR och svagt ljus inte nämns vara specifika prioriteringar i den nuvarande arbetsflöde för Spectra, medan Googles HDR+ riktar in sig på HDR, fotografering i svagt ljus och brusreducering på samma gång, med Night Sight som tar det ett snäpp till och med ytterligare. Det är dock uppmuntrande att veta att MFNR får förbättringar och Qualcomm kommer att rulla ut dessa förbättringar till "några nyckelkunder". I framtiden kanske vi inte kommer att behöva inofficiella Google Camera-portar för att uppnå den fulla potentialen hos icke-Google Android-smarttelefonkameror.

Superupplösning för video

Googles arbetsflöde för superupplösning

Mishaal Rahman: Så, något som jag hörde på Tech Summit. Det tror jag faktiskt att det var i en intervju med Android Authority. Är att Qualcomm planerar att utöka superupplösningen till video som en mjukvarulösning för partners och att detta tydligen skulle rullas ut i en uppdatering. Jag undrar om du har några uppdateringar att dela om den här funktionen.

Judd Heape: Ja, så det är en funktion som vi har haft möjlighet att göra ett tag, och den rullar just nu ut. Jag skulle inte säga att det är i en mjukvaruuppdatering, men jag skulle säga att det är lite som en extra fördel med den befintliga multi-frame-funktionen för svagt ljus. Vi kontaktar några specifika lead-kunder om den funktionen. Så ja, video superupplösning är något i en annan generation eller så kommer vi att ha det som vad vi anropa en inspelningsplansfunktion där den faktiskt är inbyggd i programvarans kodbas för [den] kamera. Men just nu handlar det mer om specifika kundengagemang för den nya funktionen.

Analys och sammanhang: Superupplösning för video är en funktion som hittills inte har visats i smartphonekameror. Det är ett så nytt område forskningsrapporter skrivs fortfarande om det. Att använda flerbildstekniker för fotografering är en sak, men att använda dem för video för att uppskala videon till en högre upplösning är en helt annan sak. Qualcomm säger att det rullar ut funktionen till "några nyckelkunder" igen, men just nu är den inte inbyggd i programvarans kodbas för kameran. I framtiden kan det vara tillgängligt för alla, men för närvarande är det en funktion som slutkonsumenter inte ens har fått använda än.

Quad Bayer-sensorer med hög megapixel

Via: AnandTech

Idrees Patel: Låt oss prata om Quad Bayer-sensorer. Sedan 2019 har många telefoner nu 48MP, 64MP och nu även 108MP sensorer. Dessa är Quad Bayer-sensorer; du har faktiskt inte äkta färgupplösning på 48 eller 64 eller 108MP. En sak jag ville fråga var hur skiljer sig internetleverantören när det gäller bildbehandling för dessa Quad Bayer eller Nona Bayer-sensorer (4-i-1 eller 9-i-1 pixel binning), jämfört med traditionella sensorer, som inte har någon pixel binning.

Judd Heape: Ja, så naturligtvis är fördelen med dessa quad CFA (Quad Color Filter Array) sensorer möjligheten att köra i starkt ljus dem i full upplösning, och sedan kan ISP bearbeta dem med hela 108 megapixlar eller 64 megapixlar eller vad det nu är tillgängliga.

Men vanligtvis i de flesta ljussituationer, som inomhus eller mörker, måste du soptunna eftersom sensorpixlarna är så små att du måste kombinera pixlar för att få bättre ljuskänslighet. Så jag skulle säga att majoriteten av tiden, speciellt om du spelar in video eller om du är i svagt ljus för ögonblicksbilder, kör du i arkivläge.

Nu kan ISP bearbeta sensorn på båda håll. Du kan titta på sensorn i arkiverat läge i vilket fall det bara är en vanlig Bayer-bild som kommer in, eller så kan den titta på den i fullupplöst läge där inkommande data är quad CFA. Och om det är i det läget konverterar ISP den till Bayer.

Så vi håller på med - vad vi kallar - "remosaikering". Det här gör en viss interpolation av quad CFA-bilden för att få den att se ut som Bayer i full upplösning igen. Och det görs vanligtvis i mjukvara för ögonblicksbild, även om vi så småningom kommer att lägga till denna förmåga i hårdvaran för att stödja video också.

Det som finns i ISP-hårdvaran idag är binning. Så du kan lagra sensorn och du kan faktiskt låta sensorn bestämma om den ska mata ut full eller kvarts eller 1/9:e upplösning eller så kan du placera den i ISP: n. Och det är en funktion som vi lagt till i Snapdragon 865, faktiskt. Så om du bäddar in ISP: n och sedan kör sensorn i full upplösning som ger är ISP: n att ha möjlighet att ha både fullupplösta bilden och den arkiverade bilden samtidigt. Därför kan den använda den mindre upplösningen eller den "binned" bilden för video (videokamera) och förhandsgranskning (sökare) och samtidigt använda fullupplösningsbilden för ögonblicksbild i full storlek.

Men återigen, det skulle vara i fallet med starka ljusförhållanden. Men åtminstone om du hamnar i ISP: n har du förmågan att hantera både den stora och lilla bilden på samtidigt, och därför kan du få samtidig video och ögonblicksbild, du kan också få full upplösning ZSL; allt utan att behöva växla sensorn fram och tillbaka, vilket tar avsevärd tid.

Detta är en riktigt bra funktion. Och som Quad CFA-sensorer och till och med du vet, kommer 9x-sensorerna och kanske ännu fler ut, och när dessa sensorer blir fler allestädes närvarande - vi letar mer och mer efter att hantera dessa sensorer i hårdvaran, inte bara för binning utan också för remosaicering.

Och så fördelen med det är att om du gör det i hårdvaran kontra att göra det i mjukvara så minskar du latens för dina kunder och därför kommer dina skott-till-skott-tider och dina burst-hastigheter att vara mycket snabbare. Så när vi marscherar framåt med nya internetleverantörer och nya chips kommer du att börja se mycket mer av vad vi gör för dessa nya typer av sensorer som sätts in i hårdvaran.

Analys och sammanhang: Huawei var först med att använda en 40MP Quad Bayer-sensor med Huawei P20 Pro 2018, och populariteten för Quad Bayer-sensorer var så hög att den nu har tagit sig till och med $150-telefoner som drivs av Snapdragon/Exynos/MediaTek-chips. I synnerhet har vi sett smarttelefonindustrin komma till 48MP och 64MP kameror som sweet spot, medan ett fåtal telefoner går så högt som 108MP. Quad Bayer och Nona Bayer sensorer kommer inte utan negativ, eftersom deras fulla upplösning kommer med varningar.

Men av marknadsföringsskäl låter en 48MP-sensor mycket bättre än en 12MP-sensor, även om användaren tar bilder med 12MP-pixlar för det mesta ändå. En 48 MP-sensor borde teoretiskt sett resultera i bättre 12 MP-pixlar inbäddade bilder i svagt ljus än en traditionell 12 MP sensor, men bildbehandlingen måste hänga med, och som jag nämner nedan, det är en lång väg att gå för att hända. Oavsett vilket var det intressant att se hur Spectra ISP hanterar Quad Bayer-sensorer med remosaicing. Det finns mycket potential i dessa sensorer, och telefoner som OnePlus 8 Pro (som använder en Sony IMX689 Quad Bayer-sensor med stora pixlar) befinner sig för närvarande på toppen av smartphonekameror.

ML-baserad ansiktsigenkänning

Mishaal Rahman: Så jag tror att du tidigare nämnde att ML-baserad ansiktsigenkänning stöds i Spectra 480. Det är något som jag faktiskt hörde på Tech Summit. [Att detta är] en av förbättringarna från 380 till 480; att det är en del av - det finns ett nytt objektivt detektionsblock i videoanalysmotorn som används för rumslig igenkänning framöver.

Kan du prata mer om hur mycket detta förbättrar ansiktsigenkänningen och vilka potentiella applikationer ser du att det används av leverantörer?

Judd Heape: Ja faktiskt, så du har rätt i det inbäddade datorseendeblocket, som är "EVA"-blocket, som vi pratade om på Tech Summit. Det har en allmän objektdetekteringskärna som vi använder när kameran är igång, vi använder den för att upptäcka ansikten. Teknikerna i det blocket är mer traditionella tekniker, så objektigenkänningen görs med traditionella klassificerare, men utöver det har vi en mjukvarumotor igång för att faktiskt förbättra noggrannheten i det blockera.

Så vi använder ML-baserad programvara för att filtrera bort de falska positiva, eftersom hårdvaran kan upptäcka fler saker som ansikten i scenen, och sedan är ML-mjukvaran säger "okej det är ett ansikte", eller "det är verkligen inte ett ansikte" och så ökar det noggrannheten med några procentenheter genom att köra det ML-filtret ovanpå hårdvara.

Jag nämnde många saker om framtiden. Framöver i framtiden, vad vi planerar att också göra är att köra själva hela ansiktsdetektionen i ML eller i djupinlärningsläge i mjukvara. Speciellt kommer det att vara sant på de lägre nivåerna, så till exempel i en nivå där vi inte har EVA-hårdvarumotorn, kommer vi att börja fasa in djupinlärning som detektion, som körs i AI-motorn på chippet och sedan senare, i de övre nivåerna i 700-800-nivåerna, har vi EVA-hårdvaran för att göra detta...

Jag kommer dock säga generellt att vi kommer att gå mer mot ML-metoder för att göra ansiktsdetektion och det skulle inkludera både mjukvara på medellång sikt och hårdvara på senare sikt. Jag tänker inte avslöja vilka produkter som kommer att ha det, men när vi går framåt för att förbättra ISP: n kommer vi naturligtvis att lägga till mer och mer hårdvarukapacitet för att göra ML, helt klart.

Mishaal Rahman: Grymt bra. Tja, jag tror att det är givet att riktningen du går är att föra 800-seriens maskininlärningsförbättringar ner till den lägre nivån, så jag tror att det generellt sett är givet. Men du kan naturligtvis inte ge oss några detaljer om det. Tack för uppdateringen.

Judd Heape: Ansiktsavkänning är något som vi brinner väldigt mycket för. Vi vill förbättra dessa noggrannheter, du vet generation över generation i alla nivåer hela vägen från 800 tier ner till 400 tier. ML är en stor del av det.

Analys och sammanhang: Dessa aspekter är det som ger smartphonefotografering så mycket mer potential än även de senaste spegellösa kamerorna. Ja, de spegellösa kamerorna har bättre bildkvalitet i svagt ljus och är mycket mer flexibla, men smartphonekameror övervinner sina begränsningar på geniala sätt. ML-baserad ansiktsdetektion är bara en del av det.

Förbättringar i bildbehandlingsmotorn

Mishaal Rahman: Grymt bra. Så en av sakerna som jag kort hörde under rundabordsdiskussionerna efter Snapdragon Tech Summit var en förbättring av bildbehandlingsmotorn. Jag hörde att det har förbättrats låg mellanfrekvens brusreducering eller LEANR. Och att du använder en dynamisk omvänd förstärkningskarta; är det något du nämnde tidigare i samtalet.

Judd Heape: Åh okej. Så jag tror att du blandar ihop två saker. Ja, så det finns LEANR-kärnan, som är kärnan som fungerar på brusreducering på grovare korn, vilket hjälper till i svagt ljus. Det är ett nytt block som lades till i Snapdragon 865 i ISP, och det är en sak.

Den omvända förstärkningskartan är något annat. Det är något annat jag nämnde vid de runda borden, men det är att vända effekterna av linsskuggning. Så som du vet, om du har en telefon och den har en liten lins; linsens mitt kommer att vara ljust och kanterna kommer att bli mer vinjeterade; vilket betyder att de kommer att bli mörkare.

Och så under tidigare år inom ISP, vad vi har haft är att vi har använt en statisk omvänd förstärkningskarta för att bli av med de mörka kanterna. Och så det har funnits i ISP ganska länge. Vad vi dock lagt till i Snapdragon 865 är möjligheten för den förstärkningskartan att ändras dynamiskt med tanke på den specifika bildramen, för om du använder mycket förstärkningar på kanterna vad som händer är att kanterna kan bli klippta, speciellt om du tittar på scener med starkt ljus utanför, som blå himmel kan bli vit eller så kommer kanterna att klippas av på grund av mycket få.

Så i Snapdragon 865 är den omvända förstärkningskartan inte statisk; det är dynamiskt. Så vi tittar på bilden och säger, "okej de här delarna av bilden klipps och de borde inte vara det" så att vi kan rulla av förstärkningskartan naturligt så att du inte får ljusa fransar eller haloeffekter eller sånt av att korrigera linsen skuggning. Så det skiljer sig från brusreducering, och de är två olika kärnor.

Fotografering i svagt ljus och aggressiv brusreducering

Sony Xperia 1 II, ett Snapdragon 865-drivet flaggskepp

DxOMark jämför brusreducering i efterföljande generationer av iPhones

Idrees Patel: Så en sak jag ville fråga om var fotografering i svagt ljus. Precis som under de senaste åren har det funnits många [OEM-implementerade] nattlägen, men en sak jag har lagt märke till är att många enhetstillverkare går efter aggressiv brusreducering, vilket minskar detaljer till den punkt där jämnt luminansbrus är tog bort.

Så min fråga är att Qualcomm råder alla enhetstillverkare att inte göra det och är det något som deras processpipelines gör, eller är det något som påverkas av ISP: n i SoC.

Judd Heape: Mycket av det har att göra med tuning, och om du inte har multi-frame, eller jag skulle säga att en mycket bra bildsensor inte finns tillgänglig, med hög känslighet eller optik med låga f-tal. Ett sätt att bli av med brus i framför allt svagt ljus är att tillämpa mer brusreducering, men det som händer när du tillämpar mer brusreducering är att du tappar detaljer, så skarpa kanter blir suddiga. Nu kan du bli av med det om du använder dessa multi-frame-tekniker. Eller om du tillämpar AI-tekniker, som liksom kan ta reda på var kanterna på objekt och ansikten finns, och sånt. Så att tillämpa enbart brute force brusreducering i denna dag och ålder är inte riktigt sättet att hantera det eftersom du slutar tappa detaljer.

Vad du vill göra är att göra multi-frame-tekniker eller AI-tekniker så att du fortfarande kan applicera brus minskning till mer liknande inre områden av föremål samtidigt som du behåller snygga rena kanter eller behåller skarpa kanter på föremål. Så det är vad jag skulle säga: att använda antingen AI eller multi-frame är sättet att göra brusreduceringen och förbättra bilder i svagt ljus framöver.

Idrees Patel: Ja, och det var precis vad jag ville höra. [Det är] för att det är det viktigaste som skiljer fantastiska smartphonekameror från kameror på mellannivå eller budgetnivå.

Judd Heape: Ja.

Idrees Patel: Fantastiska smartphonekameror vet när de ska tillämpa brusreducering och när inte.

Judd Heape: Exakt. Ja, och som jag sa, kamerajusteringen görs verkligen av våra kunder eller OEM-tillverkare, och vissa OEM-tillverkare föredrar en mjukare bild med mindre brus. Vissa föredrar att avslöja mer detaljer med kanske lite mer brus.

Och så det är en avvägning och så har du begränsningar. Och det är som jag sa det bästa man kan göra, är att få en bättre bildsensor med högre känslighet, större pixlar eller lägre f-nummer optik, för då får du in mer ljus från början, detta är alltid bättre. Men om du inte kan göra det, istället för att bara höja brusreduceringen och tappa detaljer, är det du vill göra att använda flerbilds- eller AI-tekniker.

Analys och sammanhang: Detta, enligt min mening, är för närvarande det största problemet med smartphonekameror. Ja, du kan använda en 48MP eller 64MP eller till och med en 108MP-sensor. Men om du inte väljer att använda begränsad brusreducering med MFNR- eller AI-tekniker är alla dessa megapixlar, 4-i-1-binning och till och med 9-i-1-binning inte till stor nytta. Galaxy S20 Ultra är det främsta exemplet här, som dess 108 MP primärkamera ansågs till stor del vara en besvikelse. Samsung gick baklänges i bildbehandling genom att använda extremt aggressiv brusreducering i sina nattlägen i sina flaggskepp 2020, medan 2019 Galaxy S10-serien ironiskt nog hade bättre bildkvalitet.

Judd avslöjar att vissa OEM-tillverkare faktiskt föredrar en mjukare bild med mindre brus, vilket i grunden är fel val att göra. Tuning görs av enhetstillverkare och därför kan två telefoner som använder samma sensor och drivs av samma SoC mata ut väldigt, väldigt olika foton. Man får hoppas att dessa enhetstillverkare lär sig sanningen från sina konkurrenter som presterar bättre. Medan Samsung tappade vägen i bildbehandling i år har OnePlus varit en skarp kontrast. OnePlus 8 Pro är en av de bästa smartphonekamerorna på marknaden, vilket är en anmärkningsvärd prestation med tanke på den mycket dåliga effekten av OnePlus 5T: s kamera under 2017. Bildbearbetningstänket måste ändras för att bilderna ska bli skarpa, oavsett hur mycket megapixelkrigen rasar på.

AV1-avkodning och kodning

Mishaal Rahman: Så det här är lite skilt från de andra diskussionerna vi har om kamerakvalitet. En av de saker som en del personer i media-codec-gemenskapen med öppen källkod har undrat är när Qualcomm kommer att stödja AV1-avkodning och eventuellt kodning. Jag vet att en är lite av en sträcka men Google kräver 4K HDR och 8K TV-apparater på Android 10 för att stödja AV1-avkodning och Netflix, Youtube, startar de lanseringen av videor kodade i AV1. Så det ser ut som en långsam ökning av AV1-kodade videor. Så vi undrar när åtminstone avkodningsstödet kommer att finnas tillgängligt i Spectra.

Qualcomms uttalande: Enligt din fråga om AV1 - vi har inget att meddela idag. Men Snapdragon kan för närvarande AV1-uppspelning via mjukvara. Qualcomm arbetar alltid med partners på nästa generations codec via mjukvara och hårdvara Snapdragon är ledande inom HDR-codecs inklusive infångning och uppspelning i HEIF, HLG, HDR10, HDR10+ och Dolby Syn. Naturligtvis inser vi för att ge våra kunder de bästa CODEC-upplevelserna, inklusive stöd för hög upplösning och lägsta effekt, att implementering av dessa i HW är önskvärd.

Videoinspelning - rörelsekompensation

Mishaal Rahman: Så jag vet inte om Idrees har några fler frågor men jag hade en fråga om något som jag läste tillbaka på Snapdragon Tech Summit. Det handlar om den rörelsekompenserade videokärnan. Jag hörde att det finns liknande förbättringar i rörelsekompensationsmotorn för att minska bruset vid videoinspelning. Jag undrar om du kan utveckla exakt vad det har förbättrats och vad som har gjorts.

Judd Heape: EVA-motorn (Engine for Video Analytics) har förbättrats med en mer tät rörelsekartas kärna så att EVA motorn, du vet, tittar till exempel alltid på den inkommande videon och den har en kärna där inne som gör rörelse uppskattning. Vad vi har gjort är att vi har gjort den här kärnan mycket mer exakt där den gör det på nästan en per pixelnivå snarare än som en mer grov blocknivå och så vi får ut mycket fler rörelsevektorer ur EVA-motorn i Snapdragon 865 än vi gjorde tidigare generationer. Och vad det betyder är att videokärnan som gör kodning kan använda dessa rörelsevektorer för att vara mer korrekt om kodningen, men Internetleverantören på kamerasidan använder också den informationen för brus minskning.

Så som ni vet har vi i generationer haft rörelsekompenserad temporal filtrering, vilket egentligen är den aktiva brusreduceringen under video, som ger ett genomsnitt av bildrutor över tid för att bli av med brus.

Problemet med den tekniken är dock om du har rörelse i scenen. Rörelse slutar med att bara bli avvisad från brusreducering för att den inte kan hanteras eller så blir den utsmetad, och du får dessa fula spår och artefakter på saker som rör sig. Så, i rörelsekompenserad temporal filtrering, vad vi har gjort tidigare sedan vi inte hade denna täta rörelsekarta för lokal rörelse, vi har - helt enkelt bara hanterat fall när du flyttar kameran, det är ganska enkelt eftersom allt rör sig globalt.

Men om du fotograferar något och du har ett föremål som rör sig INOM scenen, vad vi gjorde innan [var det] vi ignorerade bara dessa pixlar eftersom vi inte kunde bearbeta dem för brus, eftersom det rörde sig lokalt objekt. Och därför, om du beräknade ett genomsnitt bildruta för bildruta, var objektet på en annan plats för varje bildruta så att du inte riktigt kunde bearbeta det.

Men på Snapdragon 865, eftersom vi har den tätare rörelsekartan och vi har förmågan att titta på rörelsevektorerna på nästan en pixel per pixelbasis kan vi faktiskt bearbeta dessa lokalt flyttade pixlar bild för bildruta för brusreducering, medan vi tidigare inte kunde. Jag tror att jag nämnde ett mått i föredraget. Jag minns inte numret (det var 40%) men det var en stor andel pixlar i genomsnitt för de flesta videor som nu kan bearbetas för brus, medan de inte kunde vara det i föregående generation. Och det är verkligen delvis för att ha förmågan att förstå lokal rörelse och inte bara global rörelse.

Videoinspelning - HDR

Idrees Patel: En annan fråga jag har är om HDR-video. I år ser jag att många fler enhetstillverkare erbjuder HDR10-videoinspelning. Så är det något som marknadsfördes med Snapdragon 865, eller har det funnits där sedan några generationer.

Judd Heape: Åh ja, så när vi pratade om det på Tech Summit, har vi haft HDR10, som är videostandarden för HDR på kamerakodningssidan i några generationer nu, sedan Snapdragon 845, tror jag, och vi har ständigt förbättrats den där.

Så förra året pratade vi om HDR10+, som är 10-bitars HDR-inspelning, men istället för med statisk metadata har den dynamisk metadata, så metadata som fångas av kameran under scenen spelas faktiskt in i realtid, så att när du spelar upp den förstår uppspelningsmotorn om det var ett mörkt rum eller ett ljust rum, och den kan kompensera för den där.

Vi pratade även förra året på Tech Summit om Dolby Vision capture, som är Dolbys alternativ till HDR10+. Det är väldigt likt där de faktiskt producerar den dynamiska metadatan också. Så Snapdragon kan idag stödja alla tre av dessa format: HDR10, HDR10+ och Dolby Vision capture. Och så det finns egentligen inga begränsningar, våra OEM-tillverkare kan välja vilken metod de föredrar. Vi har haft kunder som använder HDR10 ett tag nu, och förra året och i år har fler och fler kunder hämtat HDR10+. Och jag tror att du i framtiden kommer att se en del adoption av Dolby Vision Capture också.

Så ja, vi har marknadsfört det kraftigt. HDR är verkligen viktigt för oss, både på ögonblicksbildsidan och på videosidan. Och som jag sa, vi har engagerat oss i HDR10 och HDR10+ och nu Dolby Vision-format, du vet sedan Snapdragon 845 och nu till och med nyligen Snapdragon 865 för Dolby Vision.

Mishaal Rahman: Dessutom var jag faktiskt inte säker på om några leverantörer implementerade Dolby Vision-inspelning än, men jag antar att det svarar på den frågan. [Det är] något vi kommer att se i framtiden.

Judd Heape: Självklart – jag kan inte kommentera vilka leverantörer som är intresserade och sånt. Det skulle vara en fråga för Dolby; det är deras funktion och så om du vill ha mer information om det skulle jag föreslå att du kontaktar Dolby. Men hittills, så vitt jag vet, har det inte funnits någon telefon som ännu har kommit ut med Dolby Vision Capture.

Idrees Patel: Eftersom du behöver skärmstöd också. Jag har märkt att smartphoneskärmar stöder HDR10 och HDR10+ men inte Dolby Vision.

Judd Heape: Ja faktiskt, men Dolby Vision-uppspelning har tidigare stötts på Snapdragon. Den kan fungera med en given skärm och skärmen behöver inte nödvändigtvis uppfylla några specifika kriterier för att vara Dolby Vision-kompatibel förutom att Dolby kommer att gradera skärmen och se till att den har ett visst färgomfång, gamma, ett visst bitdjup, en viss ljusstyrka och en viss kontrast förhållande.

Så du vet, du kan köpa en HDR10-skärm, men du kan också köpa en telefon som stöder Dolby Vision uppspelning, men Doby kommer att ha kvalificerat den displayen för att se till att den är kompatibel med deras strikta krav.

Samarbete med mjukvaruleverantörer: Imint, Morpho och Arcsoft

Mishaal Rahman: Jag antar att bara en fråga för mig att följa upp, att göra mer forskning med är ett företag som vi har pratat med nyligen är Imint. De har nyligen uppgraderat sina Vidhance Stabilization programvara till arbeta med Spectra 480. Jag vet att ni jobbar med många företag som också drar nytta av Spectra 480, bearbetningen. Jag undrar om du kan avslöja fler exempel på dessa tekniker som har - eller de partners som du har arbetat med, bara så att det är] något vi skulle kunna följa upp, lära oss mer om hur Spectra 480 används i fält.

Judd Heape: Vi arbetar med många programvaruleverantörer. Liksom det vi nämnde tidigare är Dolby en av dem. Det finns andra som du nämnde, Imint/Vidhance for EIS (Electronic Image Stabilization). Vi har också nämnt Morpho och Arcsoft tidigare, vi jobbar väldigt nära med dem också.

Men när det gäller hur vi arbetar med dem, är vår policy att vi verkligen vill arbeta väldigt nära med dessa oberoende programvaruleverantörer och göra säker på att vad de än gör i mjukvara, att de kan utnyttja hårdvaran i Snapdragon för att få lägsta strömförbrukning möjlig.

Så en av sakerna vi gör med dessa leverantörer är att vi ser till att de har riktigt bra tillgång till HVX-motorn eller Hexagon DSP-kärnan. De använder också EVA-motorn för att få rörelsevektorer och för att använda hårdvaran och i EVA-motorn för bildmanipulation så att de kan utföra bildrörelser, översättning och de-warping och sånt i en hårdvara istället för att använda grafikprocessorn för att göra den där.

Och så, vi arbetar verkligen nära med dessa ISV, särskilt de jag nämnde särskilt, för att se till att de inte bara lägger allt och mjukvara i CPU: n men de använder saker som DSP och hårdvaruacceleratorer i EVA för att få bättre prestanda och lägre effekt konsumtion. Så det är verkligen viktigt för oss också eftersom det ger våra kunder den bästa möjliga blandningen av funktioner och strömförbrukning.

[Slutkommentarer från Judd]: Jag ville bara säga tack för alla riktigt bra frågor. De är riktigt, riktigt detaljerade. Jag har varit på Qualcomm i ungefär tre år nu och tittar på vårt förflutna, även bortom min anställning här där vi började på Spectra tidigare Snapdragon 845, vi arbetade verkligen hårt för att dramatiskt förbättra internetleverantören och kameran, och bara den övergripande upplevelsen under de senaste år. Jag är verkligen spänd på vad framtiden för med sig. Och jag är spänd på vad vi kommer att meddela på framtida Tech Summits som ni kan få fråga och skriva om. [Spectra Camera], är förmodligen, enligt min mening, en av de mest spännande teknikerna på Qualcomm.

Slutgiltiga tankar

Det var fantastiskt att ha en diskussion med Judd om Qualcomms bidrag till smartphonefotografering. Vi kan ha blandade känslor om företaget och deras patentlicenssystem, men Qualcomms prägel på smartphoneindustrin känns av alla, oavsett om du pratar om patent, 4G och 5G, Wi-Fi, Adreno GPU: erna, Spectra ISP: erna och själva Snapdragon chipsen, som till stor del anses vara guldstandarden i Android-smarttelefonen marknadsföra.

Det finns fortfarande många smärtpunkter som måste lösas inom smartphonefotografering, men framtiden är det ljust som Qualcomm lovar att göra fler framsteg inom de stora, växande områdena inom ML, vilket driver AI. Låt oss se vad Qualcomm har att tillkännage på detta område vid nästa Snapdragon Tech Summit.

Hur Qualcomm förbättrar kamerorna på Android-telefoner

Arbetsbelastningar för AI-bildbehandling

Judd Heape: Ja, så vi tittar på många AI-arbetsbelastningar och det finns en del AI som kan köras i själva ISP: n som till exempel vår nästa generation 3A: autoexponering, automatisk vitbalans och autofokus är AI baserad.

Men vi tittar också på några andra AI-arbetsbelastningar, som skulle köras utanför ISP: n, i ett av de andra datorelementen. Så vi tittar särskilt på saker som: vi har en AI-baserad brusreduceringskärna som körs externt från ISP: n, i AI-motordelen (AIE) av chipet.

Flerbilds brusreducering

Så det är så de hanterar svagt ljus, liksom HDR. Förbättringar av brusreduceringsfunktionen för flera bildrutor kommer från Qualcomm, som även kommer att inkludera svagt ljus och HDR. Men det är något vi kommer att rulla ut inom kort.

Så det är inte något som har rullat ut men vi samarbetar med några nyckelkunder om dessa funktioner.

Superupplösning för video

Quad Bayer-sensorer med hög megapixel

Judd Heape: Ja, så naturligtvis är fördelen med dessa quad CFA (Quad Color Filter Array) sensorer möjligheten att köra i starkt ljus dem i full upplösning, och sedan kan ISP bearbeta dem med hela 108 megapixlar eller 64 megapixlar eller vad det nu är tillgängliga.

Nu kan ISP bearbeta sensorn på båda håll. Du kan titta på sensorn i arkiverat läge i vilket fall det bara är en vanlig Bayer-bild som kommer in, eller så kan den titta på den i fullupplöst läge där inkommande data är quad CFA. Och om det är i det läget konverterar ISP den till Bayer.

ML-baserad ansiktsigenkänning

Judd Heape: Ansiktsavkänning är något som vi brinner väldigt mycket för. Vi vill förbättra dessa noggrannheter, du vet generation över generation i alla nivåer hela vägen från 800 tier ner till 400 tier. ML är en stor del av det.

Förbättringar i bildbehandlingsmotorn

Judd Heape: Åh okej. Så jag tror att du blandar ihop två saker. Ja, så det finns LEANR-kärnan, som är kärnan som fungerar på brusreducering på grovare korn, vilket hjälper till i svagt ljus. Det är ett nytt block som lades till i Snapdragon 865 i ISP, och det är en sak.

Fotografering i svagt ljus och aggressiv brusreducering

Judd Heape: Ja.

Judd Heape: Exakt. Ja, och som jag sa, kamerajusteringen görs verkligen av våra kunder eller OEM-tillverkare, och vissa OEM-tillverkare föredrar en mjukare bild med mindre brus. Vissa föredrar att avslöja mer detaljer med kanske lite mer brus.

AV1-avkodning och kodning

Videoinspelning - rörelsekompensation

Så som ni vet har vi i generationer haft rörelsekompenserad temporal filtrering, vilket egentligen är den aktiva brusreduceringen under video, som ger ett genomsnitt av bildrutor över tid för att bli av med brus.

Videoinspelning - HDR

Judd Heape: Åh ja, så när vi pratade om det på Tech Summit, har vi haft HDR10, som är videostandarden för HDR på kamerakodningssidan i några generationer nu, sedan Snapdragon 845, tror jag, och vi har ständigt förbättrats den där.

Så du vet, du kan köpa en HDR10-skärm, men du kan också köpa en telefon som stöder Dolby Vision uppspelning, men Doby kommer att ha kvalificerat den displayen för att se till att den är kompatibel med deras strikta krav.

Samarbete med mjukvaruleverantörer: Imint, Morpho och Arcsoft

Judd Heape: Vi arbetar med många programvaruleverantörer. Liksom det vi nämnde tidigare är Dolby en av dem. Det finns andra som du nämnde, Imint/Vidhance for EIS (Electronic Image Stabilization). Vi har också nämnt Morpho och Arcsoft tidigare, vi jobbar väldigt nära med dem också.

Men när det gäller hur vi arbetar med dem, är vår policy att vi verkligen vill arbeta väldigt nära med dessa oberoende programvaruleverantörer och göra säker på att vad de än gör i mjukvara, att de kan utnyttja hårdvaran i Snapdragon för att få lägsta strömförbrukning möjlig.

Slutgiltiga tankar