Google beskriver teknologien bag Pixels Portrait Light-funktion

I et nyligt blogindlæg har Google beskrevet teknologien bag den nye Portrait Light-funktion, der debuterede med Pixel 5 og Pixel 4a 5G.

Efter adskillige læk og rygter afslørede Google endelig Pixel 5 og Pixel 4a 5G tidligere på året i september. Som forventet kom enhederne med et væld af nye Google Kamera-funktioner der adskiller dem fra andre Android-telefoner på markedet. Disse inkluderer filmisk panorering til rystefri panorering på videoer, låst og aktiv stabiliseringstilstande, nat Synsstøtte i portrættilstand og en portrætlysfunktion til at justere lysportrætbillederne automatisk. Et par uger efter lanceringen frigav Google de fleste af disse funktioner til ældre Pixel-enheder via en Google Fotos-opdatering. Og nu har virksomheden delt nogle detaljer om teknologien bag Portrait Light-funktionen.

Som i en nylig blogindlæg fra firmaet, var Portrætlys-funktionen inspireret af de lys uden for kameraet, der blev brugt af portrætfotografer. Det forbedrer portrætbilleder ved at modellere en lyskilde, der kan flyttes, og som kan føjes til scenen. Når den tilføjes automatisk, justerer den kunstige lyskilde automatisk retningen og intensiteten for at komplementere billedets eksisterende belysning ved hjælp af maskinlæring.

Som Google forklarer, gør funktionen brug af nye maskinlæringsmodeller, der blev trænet ved hjælp af et mangfoldigt datasæt af fotografier taget i Lys Scene computerbelysningssystem. Disse modeller muliggør to algoritmiske muligheder:

Automatisk retningsbestemt lysplacering: Baseret på maskinlæringsalgoritmen placerer funktionen automatisk en kunstig lyskilde, der stemmer overens med, hvordan en professionel fotograf ville have placeret en lyskilde uden for kameraet i virkeligheden verden.
Syntetisk post-capture relighting: Baseret på retningen og intensiteten af det eksisterende lys i en portrætbillede tilføjer maskinlæringsalgoritmen et syntetisk lys, der ser realistisk ud og naturlig.

Til den automatiske retningsbestemte lysplacering trænede Google en maskinlæringsmodel til at estimere en højt dynamisk område, rundstrålende belysningsprofil for en scene baseret på et inputportræt. Denne nye lysvurderingsmodel kan finde retningen, den relative intensitet og farven af alle lyskilder i scenen, der kommer fra alle retninger, idet ansigtet betragtes som en lyssonde. Den estimerer også emnets hovedpost ved hjælp af en MediaPipe Face Mesh. Baseret på de førnævnte data bestemmer algoritmen så retningen for det syntetiske lys.

Når den syntetiske belysnings retning og intensitet er etableret, tilføjer den næste maskinlæringsmodel den syntetiske lyskilde til det originale foto. Den anden model blev trænet ved hjælp af millioner af par portrætter, både med og uden ekstra lys. Dette datasæt blev genereret ved at fotografere halvfjerds forskellige mennesker ved hjælp af Light Stage-belysningssystemet, som er en sfærisk belysningsrig, der inkluderer 64 kameraer med forskellige synsvinkler og 331 individuelt programmerbare LED-lys kilder.

Hvert af de halvfjerds emner blev fanget, mens de blev belyst et-lys-ad-gangen (OLAT) af hver af de 331 LED'er. Dette genererede deres refleksionsfeltderes udseende som belyst af de diskrete sektioner af det sfæriske miljø. Refleksionsfeltet kodede de unikke farve- og lysreflekterende egenskaber af motivets hud, hår og tøj og bestemte, hvor skinnende eller mat hvert materiale fremstod på billederne.

Disse OLAT-billeder blev derefter lineært lagt sammen for at gengive realistiske billeder af motivet, som de ville se ud i enhver billedbaseret lysmiljø, med komplekse lystransport fænomener som spredning under jorden korrekt repræsenteret.

Så i stedet for at træne maskinlæringsalgoritmen til at forudsige output-genoplyste billeder direkte, trænede Google modellen til at udsende en lav opløsning kvotientbillede der kunne anvendes på det originale inputbillede for at producere det ønskede output. Denne metode er beregningseffektiv og tilskynder kun til lavfrekvente belysningsændringer uden påvirker højfrekvente billeddetaljer, der overføres direkte fra inputbilledet for at vedligeholde kvalitet.

Desuden trænede Google en maskinlæringsmodel til at efterligne den optiske adfærd af lyskilder, der reflekterer fra relativt matte overflader. For at gøre det trænede virksomheden modellen til at estimere overfladenormalerne givet inputbilledet og derefter anvendt Lamberts lov at beregne et "lyssynlighedskort" for den ønskede lysretning. Dette kort over lyssynlighed leveres derefter som input til kvotientbilledprædiktoren for at sikre, at modellen trænes ved hjælp af fysikbaseret indsigt.

Selvom alt dette kan virke som en langvarig proces, der ville tage Pixel 5's mellemklasse hardware en del tid at behandle, Google hævder, at Portrait Light-funktionen var optimeret til at køre med interaktive billedhastigheder på mobile enheder med en samlet modelstørrelse på under 10 MB.