Google beschreibt detailliert die Technologie hinter der Portrait Light-Funktion von Pixel

In einem aktuellen Blogbeitrag hat Google die Technologie hinter der neuen Portrait Light-Funktion detailliert beschrieben, die mit dem Pixel 5 und Pixel 4a 5G eingeführt wurde.

Nach mehreren Leaks und Gerüchten stellte Google Anfang September dieses Jahres endlich das Pixel 5 und das Pixel 4a 5G vor. Wie erwartet wurden die Geräte mit einer Vielzahl von geliefert neue Google-Kamerafunktionen Das unterscheidet sie von anderen Android-Handys auf dem Markt. Dazu gehören Cinematic Pan für verwacklungsfreies Schwenken von Videos, der gesperrte und aktive Stabilisierungsmodus sowie Nacht Visierunterstützung im Porträtmodus und eine Porträtlichtfunktion zum Anpassen der Beleuchtung bei Porträtaufnahmen automatisch. Einige Wochen nach dem Start veröffentlichte Google die meisten dieser Funktionen für ältere Pixel-Geräte über ein Google Fotos-Update. Und jetzt hat das Unternehmen einige Details über die Technologie hinter der Portrait Light-Funktion mitgeteilt.

Laut einem aktuellen Blogeintrag Die Porträtlichtfunktion des Unternehmens wurde von den Off-Camera-Lichtern inspiriert, die Porträtfotografen verwenden. Es verbessert Porträtaufnahmen durch die Modellierung einer neu positionierbaren Lichtquelle, die der Szene hinzugefügt werden kann. Wenn die künstliche Lichtquelle automatisch hinzugefügt wird, passt sie mithilfe von maschinellem Lernen automatisch Richtung und Intensität an, um die vorhandene Beleuchtung des Fotos zu ergänzen.

Wie Google erklärt, nutzt die Funktion neuartige Modelle für maschinelles Lernen, die anhand eines vielfältigen Datensatzes von Fotos trainiert wurden, die im Google aufgenommen wurden Lichtbühne Computergestütztes Beleuchtungssystem. Diese Modelle ermöglichen zwei algorithmische Fähigkeiten:

Automatische gerichtete Lichtplatzierung: Basierend auf dem Algorithmus des maschinellen Lernens platziert die Funktion automatisch ein künstliches Licht Lichtquelle, die mit der Art und Weise übereinstimmt, wie ein professioneller Fotograf eine Lichtquelle außerhalb der Kamera in der Realität platziert hätte Welt.
Synthetische Neubeleuchtung nach der Aufnahme: Basierend auf der Richtung und Intensität des vorhandenen Lichts in einem Bei einer Porträtaufnahme fügt der maschinelle Lernalgorithmus ein synthetisches Licht hinzu, das realistisch aussieht und natürlich.

Für die automatische Platzierung des gerichteten Lichts hat Google ein maschinelles Lernmodell trainiert, um a zu schätzen hoher Dynamikbereich, omnidirektionales Beleuchtungsprofil für eine Szene basierend auf einem Eingabeporträt. Das ist neu Beleuchtungsschätzungsmodell kann die Richtung, relative Intensität und Farbe aller Lichtquellen in der Szene ermitteln, die aus allen Richtungen kommen, und dabei das Gesicht als ein betrachten Lichtsonde. Es schätzt auch den Hauptbeitrag des Subjekts mithilfe von a MediaPipe-Gesichtsnetz. Basierend auf den oben genannten Daten bestimmt der Algorithmus dann die Richtung für das synthetische Licht.

Sobald die Richtung und Intensität der synthetischen Beleuchtung festgelegt sind, fügt das nächste Modell des maschinellen Lernens die synthetische Lichtquelle dem Originalfoto hinzu. Das zweite Modell wurde mit Millionen von Porträtpaaren trainiert, sowohl mit als auch ohne zusätzliche Lichter. Dieser Datensatz wurde durch das Fotografieren von siebzig verschiedenen Personen mit dem rechnergestützten Beleuchtungssystem Light Stage erstellt. Hierbei handelt es sich um eine sphärische Beleuchtungsanlage mit 64 Kameras mit unterschiedlichen Blickwinkeln und 331 individuell programmierbaren LED-Leuchten Quellen.

Jedes der siebzig Motive wurde aufgenommen, während es von jeder der 331 LEDs einzeln beleuchtet wurde (OLAT). Dies erzeugte ihre Reflexionsfeld, d. h. ihr Aussehen, wie es durch die diskreten Abschnitte der sphärischen Umgebung beleuchtet wird. Das Reflexionsfeld kodierte die einzigartige Farbe und die lichtreflektierenden Eigenschaften der Haut, der Haare und der Kleidung des Motivs und bestimmte, wie glänzend oder matt jedes Material auf den Fotos erschien.

Diese OLAT-Bilder wurden dann linear addiert, um realistische Bilder des Motivs zu erzeugen, wie sie in jedem erscheinen würden bildbasierte Beleuchtungsumgebung, mit komplexen Lichttransportphänomenen wie Streuung unter der Oberfläche richtig dargestellt.

Anstatt den Algorithmus für maschinelles Lernen so zu trainieren, dass er die Ausgabe-Relit-Bilder direkt vorhersagt, trainierte Google das Modell dann so, dass es eine niedrige Auflösung ausgibt Quotientenbild Dies könnte auf das ursprüngliche Eingabebild angewendet werden, um die gewünschte Ausgabe zu erzeugen. Diese Methode ist recheneffizient und fördert nur niederfrequente Beleuchtungsänderungen ohne Beeinflussende hochfrequente Bilddetails, die direkt vom Eingabebild übertragen werden, bleiben erhalten Qualität.

Darüber hinaus hat Google ein maschinelles Lernmodell trainiert, um das optische Verhalten von Lichtquellen zu emulieren, die von relativ matten Oberflächen reflektiert werden. Zu diesem Zweck trainierte das Unternehmen das Modell, die Oberflächennormalen anhand des Eingabefotos zu schätzen, und wendete es dann an Lamberts Gesetz um eine „Lichtsichtbarkeitskarte“ für die gewünschte Beleuchtungsrichtung zu berechnen. Diese Lichtsichtbarkeitskarte wird dann als Eingabe für den Quotientenbildprädiktor bereitgestellt, um sicherzustellen, dass das Modell mithilfe physikbasierter Erkenntnisse trainiert wird.

Während all dies wie ein langwieriger Prozess erscheinen mag, der die Mittelklasse-Hardware des Pixel 5 einiges an Zeit in Anspruch nehmen würde, sagt Google behauptet, dass die Portrait Light-Funktion für die Ausführung mit interaktiven Bildraten auf mobilen Geräten optimiert wurde, mit einer Gesamtmodellgröße von unter 10 MB.