Η Google περιγράφει λεπτομερώς την τεχνολογία πίσω από τη λειτουργία Portrait Light του Pixel

Σε μια πρόσφατη ανάρτηση ιστολογίου, η Google παρουσίασε λεπτομερώς την τεχνολογία πίσω από τη νέα λειτουργία Portrait Light που έκανε το ντεμπούτο της με τα Pixel 5 και Pixel 4a 5G.

Μετά από αρκετές διαρροές και φήμες, η Google αποκάλυψε τελικά τα Pixel 5 και Pixel 4a 5G νωρίτερα φέτος τον Σεπτέμβριο. Όπως ήταν αναμενόμενο, οι συσκευές ήρθαν με μια σειρά από νέες λειτουργίες της κάμερας Google που τα ξεχωρίζει από άλλα τηλέφωνα Android της αγοράς. Αυτά περιλαμβάνουν το Cinematic Pan για πανοραμική λήψη βίντεο χωρίς κούνημα, τις λειτουργίες κλειδώματος και ενεργής σταθεροποίησης, τη νύχτα Υποστήριξη όρασης σε Λειτουργία Πορτραίτου και λειτουργία Portrait Light για προσαρμογή των λήψεων με πορτραίτο φωτισμού αυτομάτως. Λίγες εβδομάδες μετά την κυκλοφορία, η Google κυκλοφόρησε τις περισσότερες από αυτές τις δυνατότητες για παλαιότερες συσκευές Pixel μέσω ενημέρωσης του Google Photos. Και τώρα, η εταιρεία μοιράστηκε ορισμένες λεπτομέρειες σχετικά με την τεχνολογία πίσω από τη λειτουργία Portrait Light.

Σύμφωνα με πρόσφατο ανάρτηση από την εταιρεία, η λειτουργία Portrait Light εμπνεύστηκε από τα φώτα εκτός κάμερας που χρησιμοποιούν οι φωτογράφοι πορτρέτων. Βελτιώνει τις λήψεις πορτρέτου διαμορφώνοντας μια πηγή φωτός με δυνατότητα επανατοποθέτησης που μπορεί να προστεθεί στη σκηνή. Όταν προστίθεται αυτόματα, η τεχνητή πηγή φωτός προσαρμόζει αυτόματα την κατεύθυνση και την ένταση για να συμπληρώσει τον υπάρχοντα φωτισμό της φωτογραφίας χρησιμοποιώντας μηχανική εκμάθηση.

Όπως εξηγεί η Google, η λειτουργία χρησιμοποιεί νέα μοντέλα μηχανικής εκμάθησης που εκπαιδεύτηκαν χρησιμοποιώντας ένα διαφορετικό σύνολο δεδομένων φωτογραφιών που έχουν ληφθεί στο Ελαφριά Σκηνή υπολογιστικό σύστημα φωτισμού. Αυτά τα μοντέλα επιτρέπουν δύο αλγοριθμικές δυνατότητες:

Αυτόματη τοποθέτηση κατευθυντικού φωτός: Με βάση τον αλγόριθμο μηχανικής εκμάθησης, η δυνατότητα τοποθετεί αυτόματα ένα τεχνητό πηγή φωτός που συνάδει με το πώς ένας επαγγελματίας φωτογράφος θα είχε τοποθετήσει μια πηγή φωτός εκτός κάμερας στο πραγματικό κόσμος.
Συνθετικός επαναφωτισμός μετά τη λήψη: Με βάση την κατεύθυνση και την ένταση του υπάρχοντος φωτός σε ένα λήψη πορτραίτου, ο αλγόριθμος μηχανικής μάθησης προσθέτει ένα συνθετικό φως που φαίνεται ρεαλιστικό και φυσικός.

Για την αυτόματη τοποθέτηση κατευθυντικού φωτός, η Google εκπαίδευσε ένα μοντέλο μηχανικής εκμάθησης για να εκτιμήσει α υψηλό δυναμικό εύρος, προφίλ πανκατευθυντικού φωτισμού για μια σκηνή που βασίζεται σε ένα πορτρέτο εισόδου. Αυτό το νέο μοντέλο εκτίμησης φωτισμού μπορεί να βρει την κατεύθυνση, τη σχετική ένταση και το χρώμα όλων των πηγών φωτός στη σκηνή που προέρχονται από όλες τις κατευθύνσεις, θεωρώντας το πρόσωπο ως φωτός ανιχνευτής. Εκτιμά επίσης τον στύλο της κεφαλής του θέματος χρησιμοποιώντας α MediaPipe Face Mesh. Με βάση τα προαναφερθέντα δεδομένα, ο αλγόριθμος στη συνέχεια καθορίζει την κατεύθυνση για το συνθετικό φως.

Μόλις καθοριστεί η κατεύθυνση και η ένταση του συνθετικού φωτισμού, το επόμενο μοντέλο μηχανικής εκμάθησης προσθέτει τη συνθετική πηγή φωτός στην αρχική φωτογραφία. Το δεύτερο μοντέλο εκπαιδεύτηκε χρησιμοποιώντας εκατομμύρια ζεύγη πορτρέτων, τόσο με όσο και χωρίς επιπλέον φώτα. Αυτό το σύνολο δεδομένων δημιουργήθηκε φωτογραφίζοντας εβδομήντα διαφορετικούς ανθρώπους χρησιμοποιώντας το υπολογιστικό σύστημα φωτισμού Light Stage, η οποία είναι μια σφαιρική εγκατάσταση φωτισμού που περιλαμβάνει 64 κάμερες με διαφορετικές οπτικές γωνίες και 331 ατομικά προγραμματιζόμενο φως LED πηγές.

Καθένα από τα εβδομήντα θέματα καταγράφηκε ενώ φωτιζόταν ένα φως τη φορά (OLAT) από καθένα από τα 331 LED. Αυτό δημιούργησε τους πεδίο ανάκλασης, δηλαδή την εμφάνισή τους όπως φωτίζεται από τα διακριτά τμήματα του σφαιρικού περιβάλλοντος. Το πεδίο ανάκλασης κωδικοποίησε τις μοναδικές ιδιότητες χρώματος και φωτός του δέρματος, των μαλλιών και των ρούχων του θέματος και καθόρισε πόσο γυαλιστερό ή θαμπό κάθε υλικό εμφανιζόταν στις φωτογραφίες.

Αυτές οι εικόνες OLAT στη συνέχεια προστέθηκαν γραμμικά για να αποδώσουν ρεαλιστικές εικόνες του θέματος όπως θα εμφανίζονταν σε οποιοδήποτε περιβάλλον φωτισμού με βάση την εικόνα, με πολύπλοκα φαινόμενα μεταφοράς φωτός όπως υποεπιφανειακή διασπορά εκπροσωπείται σωστά.

Στη συνέχεια, αντί να εκπαιδεύσει τον αλγόριθμο μηχανικής μάθησης για να προβλέψει άμεσα τις εικόνες εξόδου, η Google εκπαίδευσε το μοντέλο ώστε να εξάγει χαμηλή ανάλυση εικόνα πηλίκου που θα μπορούσε να εφαρμοστεί στην αρχική εικόνα εισόδου για να παραχθεί το επιθυμητό αποτέλεσμα. Αυτή η μέθοδος είναι υπολογιστικά αποδοτική και ενθαρρύνει μόνο αλλαγές φωτισμού χαμηλής συχνότητας χωρίς επηρεάζοντας τις λεπτομέρειες της εικόνας υψηλής συχνότητας που μεταφέρονται απευθείας από την εικόνα εισόδου για διατήρηση ποιότητα.

Επιπλέον, η Google εκπαίδευσε ένα μοντέλο μηχανικής μάθησης για να μιμηθεί την οπτική συμπεριφορά των πηγών φωτός που αντανακλώνται σε σχετικά ματ επιφάνειες. Για να γίνει αυτό, η εταιρεία εκπαίδευσε το μοντέλο να εκτιμά τις κανονικές επιφάνειες με βάση την εισερχόμενη φωτογραφία και στη συνέχεια το εφάρμοσε ο νόμος του Λάμπερτ για να υπολογίσετε έναν "χάρτη ορατότητας φωτός" για την επιθυμητή κατεύθυνση φωτισμού. Αυτός ο χάρτης ορατότητας φωτός παρέχεται στη συνέχεια ως είσοδος στο πηλίκο πρόβλεψης εικόνας για να διασφαλιστεί ότι το μοντέλο έχει εκπαιδευτεί χρησιμοποιώντας πληροφορίες βασισμένες στη φυσική.

Αν και όλα αυτά μπορεί να φαίνονται ως μια χρονοβόρα διαδικασία που θα χρειαζόταν αρκετό χρόνο για να επεξεργαστεί το υλικό μεσαίας κατηγορίας του Pixel 5, η Google ισχυρίζεται ότι η λειτουργία Portrait Light έχει βελτιστοποιηθεί για να εκτελείται σε διαδραστικούς ρυθμούς καρέ σε κινητές συσκευές, με συνολικό μέγεθος μοντέλου κάτω από 10 MB.