Google detalha a tecnologia por trás do recurso Portrait Light do Pixel

Em uma postagem recente no blog, o Google detalhou a tecnologia por trás do novo recurso Portrait Light que estreou com o Pixel 5 e Pixel 4a 5G.

Após vários vazamentos e rumores, o Google finalmente revelou o Pixel 5 e o Pixel 4a 5G no início deste ano, em setembro. Como esperado, os dispositivos vieram com uma série de novos recursos da Câmera do Google que os diferencia de outros telefones Android no mercado. Isso inclui Cinematic Pan para panorâmica sem trepidação em vídeos, modos de estabilização bloqueado e ativo, modo noturno Suporte de visão no modo retrato e um recurso Portrait Light para ajustar a iluminação dos retratos automaticamente. Algumas semanas após o lançamento, o Google lançou a maioria desses recursos para dispositivos Pixel mais antigos por meio de uma atualização do Google Fotos. E agora, a empresa compartilhou alguns detalhes sobre a tecnologia por trás do recurso Portrait Light.

De acordo com um recente postagem no blog da empresa, o recurso Portrait Light foi inspirado nas luzes externas usadas por fotógrafos de retratos. Ele aprimora fotos de retratos modelando uma fonte de luz reposicionável que pode ser adicionada à cena. Quando adicionada automaticamente, a fonte de luz artificial ajusta automaticamente a direção e a intensidade para complementar a iluminação existente na foto usando aprendizado de máquina.

Como explica o Google, o recurso utiliza novos modelos de aprendizado de máquina que foram treinados usando um conjunto diversificado de dados de fotografias capturadas no Palco de luz sistema de iluminação computacional. Esses modelos permitem dois recursos algorítmicos:

Posicionamento automático de luz direcional: com base no algoritmo de aprendizado de máquina, o recurso coloca automaticamente uma luz artificial fonte de luz que seja consistente com a forma como um fotógrafo profissional teria colocado uma fonte de luz fora da câmera no real mundo.
Reacender pós-captura sintética: Baseada na direção e intensidade da luz existente em um retrato, o algoritmo de aprendizado de máquina adiciona uma luz sintética que parece realista e natural.

Para o posicionamento automático da luz direcional, o Google treinou um modelo de aprendizado de máquina para estimar um dinâmica de alto alcance, perfil de iluminação omnidirecional para uma cena baseada em um retrato de entrada. Esta nova modelo de estimativa de iluminação podemos encontrar a direção, a intensidade relativa e a cor de todas as fontes de luz na cena provenientes de todas as direções, considerando o rosto como um sonda de luz. Ele também estima a posição inicial do sujeito usando um Malha facial MediaPipe. Com base nos dados acima mencionados, o algoritmo determina então a direção da luz sintética.

Uma vez estabelecidas a direção e a intensidade da iluminação sintética, o próximo modelo de aprendizado de máquina adiciona a fonte de luz sintética à foto original. O segundo modelo foi treinado usando milhões de pares de retratos, com e sem luzes extras. Este conjunto de dados foi gerado fotografando setenta pessoas diferentes usando o sistema de iluminação computacional Light Stage, que é um equipamento de iluminação esférico que inclui 64 câmeras com diferentes pontos de vista e 331 luzes LED programáveis individualmente fontes.

Cada um dos setenta assuntos foi capturado iluminado uma luz por vez (OLAT) por cada um dos 331 LEDs. Isso gerou seus campo de refletância, isto é, sua aparência iluminada pelas seções discretas do ambiente esférico. O campo de refletância codificou a cor única e as propriedades de reflexão da luz da pele, cabelo e roupas do sujeito e determinou o quão brilhante ou fosco cada material parecia nas fotos.

Essas imagens OLAT foram então adicionadas linearmente para renderizar imagens realistas do assunto como apareceriam em qualquer ambiente de iluminação baseado em imagem, com fenômenos complexos de transporte de luz como dispersão subterrânea representado corretamente.

Então, em vez de treinar o algoritmo de aprendizado de máquina para prever diretamente a saída das imagens relit, o Google treinou o modelo para produzir uma imagem de baixa resolução. imagem de quociente que poderia ser aplicado à imagem de entrada original para produzir a saída desejada. Este método é computacionalmente eficiente e incentiva apenas mudanças de iluminação de baixa frequência sem impactando detalhes da imagem de alta frequência que são transferidos diretamente da imagem de entrada para manter qualidade.

Além disso, o Google treinou um modelo de aprendizado de máquina para emular o comportamento óptico de fontes de luz refletidas em superfícies relativamente foscas. Para isso, a empresa treinou o modelo para estimar as normais da superfície de acordo com a foto de entrada e depois aplicou Lei de Lambert para calcular um "mapa de visibilidade de luz" para a direção de iluminação desejada. Este mapa de visibilidade de luz é então fornecido como entrada para o preditor de imagem de quociente para garantir que o modelo seja treinado usando insights baseados na física.

Embora tudo isso possa parecer um processo demorado que levaria bastante tempo para processar o hardware de gama média do Pixel 5, o Google afirma que o recurso Portrait Light foi otimizado para rodar em taxas de quadros interativas em dispositivos móveis, com um tamanho total do modelo inferior a 10 MB.