Judd Heape z Qualcomm wyjaśnia, w jaki sposób Qualcomm ulepsza działanie aparatu w telefonach z systemem Android dzięki nowym funkcjom udostępnianym przez dostawców usług internetowych Spectra.
Jako producent układów typu system-on-chip (SoC), które zasilają większość smartfonów i urządzeń do noszenia na świecie, Qualcomm z siedzibą w USA jest niewątpliwie jednym z gigantów branży producentów chipów. Na przykład linia układów SoC Snapdragon jest używana przez prawie wszystkich głównych producentów urządzeń z systemem Android w smartfonach flagowych, średniej klasy i budżetowych. Qualcomm co roku zdobywa uznanie na dorocznym szczycie technicznym firmy za postęp w dziedzinie procesorów, procesorów graficznych i sztucznej inteligencji, ponieważ wykorzystuje nowe mikroarchitektury procesorów ARM i uzupełnia je corocznymi ulepszeniami niestandardowych procesorów graficznych. Jednak postęp w dziedzinie aparatów fotograficznych nie jest tak zauważalny, ponieważ mają tendencję do schodzenia pod radar.
Nie oznacza to jednak, że praca Qualcomma w aparatach smartfonów jest nieistotna. Wręcz przeciwnie, dostawcy usług internetowych Spectra firmy Qualcomm w swoich układach Snapdragon SoC pomagają w tworzeniu większości nowoczesnych aparatów smartfonów przy zwiększonym moc obliczeniową, funkcje takie jak nagrywanie wideo 8K, wideo HDR10, obsługa wysokomegapikselowych kamer QCFA i wiele, wiele więcej. Qualcomm promował, że Spectra 380 ISP w Snapdragon 855 był pierwszym na świecie dostawcą CV-ISPi promował pierwsze na świecie funkcje nagrywania wideo 4K HDR, które obecnie zostały uzupełnione o nagrywanie wideo 4K HDR10+ drugiej generacji. Spectra 480 ISP najnowszej generacji Snapdragona 865 jest bardzo wydajny – może przetwarzać dwa gigapiksele na sekundę, co stanowi wzrost o 40% w stosunku do swojego poprzednika. Jest to własność intelektualna (IP), która odróżnia Qualcomm od konkurentów na rynku dostawców chipów mobilnych.
Podczas gdy Qualcomm wyjaśnia większość głównych funkcji w swoich komunikatach prasowych i opisach produktów, w górę do tej pory konsumenci nie mieli szansy poznać większości szczegółów na niskim poziomie, które składają się na te rzeczy praca.
Dlatego w XDA Developers z radością przyjęliśmy ofertę rozmowy z Juddem Heape, starszym dyrektorem ds. zarządzania produktami w Qualcomm. Redaktor naczelny XDA, Mishaal Rahman, i ja odbyliśmy wywiad z Juddem w czerwcu 2020 r., aby dowiedzieć się i zobaczyć, jak Qualcomm przesuwa poprzeczkę, fotografując smartfonami i nagrywając wideo. Rozmawialiśmy na takie tematy, jak przetwarzanie obrazu AI, wieloklatkowa redukcja szumów (MFNR), AV1, nagrywanie wideo Dolby Vision, łączenie pikseli w kamery o dużej rozdzielczości i wiele innych. Przyjrzyjmy się poszczególnym spostrzeżeniom Judda na każdy temat:
Obciążenia przetwarzania obrazu AI
Miszaala Rahmana: Zacznę od jednego z tych, które miał Idrees, który jest interesujący i który również mnie zainteresował. Zastanawiamy się zatem, jakie obciążenia związane z przetwarzaniem obrazu AI wykorzystuje Qualcomm u dostawcy usług internetowych Spectra i w jakim stopniu producenci urządzeń mogą je dostosowywać?
Judda Heape’a: Tak, więc przyglądamy się wielu obciążeniom AI i okazuje się, że niektóre z nich mogą działać u samego dostawcy usług internetowych jak na przykład nasza następna generacja 3A: automatyczna ekspozycja, automatyczny balans bieli i automatyczne ustawianie ostrości to sztuczna inteligencja na podstawie.
Ale przyglądamy się także kilku innym obciążeniom AI, które działałyby poza dostawcą usług internetowych, w jednym z pozostałych elementów obliczeniowych. W szczególności przyglądamy się takim rzeczom jak: mamy rdzeń redukcji szumów oparty na sztucznej inteligencji, który działa zewnętrznie od dostawcy usług internetowych, w części chipa zawierającej silnik AI (AIE).
Mamy też takie funkcje, jak wykrywanie twarzy, które jest pełnym silnikiem głębokiego uczenia się, który działa również w kompleksie AIE, ale oczywiście wspomaga kamerę. Pracujemy także nad innymi rzeczami niż wykrywanie twarzy i usuwanie szumów; zastanawiamy się także nad automatycznym dostosowywaniem migawek przy użyciu sztucznej inteligencji, która ustawiałaby się automatycznie parametrów na scenę w oparciu o zawartość HDR, modyfikowalibyśmy cienie, światła, kolory i tym podobne rzecz.
Jeden z naszych partnerów, Morpho, właśnie zdobył ogromną nagrodę za obciążenie sztuczną inteligencją podczas tegorocznego szczytu Embedded Vision Summit. Niezależni partnerzy-dostawcy oprogramowania mają również wiele naprawdę intensywnych algorytmów opartych na sztucznej inteligencji, które mogą obejmować wszystko, na przykład płynną kamerę przejście, podobnie jak to robi Arcsoft (wspomniałem o tym na ostatnim szczycie Snapdragon Tech Summit opartym na sztucznej inteligencji), na segmentację semantyczną Morpho silnik. Rozwiązanie Morpho to silnik sztucznej inteligencji, który rozumie różne części sceny, jak wiadomo, tkanina kontra skóra kontra niebo i trawa oraz budowanie i tego typu rzeczy, a następnie dostawca usług internetowych może pobrać te informacje i przetworzyć te piksele w inny sposób pod kątem tekstury, szumu i koloru przykład.
Oświadczenie Qualcomma: W przypadku ML i AI nie ogłaszamy również dzisiaj żadnych nowych aktualizacji funkcji wykrywania twarzy i „3A” (AE, AF i AWB). Jednakże, jak powiedział Judd, jesteśmy zdeterminowani, aby w przyszłości zapewnić kamerze więcej możliwości ML/AI, w tym w tych dwóch obszarach.
Analiza i kontekst: Sztuczna inteligencja w smartfonach jest w dużej mierze modna od czasu, gdy w telefonach z systemem Android zaczęły pojawiać się pierwsze jednostki przetwarzania neuronowego (NPU) i funkcje „oparte na sztucznej inteligencji”. Nie oznacza to jednak, że sama sztuczna inteligencja jest bez znaczenia. Wręcz przeciwnie, sztuczna inteligencja ma duży potencjał w urządzeniach mobilnych do tego stopnia, że zarówno dostawcy chipów, jak i producenci urządzeń dopiero zarysowują możliwości.
Dzięki sztucznej inteligencji aparaty w smartfonach stały się lepsze – czasem szybko, czasem boleśnie wolno, ale udaje się to osiągnąć. Aparaty w smartfonach pokonują podstawowe ograniczenia, takie jak stosunkowo mniejsze czujniki, stałe ogniskowe i gorszą optykę dzięki inteligentnej fotografii obliczeniowej opartej na uczeniu maszynowym (ML). Automatyczna ekspozycja, redukcja szumów, wykrywanie twarzy i segmentacja to tylko niektóre z dziedzin, w których sztuczna inteligencja w fotografii smartfonowej mogła wywrzeć wpływ. W ciągu najbliższych pięciu lat te rodzące się dziedziny sztucznej inteligencji poprawiające różne aspekty fotografii znacznie się rozwiną.
Redukcja szumów w wielu klatkach
Idrees Patel: Qualcomm wspominał o redukcji szumów w wielu klatkach jako o funkcji. Chciałbym poznać więcej szczegółów na ten temat, na przykład na temat działania układania obrazów. Czy w jakiś sposób podoba się to, co Google robi ze swoją technologią HDR+, czy jest zupełnie inaczej?
Judda Heape’a: Jest podobny, ale inny. Wyobraź sobie, że aparat wykonuje serię zdjęć i rejestruje od pięciu do siedmiu klatek w krótkich odstępach czasu. Następnie silnik ISP przygląda się tym ramkom i wybiera najlepszą dla nich (tzw. „ramkę kotwiczną”) ostrość i klarowność, a następnie może wybrać 3-4 klatki po obu stronach tej klatki, a następnie uśrednić je wszystkie razem. Próbuje wybrać klatki, które są wystarczająco blisko siebie, aby było bardzo mało ruchu.
A kiedy ustali te klatki, następnie je uśrednia, aby rozróżnić, czym się różnią, na przykład rzeczywiste dane obrazu i dane dotyczące szumu. Kiedy więc masz coraz więcej informacji z coraz większej liczby klatek, możesz w rzeczywistości wykonywać proste czynności, na przykład patrzeć na różnice między klatkami. Różnice to prawdopodobnie szum, podczas gdy w klatkach jednakowe są prawdopodobnie dane obrazu.
Możemy więc łączyć klatki w czasie rzeczywistym, aby zredukować szum. Teraz możesz zrobić to samo przy słabym oświetleniu i HDR, co jest bardzo podobne do tego, co prawdopodobnie robi Google. Nie jesteśmy wtajemniczeni w ich algorytm. Używają jednak technik wieloklatkowych, aby zwiększyć czułość, dzięki czemu można lepiej „widzieć”; po zmniejszeniu poziomu szumów możesz teraz pomyśleć o wykonaniu bardziej lokalnego mapowania tonów lub dodaniu wzmocnienia do obrazu bez dodawania większego szumu.
Tak więc radzą sobie przy słabym oświetleniu i HDR. Qualcomm wprowadzi ulepszenia funkcji redukcji szumów wielu klatek, które obejmą także słabe oświetlenie i HDR. Ale to coś, co wkrótce wprowadzimy.
Miszaala Rahmana: Wspomniałeś o wkrótce wprowadzeniu tej funkcji. Czy to coś w rodzaju aktualizacji BSP dla partnerów?
Judda Heape’a: W naszych produktach nowej generacji, dzięki dodaniu oprogramowania, będziemy mogli nawiązać kontakt – właściwie dzieje się to teraz w następnym generacji — obecnie współpracujemy z klientami, aby zastosować więcej technik wieloklatkowych, wykraczających poza redukcję szumów, ale także obsługę HDR i słabego oświetlenia sytuacje. Korzysta z tego samego podstawowego silnika sprzętowego ISP, ale dodajemy więcej oprogramowania do obsługi wielu klatek w celu czegoś więcej niż tylko redukcji szumów.
Nie jest to więc coś, co zostało wprowadzone, ale współpracujemy z kilkoma kluczowymi klientami w sprawie tych funkcji.
Analiza i kontekst: Z każdą nową zapowiedzią Snapdragon SoC tabela specyfikacji Qualcomm zawiera specyfikacje związane z redukcją szumów w wielu klatkach. Na przykład Snapdragon 865 z dwoma 14-bitowymi dostawcami CV-ISP obsługuje maksymalnie hipotetyczny pojedynczy aparat o rozdzielczości 200 MP (mimo że dostawcy czujników aparatu, tacy jak Sony, Samsung i OmniVision, nie wypuścili jeszcze żadnego czujnika aparatu w smartfonie o rozdzielczości powyżej 108 MP). Jeśli jednak chodzi o obsługę pojedynczego aparatu z funkcją MFNR, zerowym opóźnieniem migawki (ZSL) i obsługą 30 klatek na sekundę, specyfikacja zmienia się na 64 MP, a w przypadku dwóch kamer o tych samych specyfikacjach specyfikacja zmienia się na 25MP.
Redukcja szumów wielu klatek Qualcomm jest bardzo podobna do HDR+, ale nie do końca taka sama, jak wyjaśnił Judd powyżej. Podczas gdy HDR+ wykonuje serię niedoświetlonych ekspozycji i uśrednia je, aby uzyskać najlepsze zdjęcie, MFNR rejestruje pięć-siedem normalnych klatek. Nie wydaje się, aby funkcja MFNR Qualcomma była tak zaawansowana jak rozwiązanie Google, ponieważ HDR i słabe oświetlenie nie są wymieniane jako szczególne priorytety w obecnym przepływ pracy w Spectra, podczas gdy Google HDR+ skupia się jednocześnie na HDR, fotografowaniu przy słabym świetle i redukcji szumów, a Night Sight poprawia go nawet o krok dalej. Jednak zachęcająca jest informacja, że MFNR otrzymuje ulepszenia, a Qualcomm będzie udostępniać te ulepszenia „niektórym kluczowym klientom”. Być może w przyszłości nie będziemy potrzebować nieoficjalnych portów Google Camera, aby w pełni wykorzystać potencjał aparatów w smartfonach z systemem Android innych niż Google.
Super rozdzielczość wideo
Miszaala Rahmana: A więc coś, co usłyszałem na szczycie technicznym. Właściwie, myślę, że tak było w wywiadzie z Władze Androida. Czy Qualcomm planuje rozszerzyć superrozdzielczość na wideo jako rozwiązanie programowe dla partnerów i najwyraźniej zostanie to wprowadzone w aktualizacji? Zastanawiam się, czy chcesz udostępnić jakieś aktualizacje dotyczące tej funkcji.
Judda Heape’a: Tak, więc jest to funkcja, którą mogliśmy zastosować już od jakiegoś czasu i dopiero teraz ją wdrażamy. Nie powiedziałbym, że jest to w ramach aktualizacji oprogramowania, ale powiedziałbym, że jest to coś w rodzaju dodatkowej korzyści wynikającej z istniejącej funkcji wyświetlania wielu klatek przy słabym oświetleniu. W sprawie tej funkcji współpracujemy z kilkoma konkretnymi głównymi klientami. Więc tak, superrozdzielczość wideo to coś, co pojawi się w następnej generacji, więc będziemy ją mieli tak, jak mamy wywołaj plan funkcji nagrywania tam, gdzie jest ona faktycznie wbudowana w bazę kodu oprogramowania dla [] kamera. Jednak obecnie chodzi bardziej o poziom zaangażowania konkretnych klientów w tę nową funkcję.
Analiza i kontekst: Super rozdzielczość wideo to funkcja, która do tej pory nie była dostępna w aparatach smartfonów. To taka nowa dziedzina wciąż powstają prace naukowe na ten temat. Stosowanie technik wieloklatkowych w fotografii to jedno, ale wykorzystanie ich w przypadku wideo w celu przeskalowania wideo do wyższej rozdzielczości to zupełnie inna sprawa. Qualcomm twierdzi, że ponownie udostępni tę funkcję „niektórym kluczowym klientom”, ale na razie nie jest ona wbudowana w kod oprogramowania aparatu. W przyszłości może być dostępna dla wszystkich, ale na razie jest to funkcja, z której konsumenci końcowi jeszcze nie muszą korzystać.
Wysoko-megapikselowe czujniki Quad Bayer
Idrees Patel: Porozmawiajmy o czujnikach Quad Bayer. Od 2019 r. wiele telefonów ma obecnie czujniki 48 MP, 64 MP, a teraz nawet 108 MP. Są to czujniki Quad Bayer; tak naprawdę nie masz prawdziwej rozdzielczości kolorów wynoszącej 48, 64 lub 108 MP. Jedną rzeczą, o którą chciałem zapytać, było to, w jaki sposób dostawca usług internetowych różni się pod względem przetwarzania obrazu w przypadku modeli Quad Bayer lub Nona Czujniki Bayer (łączenie pikseli 4 w 1 lub 9 w 1) w porównaniu z tradycyjnymi czujnikami, które nie mają żadnego piksela binowanie.
Judda Heape’a: Tak, więc oczywiście zaletą tych czterech czujników CFA (Quad Color Filter Array) jest możliwość działania w jasnym świetle je w pełnej rozdzielczości, a następnie dostawca usług internetowych może je przetworzyć w pełnej rozdzielczości 108 megapikseli lub 64 megapikseli lub dowolnej innej dostępny.
Jednak zazwyczaj w większości sytuacji oświetleniowych, np. w pomieszczeniach lub w ciemności, należy wyrzucić zdjęcia do kosza, ponieważ piksele czujnika są tak małe, że trzeba je łączyć, aby uzyskać lepszą czułość na światło. Powiedziałbym więc, że przez większość czasu, zwłaszcza jeśli kręcisz wideo lub robisz zdjęcie przy słabym oświetleniu, pracujesz w trybie binarnym.
Teraz dostawca usług internetowych może przetwarzać czujnik w dowolny sposób. Można patrzeć na czujnik w trybie binowania, w którym to przypadku będzie to zwykły obraz firmy Bayer, lub można go oglądać w trybie pełnej rozdzielczości, w którym przychodzące dane mają czterokrotność CFA. A jeśli jest w tym trybie, dostawca usług internetowych konwertuje go na firmę Bayer.
Robimy więc to, co nazywamy „remosaicingiem”. Robi to pewną interpolację poczwórnego obrazu CFA, aby znów wyglądał jak Bayer w pełnej rozdzielczości. Zwykle robi się to w oprogramowaniu do tworzenia migawek, chociaż ostatecznie dodamy tę funkcję do sprzętu, aby obsługiwała również wideo.
To, co znajduje się obecnie w sprzęcie dostawcy usług internetowych, podlega binowaniu. Można więc umieścić czujnik w pojemniku i faktycznie czujnik może zdecydować, czy ma generować obraz w rozdzielczości pełnej, czwartej czy 1/9, czy też można umieścić go u dostawcy usług internetowych. Właściwie to jest funkcja, którą dodaliśmy w Snapdragonie 865. Jeśli więc wybierzesz binowanie u dostawcy usług internetowych, a następnie uruchomisz czujnik w pełnej rozdzielczości, dostawca usług internetowych będzie mógł mieć jednocześnie obraz w pełnej rozdzielczości i obraz w koszu. Dlatego może używać obrazu o mniejszej rozdzielczości lub obrazu „podzielonego” do wideo (kamera) i podglądu (wizjer), a jednocześnie używać obrazu o pełnej rozdzielczości do pełnowymiarowego migawki.
Ale znowu byłoby to w przypadku jasnych warunków oświetleniowych. Ale przynajmniej jeśli wybierzesz dostawcę usług internetowych, będziesz w stanie obsłużyć zarówno duży, jak i mały obraz na raz w tym samym czasie, dzięki czemu można jednocześnie uzyskać wideo i migawkę, można także uzyskać pełną rozdzielczość ZSL; wszystko to bez konieczności przełączania czujnika tam i z powrotem, co zajmuje znaczną ilość czasu.
To naprawdę dobra funkcja. A gdy czujniki Quad CFA, a nawet wiesz, wychodzą czujniki 9x, a może nawet więcej, i gdy tych czujników staje się coraz więcej wszechobecne — coraz częściej szukamy możliwości obsługi tych czujników w sprzęcie, nie tylko do sortowania, ale także do remosaikowanie.
Zaletą tego jest to, że jeśli robisz to na sprzęcie, a nie na oprogramowaniu, zmniejszasz opóźnienia dla Twoich klientów, w związku z czym czas od jednego strzału do drugiego i szybkość serii będą znacznie krótsze. W miarę jak będziemy wprowadzać nowych dostawców usług internetowych i nowe chipy, zaczniecie widzieć znacznie więcej tego, co robimy dla nowych typów czujników montowanych w sprzęcie.
Analiza i kontekst: Huawei jako pierwszy zastosował w tym modelu czujnik Quad Bayer o rozdzielczości 40 MP Huawei P20 Pro w 2018 r., a popularność czujników Quad Bayer była tak duża, że obecnie trafiły one nawet do telefonów za 150 dolarów wyposażonych w chipy Snapdragon/Exynos/MediaTek. W szczególności zaobserwowaliśmy, że w branży smartfonów najlepszym rozwiązaniem są aparaty o rozdzielczości 48 MP i 64 MP, a niektóre telefony osiągają nawet 108 MP. Czujniki Quad Bayer i Nona Bayer nie są pozbawione negatywów, ponieważ ich pełna rozdzielczość wiąże się z pewnymi zastrzeżeniami.
Jednak ze względów marketingowych czujnik 48 MP brzmi znacznie lepiej niż czujnik 12 MP, nawet jeśli użytkownik i tak przez większość czasu robi zdjęcia o rozdzielczości 12 MP. Sensor 48 MP teoretycznie powinien dawać lepsze zdjęcia z łączeniem pikseli w rozdzielczości 12 MP przy słabym oświetleniu niż tradycyjny sensor 12 MP czujnika, ale przetwarzanie obrazu musi dotrzymać kroku, a jak wspomniałem poniżej, przed nim jeszcze długa droga zdarzyć. Tak czy inaczej, ciekawie było zobaczyć, jak Spectra ISP radzi sobie z czujnikami Quad Bayer za pomocą remosaicingu. Te czujniki mają duży potencjał i telefony takie jak OnePlus 8 Pro (który wykorzystuje czujnik Sony IMX689 Quad Bayer z dużymi pikselami) są obecnie na szczycie aparatów w smartfonach.
Rozpoznawanie twarzy w oparciu o ML
Miszaala Rahmana: Myślę, że wcześniej wspomniałeś, że rozpoznawanie twarzy oparte na ML jest obsługiwane w Spectra 480. To coś, co rzeczywiście usłyszałem na Tech Summit. [Że jest to] jedno z ulepszeń z 380 na 480; że jest to część nowego bloku wykrywania obiektywnego w silniku analizy wideo, który będzie w przyszłości używany do rozpoznawania przestrzennego.
Czy możesz powiedzieć więcej o tym, jak bardzo poprawia to rozpoznawanie twarzy i jakie potencjalne zastosowania widzisz w jego zastosowaniu przez dostawców?
Judda Heape’a: Tak, właściwie, masz rację w przypadku wbudowanego bloku widzenia komputerowego, czyli bloku „EVA”, o którym rozmawialiśmy na szczycie technicznym. Zawiera on ogólny rdzeń wykrywania obiektów, którego używamy, gdy kamera jest uruchomiona, i używamy go do wykrywania twarzy. Techniki zawarte w tym bloku są technikami bardziej tradycyjnymi, zatem rozpoznawanie obiektów odbywa się tradycyjnymi metodami klasyfikatorów, ale poza tym mamy działający silnik oprogramowania, który faktycznie poprawia ich dokładność blok.
Dlatego używamy oprogramowania opartego na ML do odfiltrowania fałszywych alarmów, ponieważ sprzęt może wykryć więcej rzeczy jako twarzy w scenie, a następnie oprogramowanie ML mówiąc: „OK, to jest twarz” lub „to naprawdę nie jest twarz”, więc zwiększa to dokładność o kilka punktów procentowych, uruchamiając ten filtr ML na górze sprzęt komputerowy.
Wspomniałem wiele rzeczy na temat przyszłości. W przyszłości planujemy również uruchomić samo wykrywanie całej twarzy w systemie ML lub w trybie głębokiego uczenia się w oprogramowaniu. Szczególnie będzie to prawdą na niższych poziomach, więc na przykład na poziomie, na którym nie mamy silnika sprzętowego EVA, zaczniemy wprowadzać etapy głębokiego uczenia się jako wykrywanie, które działa w silniku AI chipa, a później, na wyższych poziomach, na poziomach 700–800, mamy do tego sprzęt EVA…
Powiem jednak ogólnie, że będziemy zmierzać bardziej w stronę podejścia opartego na uczeniu maszynowym (ML) w celu wykrywania twarzy, co obejmie zarówno oprogramowanie w perspektywie średnioterminowej, jak i sprzęt w późniejszej perspektywie. Nie mam zamiaru ujawniać, które produkty będą to wyposażone, ale oczywiście w miarę postępów w ulepszaniu dostawcy usług internetowych z pewnością będziemy dodawać coraz więcej możliwości sprzętowych do obsługi ML.
Miszaala Rahmana: Wspaniały. Cóż, myślę, że oczywistym jest, że kierunek, w jakim zmierzasz, polega na sprowadzeniu ulepszeń uczenia maszynowego serii 800 na niższy poziom, więc ogólnie rzecz biorąc, jest to pewne. Ale oczywiście nie możesz nam podać żadnych szczegółów na ten temat. Dziękuję za aktualizację.
Judda Heape’a: Wykrywanie twarzy to coś, co nas bardzo pasjonuje. Chcemy poprawić tę dokładność, wiesz, z pokolenia na pokolenie, na wszystkich poziomach, od poziomu 800 do poziomu 400. ML ma w tym duży udział.
Analiza i kontekst: To właśnie te aspekty dają fotografii smartfonowej o wiele większy potencjał w porównaniu nawet z najnowszymi aparatami bezlusterkowymi. Tak, aparaty bezlusterkowe zapewniają lepszą jakość obrazu przy słabym oświetleniu i są znacznie bardziej elastyczne, ale aparaty w smartfonach pokonują swoje ograniczenia w genialny sposób. Wykrywanie twarzy w oparciu o ML to tylko część tego.
Ulepszenia silnika przetwarzania obrazu
Miszaala Rahmana: Wspaniały. Zatem jedną z rzeczy, które krótko usłyszałem podczas dyskusji przy okrągłym stole po szczycie Snapdragon Tech Summit, było ulepszenie silnika przetwarzania obrazu. Słyszałem, że poprawiono redukcję szumów w niskich średnich częstotliwościach, czyli LEANR. I że stosujesz dynamiczną mapę odwróconego wzmocnienia; czy jest to coś, o czym wspomniałeś wcześniej w rozmowie.
Judda Heape’a: Oh okej. Więc myślę, że mieszasz dwie rzeczy razem. Tak, więc istnieje rdzeń LEANR, który pracuje nad redukcją szumów na grubszych ziarnach, co pomaga przy słabym oświetleniu. To nowy blok, który został dodany w Snapdragonie 865 u dostawcy usług internetowych, a to jedno.
Mapa wzmocnienia odwrotnego to coś innego. To coś jeszcze, o czym wspomniałem przy okrągłych stołach, ale chodzi o odwrócenie efektu cieniowania obiektywu. Jak wiadomo, jeśli masz telefon komórkowy z małym obiektywem; środek obiektywu będzie jasny, a brzegi bardziej winietowane; co oznacza, że będą ciemniejsze.
I tak w poprzednich latach u dostawców usług internetowych stosowaliśmy statyczną mapę wzmocnienia odwrotnego, aby pozbyć się tych ciemnych krawędzi. I to jest w ofercie ISP od dłuższego czasu. To, co dodaliśmy w Snapdragonie 865, to możliwość dynamicznej zmiany mapy wzmocnienia w zależności od konkretnej klatki obrazu, ponieważ jeśli zastosujesz dużo wzmocnień na krawędziach dzieje się tak, że krawędzie mogą zostać przycięte, szczególnie jeśli patrzysz na jasne sceny na zewnątrz, na przykład błękitne niebo może stać się białe lub krawędzie zostaną obcięte z powodu dużej ilości osiągać.
Tak więc w Snapdragonie 865 ta mapa wzmocnienia odwrotnego nie jest statyczna; to jest dynamiczne. Patrzymy więc na obraz i mówimy: „OK, te części obrazu są przycinane, a nie powinny”, więc możemy toczyć poza mapą wzmocnienia w naturalny sposób, aby nie uzyskać jasnych prążków, efektów halo lub tego typu rzeczy spowodowanych korekcją obiektywu zacienienie. To co innego niż redukcja szumów, a to dwa różne rdzenie.
Fotografowanie w słabym świetle i agresywna redukcja szumów
Idrees Patel: Jedną rzeczą, o którą chciałem zapytać, była fotografia przy słabym oświetleniu. Podobnie jak w ciągu ostatnich kilku lat, pojawiło się wiele trybów nocnych [wdrożonych przez OEM], ale zauważyłem jedną rzecz: wielu producentów urządzeń wybiera agresywną redukcję szumów, która redukuje szczegóły do tego stopnia, że występuje nawet szum luminancji REMOVED.
Moje pytanie brzmi zatem, czy Qualcomm doradza jakimkolwiek producentom urządzeń, aby tego nie robili i czy jest to coś, co robią ich potoki przetwarzania, czy też wpływ na to ma dostawca usług internetowych w SoC.
Judda Heape’a: Wiele z tego ma związek z tuningiem i jeśli nie masz wieloklatkowego obiektywu, powiedziałbym, że nie jest dostępny bardzo dobry przetwornik obrazu o wysokiej czułości lub optyce o niskiej liczbie przysłony. Jednym ze sposobów pozbycia się szumu, zwłaszcza przy słabym oświetleniu, jest zastosowanie większej redukcji szumów, ale w przypadku zastosowania większej redukcji szumów następuje utrata szczegółów, w związku z czym ostre krawędzie stają się rozmazane. Teraz możesz się tego pozbyć, jeśli zastosujesz techniki wieloklatkowe. Lub jeśli zastosujesz techniki sztucznej inteligencji, które mogą określić, gdzie znajdują się krawędzie obiektów i twarzy, i tym podobne. Dlatego w dzisiejszych czasach stosowanie wyłącznie brutalnej redukcji szumów nie jest najlepszym rozwiązaniem, ponieważ kończy się to utratą szczegółów.
To, co chcesz zrobić, to zastosować techniki wieloklatkowe lub techniki sztucznej inteligencji, aby nadal móc zastosować szum redukcja do bardziej przypominających wewnętrzne obszary obiektów przy jednoczesnym zachowaniu ładnych, czystych krawędzi lub ostrych krawędziach obiekty. Oto, co powiedziałbym: użycie sztucznej inteligencji lub wielu klatek to najlepszy sposób na redukcję szumów i poprawę jakości zdjęć przy słabym oświetleniu.
Idrees Patel: Tak i właśnie to chciałem usłyszeć. [To] ponieważ to najważniejsza rzecz, która odróżnia świetne aparaty w smartfonach od aparatów średniej klasy lub budżetowych.
Judda Heape’a: Tak.
Idrees Patel: Świetne aparaty w smartfonach wiedzą, kiedy zastosować redukcję szumów, a kiedy nie.
Judda Heape’a: Dokładnie. Tak, i jak powiedziałem, strojeniem aparatu tak naprawdę zajmują się nasi klienci lub producenci OEM, a niektórzy producenci OEM wolą bardziej miękki obraz z mniejszymi szumami. Niektórzy wolą ujawnić więcej szczegółów, być może z nieco większym szumem.
Jest to zatem kompromis i dlatego istnieją ograniczenia. I tak jak mówiłem, najlepszą rzeczą do zrobienia jest zakup lepszego przetwornika obrazu o wyższej czułości, większe piksele lub optyka o niższej liczbie f, ponieważ wtedy od początku dostaje się więcej światła, tak jest zawsze lepsza. Jeśli jednak nie możesz tego zrobić, zamiast zwiększać redukcję szumów i tracić szczegóły, lepiej zastosować techniki wieloklatkowe lub sztuczną inteligencję.
Analiza i kontekst: To jest moim zdaniem obecnie największy problem z aparatami w smartfonach. Tak, możesz użyć czujnika 48 MP, 64 MP, a nawet 108 MP. Jeśli jednak nie zdecydujesz się na ograniczoną redukcję szumów za pomocą technik MFNR lub AI, wszystkie te megapiksele, segregowanie 4 w 1, a nawet 9 w 1, nie będą zbyt przydatne. Najlepszym przykładem jest tutaj Galaxy S20 Ultra z głównym aparatem o rozdzielczości 108 MP w dużej mierze uznano za rozczarowanie. Samsung cofnął się w przetwarzaniu obrazu, stosując niezwykle agresywną redukcję szumów w trybach nocnych w swoich flagowcach z roku 2020, podczas gdy seria Galaxy S10 z roku 2019, jak na ironię, miała lepszą jakość obrazu.
Judd ujawnia, że niektórzy producenci OEM faktycznie wolą bardziej miękki obraz z mniejszą ilością szumów, co jest zasadniczo złym wyborem. Strojenie dokonują producenci urządzeń, dlatego dwa telefony korzystające z tego samego czujnika i zasilane tym samym SoC mogą generować bardzo, bardzo różne zdjęcia. Należy mieć nadzieję, że ci producenci urządzeń nauczą się prawdy od swoich lepszych konkurentów. Podczas gdy Samsung pogubił się w tym roku w przetwarzaniu obrazu, OnePlus stanowi wyraźny kontrast. OnePlus 8 Pro to jeden z najlepszych aparatów w smartfonach na rynku, co jest znaczącym osiągnięciem, biorąc pod uwagę bardzo słabą wydajność aparatu OnePlus 5T w 2017 roku. Sposób myślenia o przetwarzaniu obrazu musi się zmienić, aby zdjęcia były ostre, niezależnie od tego, jak bardzo toczą się wojny megapikselowe.
Dekodowanie i kodowanie AV1
Miszaala Rahmana: Więc to trochę odbiega od innych dyskusji, które toczymy na temat jakości aparatu. Jedną z rzeczy, nad którą zastanawiają się niektórzy członkowie społeczności kodeków multimedialnych typu open source, jest to, kiedy Qualcomm będzie obsługiwał tę technologię Dekodowanie AV1 i ewentualnie kodowanie. Wiem, że to trochę naciągane, ale Google wymaga, aby telewizory 4K HDR i 8K z Androidem 10 obsługiwały dekodowanie AV1 i Netflix, Youtube, rozpoczynają wdrażanie filmów zakodowanych w formacie AV1. Wygląda więc na powolny wzrost liczby filmów zakodowanych w formacie AV1. Zastanawiamy się więc, kiedy przynajmniej obsługa dekodowania będzie dostępna w Spectrze.
Oświadczenie Qualcomma: Zgodnie z Twoim pytaniem na AV1 – nie mamy dzisiaj nic do ogłoszenia. Jednak obecnie Snapdragon umożliwia odtwarzanie plików AV1 za pomocą oprogramowania. Qualcomm zawsze współpracuje z partnerami nad kodekami nowej generacji w ramach tworzenia oprogramowania i sprzętu Snapdragon, lider kodeków HDR, obejmujący przechwytywanie i odtwarzanie w formatach HEIF, HLG, HDR10, HDR10+ i Dolby Wizja. Oczywiście zdajemy sobie sprawę, że zapewniamy naszym klientom najlepsze doświadczenia związane z kodekami, w tym obsługę wysokiej rozdzielczości i najniższej mocy, których wdrożenie w sprzęcie jest pożądane.
Nagrywanie wideo - kompensacja ruchu
Miszaala Rahmana: Więc nie wiem, czy Idrees ma jeszcze jakieś pytania, ale mam jedno pytanie dotyczące czegoś, co przeczytałem na szczycie Snapdragon Tech. Chodzi o rdzeń wideo z kompensacją ruchu. Słyszałem, że wprowadzono ulepszenia w silniku kompensacji ruchu, mające na celu redukcję szumów podczas nagrywania wideo. Zastanawiałem się, czy możesz rozwinąć, co dokładnie zostało ulepszone i co zostało zrobione.
Judda Heape’a: Silnik EVA (Engine for Video Analytics) został ulepszony poprzez dodanie bardziej gęstego rdzenia mapy ruchu, dzięki czemu EVA silnik, wiesz, na przykład zawsze patrzy na przychodzące wideo i ma tam rdzeń, który wykonuje ruch oszacowanie. Udało nam się sprawić, że ten rdzeń będzie znacznie dokładniejszy tam, gdzie robi to na poziomie niemal na piksel, a nie jak bardziej gruby poziom bloków, dzięki czemu uzyskujemy o wiele więcej wektorów ruchu z silnika EVA w Snapdragon 865 niż w poprzednim pokolenia. Oznacza to, że rdzeń wideo wykonujący kodowanie może wykorzystać te wektory ruchu, aby uzyskać więcej dokładne informacje na temat kodowania, ale dostawca usług internetowych po stronie kamery wykorzystuje te informacje również do wykrywania szumów zmniejszenie.
Jak wiadomo, od pokoleń mamy filtrowanie czasowe z kompensacją ruchu, które w rzeczywistości jest aktywną redukcją szumów podczas wideo, która uśrednia klatki w czasie, aby pozbyć się szumu.
Problem z tą techniką polega jednak na tym, że w scenie występuje ruch. Ruch kończy się po prostu odrzuceniem funkcji redukcji szumów, ponieważ nie można go obsłużyć lub zostaje rozmazany, a na poruszających się przedmiotach powstają brzydkie ślady i artefakty. Zatem filtrowanie czasowe z kompensacją ruchu, co robiliśmy w przeszłości, ponieważ nie mieliśmy tej gęstej mapy ruchu dla lokalnych motion – po prostu zajmowaliśmy się tylko przypadkami, gdy poruszałeś kamerą, jest to całkiem proste, ponieważ wszystko się porusza globalnie.
Ale jeśli coś kręcisz i obiekt porusza się W SCE, to co zrobiliśmy wcześniej [było to] po prostu zignorowaliśmy te piksele, ponieważ nie mogliśmy ich przetworzyć pod kątem szumu, ponieważ poruszał się lokalnie obiekt. Dlatego też, jeśli uśredniałeś klatka po klatce, obiekt znajdował się w innym miejscu w każdej klatce, więc nie mogłeś go tak naprawdę przetworzyć.
Ale na Snapdragonie 865, bo mamy gęstszą mapę ruchu i mamy możliwość patrzenia na wektory ruchu niemal na piksel w oparciu o piksel, jesteśmy w stanie przetwarzać lokalnie przesuwane piksele klatka po klatce w celu redukcji szumów, czego wcześniej nie mogliśmy. Wydaje mi się, że wspomniałem w przemówieniu o metryce. Nie pamiętam numeru (to było 40%) ale w przypadku większości filmów średnio duży odsetek pikseli można teraz przetworzyć pod kątem szumów, podczas gdy w poprzedniej generacji nie było to możliwe. Częściowo wynika to z umiejętności rozumienia ruchu lokalnego, a nie tylko ruchu globalnego.
Nagrywanie wideo - HDR
Idrees Patel: Kolejne pytanie, które mam, dotyczy wideo HDR. W tym roku widzę, że znacznie więcej producentów urządzeń oferuje nagrywanie wideo HDR10. Czy jest to więc coś, co było promowane w Snapdragonie 865, czy też jest tam od kilku pokoleń.
Judda Heape’a: Aha, więc kiedy rozmawialiśmy o tym na Tech Summit, mieliśmy HDR10, który jest standardem wideo dla HDR na strona koduje kamerę już od kilku pokoleń, jak sądzę, od Snapdragona 845 i stale się udoskonalamy To.
Dlatego w zeszłym roku mówiliśmy o HDR10+, czyli 10-bitowym nagrywaniu HDR, ale zamiast statycznych metadanych ma metadane dynamiczne, więc metadane rejestrowane przez kamerę podczas sceny jest nagrywany w czasie rzeczywistym, dzięki czemu podczas odtwarzania silnik odtwarzania rozpoznaje, czy było to ciemne, czy jasne pomieszczenie, i może to skompensować To.
W zeszłym roku na Tech Summit rozmawialiśmy także o przechwytywaniu Dolby Vision, które jest alternatywą Dolby dla HDR10+. Jest bardzo podobnie, gdy faktycznie generują również dynamiczne metadane. Dlatego dziś Snapdragon obsługuje wszystkie trzy formaty: HDR10, HDR10+ i przechwytywanie Dolby Vision. Tak naprawdę nie ma żadnych ograniczeń, nasi producenci OEM mogą wybrać dowolną preferowaną metodę. Klienci korzystają z HDR10 już od jakiegoś czasu, a w ubiegłym i tym roku coraz więcej klientów wybiera HDR10+. Myślę, że w przyszłości będzie można również zaobserwować przyjęcie technologii Dolby Vision Capture.
Więc tak, mocno to promowaliśmy. HDR jest dla nas bardzo ważny, zarówno po stronie migawki, jak i po stronie wideo. I tak jak powiedziałem, skupiliśmy się na formatach HDR10 i HDR10+, a teraz Dolby Vision, wiadomo, od Snapdragon 845, a teraz nawet ostatnio Snapdragon 865 dla Dolby Vision.
Miszaala Rahmana: Poza tym nie byłem pewien, czy jakikolwiek dostawca wdrożył już nagrywanie w formacie Dolby Vision, ale myślę, że to jest odpowiedź na to pytanie. [To] coś, co zobaczymy w przyszłości.
Judda Heape’a: Oczywiście – nie mogę komentować, którzy dostawcy są zainteresowani i tym podobne. To byłoby pytanie do Dolby; to ich funkcja, więc jeśli chcesz uzyskać więcej informacji na ten temat, sugeruję skontaktowanie się z Dolby. Jednak, o ile wiem, nie wypuszczono jeszcze żadnego telefonu wyposażonego w technologię Dolby Vision Capture.
Idrees Patel: Ponieważ potrzebujesz także wsparcia dotyczącego wyświetlania. Zauważyłem, że wyświetlacze smartfonów obsługują HDR10 i HDR10+, ale nie Dolby Vision.
Judda Heape’a: Właściwie, ale odtwarzanie Dolby Vision było w przeszłości obsługiwane przez Snapdragona. Może współpracować z danym wyświetlaczem, a wyświetlacz nie musi koniecznie spełniać żadnych określonych kryteriów, aby był zgodny z Dolby Vision, z wyjątkiem tego Dolby oceni wyświetlacz i upewni się, że ma on określoną gamę kolorów, gamma, określoną głębię bitową, określoną jasność i określony kontrast stosunek.
Więc wiesz, możesz kupić wyświetlacz HDR10, ale możesz też kupić telefon obsługujący Dolby Vision odtwarzania, ale Doby zakwalifikuje ten wyświetlacz, aby upewnić się, że jest zgodny z ich rygorystycznymi wymaganiami wymagania.
Współpraca z dostawcami oprogramowania: Imint, Morpho i Arcsoft
Miszaala Rahmana: Myślę, że mam tylko jedno pytanie, w związku z którym chcę przeprowadzić więcej badań. Jedna z firm, z którą ostatnio rozmawialiśmy, to miętowy. Niedawno zmodernizowali swoje Oprogramowanie do stabilizacji Vidhance Do współpracuje ze Spectrą 480. Wiem, że współpracujecie z wieloma firmami, które również korzystają ze Spectry 480 przy przetwarzaniu. Zastanawiam się, czy możesz ujawnić więcej przykładów tych technologii, które już posiadasz, lub partnerów, których masz nad tym pracowaliśmy, więc jest to] coś, nad czym moglibyśmy popracować, dowiedzieć się więcej o tym, jak Spectra 480 jest wykorzystywana w pole.
Judda Heape’a: Współpracujemy z wieloma dostawcami oprogramowania. Podobnie jak wspomnieliśmy w przeszłości, Dolby jest jednym z nich. Są inne, o których wspomniałeś, Imint/Vidhance dla EIS (elektroniczna stabilizacja obrazu). Wspomnieliśmy już wcześniej o Morpho i Arcsoft, z którymi również blisko współpracujemy.
Jeśli jednak z nimi współpracujemy, nasza polityka jest taka, że naprawdę chcemy bardzo blisko współpracować z niezależnymi dostawcami oprogramowania i zapewniać pewni, że niezależnie od tego, co robią w oprogramowaniu, będą w stanie wykorzystać sprzęt Snapdragon, aby uzyskać najniższe zużycie energii możliwy.
Dlatego jedną z rzeczy, które robimy z tymi dostawcami, jest upewnienie się, że mają naprawdę dobry dostęp do silnika HVX lub rdzenia Hexagon DSP. Używają także silnika EVA do uzyskiwania wektorów ruchu i używania sprzętu oraz silnika EVA do manipulacji obrazem, dzięki czemu mogą wykonywać przesuwanie, translację i usuwanie zniekształceń obrazu i tym podobne rzeczy na sprzęcie, zamiast używać do tego procesora graficznego To.
Dlatego naprawdę blisko współpracujemy z tymi niezależnymi dostawcami oprogramowania, zwłaszcza z tymi, o których wspomniałem, aby mieć pewność, że nie tylko poświęcają wszystko i oprogramowanie w procesorze, ale używają takich rzeczy, jak DSP i akceleratory sprzętowe w EVA, aby uzyskać lepszą wydajność i niższy pobór mocy konsumpcja. Jest to więc również dla nas bardzo ważne, ponieważ zapewnia naszym klientom najlepszą możliwą kombinację funkcji i zużycia energii.
[Komentarze końcowe Judda]: Chciałem tylko powiedzieć, dziękuję za wszystkie naprawdę dobre pytania. Są naprawdę szczegółowe. Pracuję w Qualcomm od około trzech lat i patrzę na naszą przeszłość, nawet poza moją kadencję tutaj, gdzie wcześniej zaczynaliśmy od Spectry Snapdragon 845, naprawdę ciężko pracowaliśmy, aby radykalnie ulepszyć dostawcę usług internetowych i kamerę, a także ogólne wrażenia w ciągu ostatnich kilku lata. Jestem naprawdę podekscytowany tym, co przyniesie przyszłość. Jestem podekscytowany tym, co ogłosimy podczas przyszłych Szczytów Technologicznych, o co będziecie mogli pytać i o czym pisać. [Spectra Camera] to prawdopodobnie, moim zdaniem, jedna z najbardziej ekscytujących technologii w Qualcomm.
Końcowe przemyślenia
Wspaniale było porozmawiać z Juddem na temat wkładu Qualcomma w fotografię smartfonów. Możemy mieć mieszane uczucia co do firmy i jej systemu licencjonowania patentów, ale piętno Qualcomma na branży smartfonów jest odczuwalne przez wszystkich, niezależnie od tego, czy mowa o patenty, 4G i 5G, Wi-Fi, procesory graficzne Adreno, dostawcy usług internetowych Spectra i same chipy Snapdragon, które w dużej mierze uważane są za złoty standard w smartfonach z Androidem rynek.
W fotografii smartfonowej wciąż istnieje wiele problemów, które należy rozwiązać, ale przyszłość już taka jest tak jasny, jak Qualcomm obiecuje, że dokona dalszych postępów w rozległych, rozwijających się obszarach ML, które napędzają sztuczna inteligencja Zobaczmy, co Qualcomm ma do ogłoszenia w tym zakresie na kolejnym Snapdragon Tech Summit.