Judd Heape von Qualcomm erklärt, wie Qualcomm das Kameraerlebnis auf Android-Telefonen mit neuen Funktionen in seinen Spectra-ISPs verbessert.
Als Hersteller von System-on-Chips (SoCs), die einen Großteil der Smartphones und Wearables der Welt antreiben, ist das in den USA ansässige Unternehmen Qualcomm zweifellos einer der Giganten der Chipherstellerbranche. Die Snapdragon-SoC-Reihe wird beispielsweise von fast allen großen Android-Geräteherstellern für Flaggschiff-, Mittelklasse- und Budget-Smartphones verwendet. Qualcomm erhält jedes Jahr auf dem jährlichen Tech Summit des Unternehmens Lob für Fortschritte in den Bereichen CPU, GPU und KI, da das Unternehmen die neuen CPU-Mikroarchitekturen von ARM integriert und ergänzt sie durch jährliche Verbesserungen seiner benutzerdefinierten GPUs. Die Fortschritte im Kamerabereich werden jedoch nicht so sehr wahrgenommen, da sie eher unterschätzt werden Radar.
Dies bedeutet jedoch nicht, dass Qualcomms Arbeit an Smartphone-Kameras unwichtig ist. Im Gegenteil, die Spectra-ISPs von Qualcomm in seinen Snapdragon-SoCs tragen dazu bei, dass viele moderne Smartphone-Kameras mit mehr Leistung möglich werden Rechenleistung, Funktionen wie 8K-Videoaufzeichnung, HDR10-Video, Unterstützung für QCFA-Kameras mit hohen Megapixeln und vieles mehr mehr. Qualcomm hat den Spectra 380 ISP im Snapdragon 855 beworben
war der weltweit erste CV-ISP, und es hat die weltweit ersten 4K-HDR-Videoaufzeichnungsfunktionen beworben, die nun selbst durch 4K-HDR10+-Videoaufzeichnung der 2. Generation ergänzt wurden. Der Spectra 480 ISP der neuesten Generation Löwenmaul 865 ist äußerst leistungsfähig – er kann zwei Gigapixel pro Sekunde verarbeiten, was einer Steigerung von 40 % gegenüber seinem Vorgänger entspricht. Es handelt sich um ein geistiges Eigentum (IP), das Qualcomm von seinen Konkurrenten im Bereich der Anbieter mobiler Chips unterscheidet.Während Qualcomm die meisten Schlagzeilen in seinen Pressemitteilungen und Produkt-Keynotes erklärt, ist dies der Fall Bisher hatten Verbraucher keine Gelegenheit, die meisten einfachen Details zu kennen, die diese Dinge ausmachen arbeiten.
Aus diesem Grund haben wir von XDA Developers gerne das Angebot angenommen, mit Judd Heape, Senior Director, Product Management bei Qualcomm, zu sprechen. Der Chefredakteur von XDA, Mishaal Rahman, und ich hatten im Juni 2020 ein Interview mit Judd, um zu erfahren und zu sehen, wie Qualcomm mit Smartphone-Fotografie und Videoaufzeichnung neue Maßstäbe setzt. Wir sprachen über Themen wie KI-Bildverarbeitung, Multi-Frame-Rauschunterdrückung (MFNR), AV1, Dolby Vision-Videoaufzeichnung, Pixel-Binning in High-Megapixel-Kameras und vieles mehr. Werfen wir einen Blick auf Judds Erkenntnisse zu jedem Thema einzeln:
Arbeitslasten bei der KI-Bildverarbeitung
Mischaal Rahman: Ich beginne mit einem von denen, die Idrees hatte, was interessant ist und mich auch interessiert hat. Wir fragen uns also, welche KI-Bildverarbeitungs-Workloads Qualcomm im Spectra ISP verwendet und inwieweit sie von Geräteherstellern anpassbar sind.
Judd Heape: Ja, wir schauen uns also viele KI-Workloads an und es gibt einige KI, die im ISP selbst ausgeführt werden können wie zum Beispiel unsere nächste Generation 3A: Automatische Belichtung, automatischer Weißabgleich und Autofokus sind KI basierend.
Aber wir schauen uns auch einige andere KI-Workloads an, die außerhalb des ISP in einem der anderen Rechenelemente laufen würden. Wir schauen uns also insbesondere Dinge an wie: Wir haben einen KI-basierten Rauschunterdrückungskern, der extern vom ISP im KI-Engine-Teil (AIE) des Chips läuft.
Außerdem haben wir Dinge wie die Gesichtserkennung, eine vollständige Deep-Learning-Engine, die ebenfalls im AIE-Komplex läuft, aber natürlich die Kamera unterstützt. Und neben der Gesichtserkennung und Rauschunterdrückung arbeiten wir noch an anderen Dingen; Wir erwägen auch Dinge wie eine automatische Anpassung von Schnappschüssen mithilfe von KI, die automatisch eingestellt wird Parameter pro Szene basierend auf HDR-Inhalten, die wir verarbeiten würden, um Schatten, Lichter, Farben und dergleichen zu modifizieren Ding.
Einer unserer Partner, Morpho, hat dieses Jahr beim Embedded Vision Summit einen großen AI-Workload-Award gewonnen. Unabhängige Softwareanbieter-Partner verfügen auch über viele wirklich intensive KI-basierte Algorithmen, die von reibungslosen Kameras reichen können Übergang, wie es Arcsoft tut (das habe ich auf dem letzten Snapdragon Tech Summit erwähnt, der auf KI basiert), zur semantischen Segmentierung von Morpho Motor. Morphos Lösung ist eine KI-Engine, die verschiedene Teile der Szene versteht, wie Sie wissen, Stoff vs. Haut vs. Himmel und Gras usw Gebäude und so etwas und dann kann der ISP diese Informationen nehmen und diese Pixel unterschiedlich für Textur, Rauschen und Farbe verarbeiten Beispiel.
Aussage von Qualcomm: Für ML & AI kündigen wir heute auch keine neuen Updates für die Funktionen Gesichtserkennung und „3A“ (AE, AF und AWB) an. Wie Judd jedoch sagte, sind wir bestrebt, in Zukunft mehr ML/KI-Fähigkeiten in die Kamera zu integrieren, einschließlich dieser beiden Funktionsbereiche.
Analyse und Kontext: KI in Smartphones gilt weitgehend als Schlagwort, seit die ersten neuronalen Verarbeitungseinheiten (NPUs) und „KI-basierten“ Funktionen in Android-Telefonen Einzug hielten. Das bedeutet jedoch nicht, dass KI selbst bedeutungslos ist. Im Gegenteil, KI hat im Mobilbereich großes Potenzial, so dass Chiphersteller und Gerätehersteller bisher nur an der Oberfläche dessen kratzen, was möglich ist.
Dank KI sind Smartphone-Kameras besser geworden – manchmal schnell, manchmal quälend langsam, aber sie sind auf dem besten Weg. Smartphone-Kameras überwinden grundlegende Einschränkungen wie relativ kleinere Sensoren, behoben Brennweiten und schlechtere Optiken mit intelligenter Computerfotografie, die auf maschinellem Lernen basiert (ML). Automatische Belichtung, Rauschunterdrückung, Gesichtserkennung und Segmentierung sind nur einige der Bereiche, in denen KI in der Smartphone-Fotografie Wirkung zeigen konnte. In den nächsten fünf Jahren werden diese aufstrebenden Bereiche der KI, die verschiedene Aspekte der Fotografie verbessern, stark reifen.
Rauschunterdrückung bei mehreren Bildern
Idrees Patel: Qualcomm hat die Rauschunterdrückung bei mehreren Frames als Funktion erwähnt. Ich würde gerne mehr darüber erfahren, wie das Stapeln von Bildern funktioniert. Ist es in irgendeiner Weise mit dem vergleichbar, was Google mit seiner HDR+-Technologie macht, oder ist es völlig anders?
Judd Heape: Es ist ähnlich, aber anders. Stellen Sie sich vor, die Kamera macht eine Serienaufnahme und nimmt fünf bis sieben Bilder schnell hintereinander auf. Dann wirft die ISP-Engine einen Blick auf diese Frames und wählt den besten (den sogenannten „Anker-Frame“) aus Fokus und Klarheit und dann kann es 3-4 Bilder auf beiden Seiten dieses Bildes auswählen und dann alle mitteln zusammen. Es wird versucht, Bilder auszuwählen, die nahe genug beieinander liegen, sodass es nur sehr wenig Bewegung gibt.
Und wenn es sich auf diese Frames einstellt, werden sie gemittelt, um zu erkennen, was sich unterscheidet, zum Beispiel, was tatsächliche Bilddaten und was Rauschdaten sind. Wenn Sie also immer mehr Informationen aus immer mehr Frames haben, können Sie tatsächlich einfache Dinge tun, wie zum Beispiel die Unterschiede zwischen den Frames betrachten. Bei den Unterschieden handelt es sich wahrscheinlich um Rauschen, wohingegen es sich bei den gleichen Bildern wahrscheinlich um Bilddaten handelt.
So können wir diese Echtzeit-Frame-Kombination durchführen, um das Rauschen zu reduzieren. Jetzt können Sie das Gleiche auch bei schlechten Lichtverhältnissen und HDR tun, und das ist dem, was Google wahrscheinlich macht, sehr ähnlich. Wir sind nicht in ihren Algorithmus eingeweiht. Aber sie verwenden Multi-Frame-Techniken, um die Empfindlichkeit zu erhöhen, damit Sie besser „sehen“ können; Sobald Sie das Grundrauschen reduziert haben, können Sie nun eine stärkere lokale Tonzuordnung vornehmen oder dem Bild Verstärkung hinzufügen, ohne mehr Rauschen hinzuzufügen.
So kommen sie sowohl mit schwachem Licht als auch mit HDR zurecht. Verbesserungen an der Multi-Frame-Rauschunterdrückungsfunktion werden von Qualcomm kommen, die auch Low Light und HDR umfassen wird. Aber das ist etwas, was wir in Kürze einführen werden.
Mischaal Rahman: Sie haben also erwähnt, dass diese Funktion in Kürze eingeführt wird. Kommt das wie eine Aktualisierung des BSP für Partner?
Judd Heape: Bei unseren Produkten der nächsten Generation werden wir durch eine Software-Ergänzung die Möglichkeit haben, mit der nächsten Generation zu interagieren – eigentlich passiert das gerade jetzt Generationsprodukte – wir arbeiten derzeit mit Kunden zusammen, um mehr Multi-Frame-Techniken über die Rauschunterdrückung hinaus zu entwickeln, aber auch HDR und Low-Light zu bewältigen Situationen. Es verwendet die gleiche Basis-ISP-HW-Engine, aber wir fügen mehr Software hinzu, um diese Multiframes zu verarbeiten, und zwar nicht nur zur Rauschunterdrückung.
Es handelt sich also noch nicht um etwas, das bereits eingeführt wurde, aber wir sprechen mit einigen wichtigen Hauptkunden über diese Funktionen.
Analyse und Kontext: Mit jeder neuen Snapdragon-SoC-Ankündigung enthält die Spezifikationstabelle von Qualcomm Spezifikationen zur Multi-Frame-Rauschunterdrückung. Der Snapdragon 865 zum Beispiel mit seinen dualen 14-Bit-CV-ISPs unterstützt bis zu einer hypothetischen 200-MP-Einzelkamera (obwohl Kamerasensorhersteller wie Sony, Samsung und OmniVision noch keinen Smartphone-Kamerasensor über 108 MP herausgebracht haben). Wenn es jedoch um die Unterstützung einzelner Kameras mit MFNR, Zero Shutter Lag (ZSL) und 30-fps-Unterstützung geht, ist die Die Spezifikation ändert sich auf 64 MP, und für Dual-Kameras mit denselben Spezifikationen ändert sich die Spezifikation auf 25 MP.
Die Multi-Frame-Rauschunterdrückung von Qualcomm ist HDR+ sehr ähnlich, aber nicht ganz dieselbe, wie Judd oben erklärt hat. Während HDR+ eine Reihe unterbelichteter Belichtungen aufnimmt und diese mittelt, um das beste Foto zu erhalten, nimmt MFNR fünf bis sieben normale Bilder auf. Es scheint, dass Qualcomms MFNR nicht so fortschrittlich ist wie Googles Lösung, da HDR und Low Light derzeit nicht als besondere Prioritäten erwähnt werden Workflow für Spectra, während Googles HDR+ gleichzeitig auf HDR, Low-Light-Fotografie und Rauschunterdrückung abzielt, wobei Night Sight noch einen Schritt weiter geht weiter. Es ist jedoch ermutigend zu erfahren, dass MFNR Verbesserungen erhält und Qualcomm diese Verbesserungen „einigen wichtigen Kunden“ zur Verfügung stellen wird. In Zukunft werden wir möglicherweise keine inoffiziellen Google-Kamera-Ports mehr benötigen, um das volle Potenzial von Android-Smartphone-Kameras, die nicht von Google stammen, auszuschöpfen.
Super Auflösung für Videos
Mischaal Rahman: Also etwas, das ich auf dem Tech Summit gehört habe. Eigentlich glaube ich, dass es so war im Interview mit Android-Autorität. Ist, dass Qualcomm plant, Super Resolution auf Video als Softwarelösung für Partner auszudehnen, und dass dies offenbar in einem Update eingeführt wird? Ich frage mich, ob Sie Neuigkeiten zu dieser Funktion mitteilen möchten.
Judd Heape: Ja, das ist also eine Funktion, die wir schon seit einiger Zeit nutzen können und die gerade erst eingeführt wird. Ich würde nicht sagen, dass es sich um ein Software-Update handelt, aber ich würde sagen, dass es so etwas wie ein zusätzlicher Vorteil der vorhandenen Multi-Frame-Funktion bei schlechten Lichtverhältnissen ist. Wir arbeiten bezüglich dieser Funktion mit einigen spezifischen Hauptkunden zusammen. Also ja, Video-Superauflösung ist etwas in einer anderen Generation oder wir werden es als das haben, was wir haben Rufen Sie eine Plan-of-Record-Funktion auf, bei der sie tatsächlich in die Software-Codebasis für [die] integriert ist. Kamera. Aber im Moment geht es eher um die konkrete Kundeninteraktion für diese neue Funktion.
Analyse und Kontext: Superauflösung für Videos ist eine Funktion, die bisher in Smartphone-Kameras nicht verfügbar war. Es ist so ein neues Feld Es werden immer noch Forschungsarbeiten darüber geschrieben. Die Verwendung von Multi-Frame-Techniken für die Fotografie ist eine Sache, aber sie für Videos zu verwenden, um das Video auf eine höhere Auflösung zu skalieren, ist eine ganz andere Sache. Qualcomm gibt an, die Funktion erneut für „einige wichtige Kunden“ bereitzustellen, sie sei jedoch derzeit nicht in die Software-Codebasis der Kamera integriert. In Zukunft wird es möglicherweise für jedermann verfügbar sein, aber im Moment ist es eine Funktion, die Endverbraucher noch nicht einmal nutzen können.
Quad-Bayer-Sensoren mit hoher Megapixelzahl
Idrees Patel: Reden wir über Quad-Bayer-Sensoren. Seit 2019 verfügen viele Telefone über 48MP-, 64MP- und jetzt sogar 108MP-Sensoren. Dies sind Quad-Bayer-Sensoren; Sie haben nicht wirklich eine echte Farbauflösung von 48, 64 oder 108 MP. Eine Sache, die ich fragen wollte, war, wie sich der ISP in Bezug auf die Bildverarbeitung für diese Quad Bayer oder Nona unterscheidet Bayer-Sensoren (4-in-1- oder 9-in-1-Pixel-Binning) im Vergleich zu herkömmlichen Sensoren, die über kein Pixel verfügen Klasseneinteilung.
Judd Heape: Ja, der Vorteil dieser Quad-CFA-Sensoren (Quad Color Filter Array) ist natürlich die Fähigkeit, bei hellem Licht zu arbeiten sie mit voller Auflösung, und dann kann der ISP sie mit vollen 108 Megapixeln oder 64 Megapixeln oder was auch immer verarbeiten verfügbar.
In den meisten Beleuchtungssituationen, beispielsweise in Innenräumen oder bei Dunkelheit, müssen Sie jedoch eine Klassifizierung vornehmen, da die Sensorpixel so klein sind, dass Sie Pixel kombinieren müssen, um eine bessere Lichtempfindlichkeit zu erzielen. Daher würde ich sagen, dass die meiste Zeit, insbesondere wenn Sie Videos aufnehmen oder sich für Schnappschüsse bei schlechten Lichtverhältnissen befinden, im Binned-Modus ausgeführt wird.
Jetzt kann der ISP den Sensor in beide Richtungen verarbeiten. Sie können den Sensor im Binned-Modus betrachten, in dem dann nur ein normales Bayer-Bild eingeht, oder Sie können ihn im Vollauflösungsmodus betrachten, in dem die eingehenden Daten Quad-CFA sind. Und wenn es sich in diesem Modus befindet, konvertiert der ISP es in Bayer.
Wir machen also das, was wir „Remosaicing“ nennen. Dabei wird das Quad-CFA-Bild etwas interpoliert, damit es wieder wie Bayer in voller Auflösung aussieht. Und das geschieht normalerweise in Software für Schnappschüsse, obwohl wir diese Funktion irgendwann in die Hardware integrieren werden, um auch Videos zu unterstützen.
Was heute in der ISP-Hardware steckt, ist Binning. Sie können also den Sensor einsortieren und den Sensor tatsächlich entscheiden lassen, ob er die volle oder ein Viertel- oder 1/9-Auflösung ausgeben soll, oder Sie können den ISP einsortieren. Und das ist tatsächlich eine Funktion, die wir im Snapdragon 865 hinzugefügt haben. Wenn Sie also den ISP einsortieren und dann den Sensor mit voller Auflösung betreiben, hat der ISP die Möglichkeit, gleichzeitig das Bild in voller Auflösung und das zusammengefasste Bild zu haben. Daher kann das Bild mit der kleineren Auflösung oder dem „gebündelten“ Bild für Video (Camcorder) und Vorschau (Sucher) verwendet werden und gleichzeitig das Bild mit voller Auflösung für Schnappschüsse in voller Größe verwendet werden.
Aber auch das wäre bei hellen Lichtverhältnissen der Fall. Aber wenn Sie den ISP einbeziehen, haben Sie zumindest die Möglichkeit, sowohl das große als auch das kleine Bild gleichzeitig zu verwalten Gleichzeitig können Sie Videos und Schnappschüsse gleichzeitig aufnehmen und gleichzeitig die volle Auflösung erhalten ZSL; Und das alles, ohne den Sensor zeitaufwändig hin- und herwechseln zu müssen.
Das ist eine wirklich gute Funktion. Und als Quad-CFA-Sensoren und sogar, wie Sie wissen, kommen die 9x-Sensoren und vielleicht sogar noch mehr heraus, und mit der Zeit werden diese Sensoren noch mehr allgegenwärtig – wir versuchen immer mehr, diese Sensoren in der Hardware zu handhaben, nicht nur für das Binning, sondern auch für Neumosaikierung.
Der Vorteil davon besteht also darin, dass Sie die Kosten reduzieren, wenn Sie dies in der Hardware statt in der Software tun Latenz für Ihre Kunden und daher werden Ihre Schuss-zu-Schuss-Zeiten und Ihre Burst-Raten viel schneller. Während wir also mit neuen ISPs und neuen Chips voranschreiten, werden Sie viel mehr von dem sehen, was wir für diese neuen Arten von Sensoren tun, die in Hardware integriert werden.
Analyse und Kontext: Huawei war das erste Unternehmen, das einen 40-MP-Quad-Bayer-Sensor verwendet hat Huawei P20 Pro im Jahr 2018, und die Popularität von Quad-Bayer-Sensoren war so groß, dass sie mittlerweile sogar auf 150-Dollar-Telefonen mit Snapdragon-/Exynos-/MediaTek-Chips Einzug gehalten hat. Insbesondere haben wir gesehen, dass die Smartphone-Branche 48-MP- und 64-MP-Kameras als optimale Lösung anstrebt, während einige Telefone sogar bis zu 108 MP bieten. Quad-Bayer- und Nona-Bayer-Sensoren kommen nicht ohne Nachteile daher, da ihre volle Auflösung mit Vorbehalten verbunden ist.
Aus Marketinggründen klingt ein 48-MP-Sensor jedoch viel besser als ein 12-MP-Sensor, selbst wenn der Benutzer ohnehin die meiste Zeit 12-MP-Pixel-Binned-Fotos macht. Ein 48-Megapixel-Sensor sollte theoretisch bei schlechten Lichtverhältnissen zu besseren 12-Megapixel-Binned-Fotos führen als ein herkömmlicher 12-Megapixel-Sensor Sensor, aber die Bildverarbeitung muss mithalten, und wie ich weiter unten erwähne, ist es noch ein langer Weg bis dahin passieren. Unabhängig davon war es interessant zu sehen, wie der Spectra ISP mit Quad-Bayer-Sensoren mit Remosaicing umgeht. In diesen Sensoren und Telefonen wie dem OnePlus 8 Pro (das einen Sony IMX689 Quad Bayer-Sensor mit großen Pixeln verwendet) steckt viel Potenzial. sind derzeit an der Spitze der Smartphone-Kameras.
ML-basierte Gesichtserkennung
Mischaal Rahman: Ich denke, Sie hatten vorhin erwähnt, dass die ML-basierte Gesichtserkennung im Spectra 480 unterstützt wird. Das habe ich tatsächlich auf dem Tech Summit gehört. [Dass dies] eine der Verbesserungen vom 380 zum 480 ist; dass es Teil davon ist – es gibt einen neuen objektiven Erkennungsblock in der Videoanalyse-Engine, der künftig für die räumliche Erkennung verwendet wird.
Können Sie näher darauf eingehen, wie sehr dies die Gesichtserkennung verbessert und welche potenziellen Anwendungen es Ihrer Meinung nach von Anbietern nutzen wird?
Judd Heape: Ja, eigentlich sind Sie also genau richtig im Bereich „Embedded Computer Vision“, dem „EVA“-Block, über den wir auf dem Tech Summit gesprochen haben. Darin ist ein allgemeiner Objekterkennungskern enthalten, den wir verwenden, wenn die Kamera läuft, um Gesichter zu erkennen. Die Techniken in diesem Block sind eher traditionelle Techniken, daher erfolgt die Objekterkennung mit traditionellen Techniken Klassifikatoren, aber darüber hinaus läuft bei uns eine Software-Engine, um die Genauigkeit tatsächlich zu verbessern Block.
Deshalb verwenden wir ML-basierte Software, um die Fehlalarme herauszufiltern, da die Hardware möglicherweise mehr Dinge als Gesichter in der Szene erkennt, die ML-Software jedoch B. sagen: „Okay, das ist ein Gesicht“ oder „Das ist wirklich kein Gesicht“, und so wird die Genauigkeit um ein paar Prozentpunkte erhöht, indem dieser ML-Filter darüber ausgeführt wird Hardware.
Ich habe viele Dinge über die Zukunft erwähnt. Für die Zukunft planen wir auch, die eigentliche Gesichtserkennung selbst in ML oder im Deep-Learning-Modus in Software auszuführen. Dies gilt insbesondere für die unteren Ebenen, sodass wir beispielsweise in einer Ebene, in der wir nicht über die EVA-Hardware-Engine verfügen, mit der schrittweisen Einführung von Deep Learning beginnen werden als Erkennung, die in der KI-Engine des Chips ausgeführt wird, und später haben wir in den oberen Ebenen der 700-800-Ebenen die EVA-Hardware, um dies zu tun ...
Generell möchte ich jedoch sagen, dass wir uns bei der Gesichtserkennung mehr auf ML-Ansätze konzentrieren werden, und das würde mittelfristig sowohl Software als auch später Hardware umfassen. Ich werde nicht verraten, welche Produkte damit ausgestattet sein werden, aber natürlich werden wir im Zuge der Weiterentwicklung des ISP immer mehr Hardwarefunktionen für ML hinzufügen, ganz sicher.
Mischaal Rahman: Eindrucksvoll. Nun, ich denke, es ist eine Selbstverständlichkeit, dass die Richtung, die Sie einschlagen, darin besteht, die Verbesserungen des maschinellen Lernens der 800er-Serie auf die untere Ebene zu bringen, also denke ich, dass das im Allgemeinen eine Selbstverständlichkeit ist. Aber dazu können Sie uns natürlich keine konkreten Angaben machen. Danke für das Update.
Judd Heape: Gesichtserkennung ist etwas, das uns sehr am Herzen liegt. Wir wollen diese Genauigkeiten von Generation zu Generation in allen Ebenen verbessern, von der 800er- bis zur 400er-Ebene. ML ist ein großer Teil davon.
Analyse und Kontext: Diese Aspekte verleihen der Smartphone-Fotografie sogar gegenüber den neuesten spiegellosen Kameras so viel mehr Potenzial. Ja, die spiegellosen Kameras haben eine bessere Bildqualität bei schlechten Lichtverhältnissen und sind viel flexibler, aber Smartphone-Kameras überwinden ihre Grenzen auf raffinierte Weise. Die ML-basierte Gesichtserkennung ist nur ein Teil davon.
Verbesserungen in der Bildverarbeitungs-Engine
Mischaal Rahman: Eindrucksvoll. Eines der Dinge, die ich während der Diskussionsrunden nach dem Snapdragon Tech Summit kurz gehört habe, war eine Verbesserung der Bildverarbeitungs-Engine. Ich habe gehört, dass es eine verbesserte Rauschunterdrückung im unteren Mittelfrequenzbereich oder LEANR gibt. Und dass Sie eine dynamische Reverse-Gain-Map anwenden; Ist das etwas, was Sie zuvor im Gespräch erwähnt haben?
Judd Heape: Oh, in Ordnung. Ich denke also, dass Sie zwei Dinge miteinander vermischen. Ja, es gibt also den LEANR-Kern, der an der Rauschunterdrückung bei gröberem Korn arbeitet, was bei schlechten Lichtverhältnissen hilfreich ist. Das ist ein neuer Block, der in Snapdragon 865 dem ISP hinzugefügt wurde, und das ist eine Sache.
Die Reverse-Gain-Map ist etwas anderes. Das habe ich auch schon bei den Gesprächsrunden erwähnt, aber es geht darum, die Effekte der Linsenabschattung umzukehren. Wie Sie wissen, wenn Sie ein Mobiltelefon mit einem kleinen Objektiv haben; Die Mitte des Objektivs wird hell sein und die Ränder werden stärker vignettiert. Das heißt, sie werden dunkler.
Und so haben wir in den vergangenen Jahren beim ISP eine statische Reverse-Gain-Map angewendet, um diese dunklen Kanten zu beseitigen. Und das gibt es schon seit geraumer Zeit beim ISP. Was wir jedoch in Snapdragon 865 hinzugefügt haben, ist die Möglichkeit, dass sich diese Verstärkungskarte je nach Bildrahmen dynamisch ändert, wenn Sie viele Verstärkungen auf die Kanten anwenden Was passiert, ist, dass die Kanten abgeschnitten werden können, insbesondere wenn Sie draußen helle Lichtszenen betrachten, z. B. kann der blaue Himmel weiß werden oder die Kanten werden aufgrund von viel Licht abgeschnitten gewinnen.
Beim Snapdragon 865 ist diese Reverse-Gain-Map also nicht statisch; es ist dynamisch. Also schauen wir uns das Bild an und sagen: „Okay, diese Teile des Bildes werden abgeschnitten, und das sollten sie nicht sein“, damit wir loslegen können Sie können die Gain-Map auf natürliche Weise deaktivieren, damit Sie durch die Korrektur des Objektivs keine hellen Ränder oder Halo-Effekte oder ähnliches bekommen Schattierung. Das ist also etwas anderes als die Rauschunterdrückung, und es handelt sich um zwei verschiedene Kerne.
Fotografie bei schwachem Licht und aggressive Rauschunterdrückung
Idrees Patel: Eine Sache, nach der ich fragen wollte, war die Fotografie bei schlechten Lichtverhältnissen. Wie in den letzten Jahren gab es viele [OEM-implementierte] Nachtmodi, aber eines ist mir aufgefallen Viele Gerätehersteller setzen auf eine aggressive Rauschunterdrückung, die die Details so weit reduziert, dass das Luminanzrauschen ausgeglichen wird ENTFERNT.
Meine Frage ist also, ob Qualcomm allen Geräteherstellern davon rät, dies zu tun, und ob es etwas ist, was ihre Verarbeitungspipelines tun, oder ob es etwas ist, das vom ISP im SoC beeinflusst wird.
Judd Heape: Vieles davon hat mit der Abstimmung zu tun, und wenn man kein Multiframe hat, oder ich würde sagen, einen sehr guten Bildsensor, mit hoher Empfindlichkeit oder Optiken mit niedrigen Blendenzahlen, ist das nicht möglich. Eine Möglichkeit, das Rauschen insbesondere bei schlechten Lichtverhältnissen zu beseitigen, besteht darin, eine stärkere Rauschunterdrückung anzuwenden. Wenn Sie jedoch eine stärkere Rauschunterdrückung anwenden, gehen Details verloren, sodass scharfe Kanten unscharf werden. Mit diesen Multi-Frame-Techniken können Sie das vermeiden. Oder wenn Sie KI-Techniken anwenden, die irgendwie herausfinden können, wo sich Kanten von Objekten und Flächen befinden, und so etwas in der Art. Heutzutage ist es also nicht mehr die richtige Lösung, nur mit roher Gewalt Rauschunterdrückung zu betreiben, weil dabei am Ende Details verloren gehen.
Sie möchten Multi-Frame-Techniken oder KI-Techniken anwenden, damit Sie weiterhin Rauschen anwenden können Reduzierung auf eher innere Bereiche von Objekten unter Beibehaltung schöner, sauberer oder scharfer Kanten Objekte. Das würde ich also sagen: Die Verwendung von entweder KI oder Multi-Frame ist der Weg, um die Rauschunterdrückung zu erreichen und die Bilder bei schlechten Lichtverhältnissen in Zukunft zu verbessern.
Idrees Patel: Ja, und genau das wollte ich hören. [Es liegt] daran, dass dies das Hauptmerkmal ist, das großartige Smartphone-Kameras von Kameras der Mittel- oder Budgetklasse unterscheidet.
Judd Heape: Ja.
Idrees Patel: Hervorragende Smartphone-Kameras wissen, wann sie die Rauschunterdrückung anwenden müssen und wann nicht.
Judd Heape: Genau. Ja, und wie gesagt, die Kameraabstimmung wird wirklich von unseren Kunden oder OEMs vorgenommen, und einige OEMs bevorzugen ein weicheres Bild mit weniger Rauschen. Manche bevorzugen es, mehr Details mit vielleicht etwas mehr Rauschen preiszugeben.
Es handelt sich also um einen Kompromiss und es gibt Einschränkungen. Und wie gesagt, das Beste, was man tun kann, ist, sich einen besseren Bildsensor mit höherer Empfindlichkeit anzuschaffen. Größere Pixel oder eine Optik mit niedrigerer Blendenzahl, denn dann kommt von Anfang an mehr Licht rein, das ist immer der Fall besser. Wenn Ihnen das aber nicht gelingt, dann sollten Sie, statt einfach nur die Rauschunterdrückung zu erhöhen und Details zu verlieren, auf Multi-Frame- oder KI-Techniken zurückgreifen.
Analyse und Kontext: Das ist meiner Meinung nach derzeit das größte Problem bei Smartphone-Kameras. Ja, Sie können einen 48MP- oder 64MP- oder sogar einen 108MP-Sensor verwenden. Wenn Sie sich jedoch nicht für eine zurückhaltende Rauschunterdrückung mit MFNR- oder KI-Techniken entscheiden, nützen all diese Megapixel, das 4-in-1-Binning und sogar das 9-in-1-Binning nicht viel. Das Galaxy S20 Ultra ist hier mit seiner 108-MP-Hauptkamera das beste Beispiel wurde größtenteils als Enttäuschung empfunden. Samsung hat bei der Bildverarbeitung Rückschritte gemacht und in den Nachtmodi seiner 2020-Flaggschiffe eine extrem aggressive Rauschunterdrückung eingesetzt, während die Galaxy S10-Serie 2019 ironischerweise eine bessere Bildqualität aufwies.
Judd verrät, dass einige OEMs tatsächlich ein weicheres Bild mit weniger Rauschen bevorzugen, was grundsätzlich die falsche Wahl ist. Die Abstimmung wird von den Geräteherstellern vorgenommen und daher können zwei Telefone, die denselben Sensor verwenden und mit demselben SoC betrieben werden, sehr, sehr unterschiedliche Fotos ausgeben. Es bleibt zu hoffen, dass diese Gerätehersteller von ihren leistungsstärkeren Konkurrenten die Wahrheit erfahren. Während Samsung in diesem Jahr bei der Bildverarbeitung den Überblick verloren hat, war OnePlus ein starker Kontrast. Das OnePlus 8 Pro ist eine der besten Smartphone-Kameras auf dem Markt, was angesichts der sehr schlechten Leistung der Kamera des OnePlus 5T im Jahr 2017 eine bemerkenswerte Leistung ist. Die Bildverarbeitungsmentalität muss sich ändern, damit Fotos gestochen scharf herauskommen, egal wie heftig der Megapixel-Krieg tobt.
AV1-Dekodierung und -Kodierung
Mischaal Rahman: Das unterscheidet sich also ein wenig von den anderen Diskussionen, die wir über die Kameraqualität führen. Einige Leute in der Open-Source-Mediencodec-Community haben sich unter anderem gefragt, wann Qualcomm Unterstützung leisten wird AV1-Dekodierung und möglicherweise Kodierung. Ich weiß, das ist ein bisschen kompliziert, aber Google verlangt 4K HDR- und 8K-Fernseher auf Android 10, um AV1-Dekodierung und Netflix zu unterstützen. Youtube, beginnen sie mit der Einführung von Videos, die in AV1 kodiert sind. Es sieht also nach einem langsamen Anstieg der AV1-kodierten Videos aus. Wir fragen uns also, wann zumindest die Dekodierungsunterstützung in Spectra verfügbar sein wird.
Aussage von Qualcomm: Zu Ihrer Frage zu AV1: Wir haben heute nichts zu verkünden. Derzeit ist Snapdragon jedoch in der Lage, AV1 per Software abzuspielen. Qualcomm arbeitet stets mit Partnern an Codecs der nächsten Generation durch Software- und Hardwareentwicklung Snapdragon ist führend bei HDR-Codecs, einschließlich Aufnahme und Wiedergabe in HEIF, HLG, HDR10, HDR10+ und Dolby Vision. Um unseren Kunden die besten CODEC-Erlebnisse zu bieten, einschließlich der Unterstützung hoher Auflösung und geringstem Stromverbrauch, ist uns natürlich bewusst, dass die Implementierung dieser in HW wünschenswert ist.
Videoaufzeichnung – Bewegungskompensation
Mischaal Rahman: Ich weiß also nicht, ob Idrees noch weitere Fragen hat, aber ich hatte eine Frage zu etwas, das ich beim Snapdragon Tech Summit gelesen habe. Es geht um den bewegungskompensierten Videokern. Ich habe gehört, dass es Verbesserungen an der Bewegungskompensations-Engine gibt, um das Rauschen bei der Videoaufnahme zu reduzieren. Ich habe mich gefragt, ob Sie näher erläutern können, was genau verbessert wurde und was getan wurde.
Judd Heape: Die EVA-Engine (Engine for Video Analytics) wurde mit einem dichteren Motion-Map-Kern verbessert, sodass die EVA Die Engine schaut sich zum Beispiel immer das eingehende Video an und hat einen Kern darin, der Bewegung ausführt Einschätzung. Was wir gemacht haben, ist, dass wir diesen Kern viel genauer gemacht haben, sodass er dies fast auf der Ebene pro Pixel tut, statt eher auf einer Mehrebene Grobe Blockebene und daher erhalten wir in Snapdragon 865 viel mehr Bewegungsvektoren aus der EVA-Engine als in früheren Versionen Generationen. Und das bedeutet, dass der Videokern, der die Kodierung durchführt, diese Bewegungsvektoren nutzen kann, um mehr zu erreichen Die Codierung ist zwar genau, aber der ISP auf der Kameraseite verwendet diese Informationen auch für Rauschen die Ermäßigung.
Wie Sie wissen, verfügen wir seit Generationen über eine bewegungskompensierte zeitliche Filterung, bei der es sich eigentlich um die aktive Rauschunterdrückung bei Videos handelt, bei der die Bilder über einen längeren Zeitraum gemittelt werden, um Rauschen zu beseitigen.
Das Problem bei dieser Technik besteht jedoch darin, dass sich die Szene bewegt. Bewegungen werden letztendlich einfach von der Rauschunterdrückung abgelehnt, weil sie nicht bewältigt werden können oder verschmiert werden, und es entstehen diese hässlichen Spuren und Artefakte auf sich bewegenden Dingen. Also die bewegungskompensierte zeitliche Filterung, was wir in der Vergangenheit gemacht haben, da wir diese dichte Bewegungskarte für lokal nicht hatten Wir haben einfach nur Fälle behandelt, in denen man die Kamera bewegt, das ist ganz einfach, weil sich alles bewegt global.
Aber wenn Sie etwas fotografieren und sich ein Objekt INNERHALB der Szene bewegt, haben wir vorher Folgendes getan: Wir haben diese Pixel einfach ignoriert, weil wir sie nicht auf Rauschen untersuchen konnten, weil es sich um eine lokale Bewegung handelte Objekt. Wenn Sie also Bild für Bild mitteln, befand sich das Objekt in jedem Bild an einer anderen Stelle, sodass Sie es nicht wirklich verarbeiten konnten.
Aber auf Snapdragon 865, weil wir die dichtere Bewegungskarte haben und die Möglichkeit haben, die Bewegungsvektoren auf fast einem Pixel zu betrachten Auf Pixelbasis sind wir tatsächlich in der Lage, diese lokal verschobenen Pixel Bild für Bild zur Rauschunterdrückung zu verarbeiten, während dies vorher nicht möglich war. Ich glaube, ich habe im Vortrag eine Kennzahl erwähnt. Ich erinnere mich nicht an die Nummer (es waren 40 %) Bei den meisten Videos war es jedoch im Durchschnitt ein großer Prozentsatz an Pixeln, der jetzt auf Rauschen untersucht werden kann, während dies in der vorherigen Generation nicht möglich war. Und das liegt zum Teil an der Fähigkeit, lokale Bewegungen und nicht nur globale Bewegungen zu verstehen.
Videoaufzeichnung – HDR
Idrees Patel: Eine weitere Frage, die ich habe, betrifft HDR-Video. In diesem Jahr sehe ich, dass viele weitere Gerätehersteller HDR10-Videoaufzeichnung anbieten. Ist es also etwas, das mit dem Snapdragon 865 beworben wurde, oder existiert es schon seit einigen Generationen?
Judd Heape: Oh ja, als wir auf dem Tech Summit darüber sprachen, hatten wir HDR10, den Videostandard für HDR auf dem Ich glaube, wir arbeiten seit einigen Generationen auf der Kamera-Kodierungsseite, seit Snapdragon 845, und wir haben uns ständig verbessert Das.
Letztes Jahr haben wir also über HDR10+ gesprochen, also eine 10-Bit-HDR-Aufnahme, aber statt statischer Metadaten gibt es dynamische Metadaten, also die Metadaten, die von der Kamera erfasst werden Während die Szene tatsächlich in Echtzeit aufgezeichnet wird, erkennt die Wiedergabe-Engine bei der Wiedergabe, ob es sich um einen dunklen oder einen hellen Raum handelt, und kann dies ausgleichen Das.
Letztes Jahr haben wir beim Tech Summit auch über Dolby Vision Capture gesprochen, die Dolby-Alternative zu HDR10+. Es ist sehr ähnlich, wo sie tatsächlich auch die dynamischen Metadaten produzieren. Daher kann Snapdragon heute alle drei dieser Formate unterstützen: HDR10, HDR10+ und Dolby Vision-Aufnahme. Damit es wirklich keine Einschränkungen gibt, können unsere OEMs die Methode wählen, die sie bevorzugen. Wir haben schon seit einiger Zeit Kunden, die HDR10 verwenden, und letztes Jahr und dieses Jahr entscheiden sich immer mehr Kunden für HDR10+. Und ich denke, in Zukunft wird es auch eine gewisse Einführung von Dolby Vision Capture geben.
Also ja, wir haben das stark beworben. HDR ist uns sehr wichtig, sowohl auf der Schnappschussseite als auch auf der Videoseite. Und wie gesagt, wir haben uns den Formaten HDR10 und HDR10+ und jetzt auch Dolby Vision verschrieben, Sie wissen schon, seit Snapdragon 845 und jetzt sogar seit kurzem Snapdragon 865 für Dolby Vision.
Mischaal Rahman: Außerdem war ich mir eigentlich nicht sicher, ob es schon Anbieter gibt, die Dolby Vision-Aufzeichnung implementiert haben, aber ich denke, das beantwortet diese Frage. [Das ist] etwas, was wir in Zukunft sehen werden.
Judd Heape: Natürlich kann ich nichts dazu sagen, welche Anbieter interessiert sind und so weiter. Das wäre eine Frage für Dolby; Es ist ihre Funktion. Wenn Sie also weitere Informationen dazu wünschen, würde ich Ihnen empfehlen, sich an Dolby zu wenden. Aber soweit ich weiß, gibt es bisher noch kein Mobiltelefon, das mit Dolby Vision Capture ausgestattet ist.
Idrees Patel: Weil Sie auch Display-Unterstützung benötigen. Mir ist aufgefallen, dass Smartphone-Displays HDR10 und HDR10+ unterstützen, aber nicht Dolby Vision.
Judd Heape: Ja, eigentlich, aber die Dolby Vision-Wiedergabe wurde in der Vergangenheit auf Snapdragon unterstützt. Es kann mit einem bestimmten Display funktionieren und das Display muss außer diesen nicht unbedingt bestimmte Kriterien erfüllen, um Dolby Vision-kompatibel zu sein Dolby bewertet die Anzeige und stellt sicher, dass sie einen bestimmten Farbraum, Gamma, eine bestimmte Bittiefe, eine bestimmte Helligkeit und einen bestimmten Kontrast aufweist Verhältnis.
Sie können also ein HDR10-Display kaufen, aber Sie können auch ein Mobilteil kaufen, das Dolby Vision unterstützt Wiedergabe, aber Doby wird diese Anzeige qualifiziert haben, um sicherzustellen, dass sie ihren strengen Anforderungen entspricht Anforderungen.
Zusammenarbeit mit Softwareanbietern: Imint, Morpho und Arcsoft
Mischaal Rahman: Ich schätze, es gibt nur eine Frage, die ich noch beantworten muss: Ich möchte mehr Nachforschungen mit einem Unternehmen anstellen, mit dem wir kürzlich gesprochen haben Imint. Sie haben kürzlich ihre aktualisiert Vidhance-Stabilisierungssoftware Zu Arbeiten mit dem Spectra 480. Ich weiß, dass Sie mit vielen Unternehmen zusammenarbeiten, die ebenfalls die Vorteile des Spectra 480, der Verarbeitung, nutzen. Ich frage mich, ob Sie weitere Beispiele dieser Technologien nennen können, die es gibt – oder der Partner, die Sie haben mit dem wir zusammengearbeitet haben, nur damit es] etwas ist, das wir weiterverfolgen können, um mehr darüber zu erfahren, wie Spectra 480 in der verwendet wird Feld.
Judd Heape: Wir arbeiten mit vielen Softwareanbietern zusammen. Wie wir bereits erwähnt haben, ist Dolby eines davon. Es gibt noch andere, wie Sie sie erwähnt haben, Imint/Vidhance für EIS (Electronic Image Stabilization). Wir haben auch schon Morpho und Arcsoft erwähnt, wir arbeiten auch sehr eng mit ihnen zusammen.
Was die Art und Weise angeht, wie wir mit ihnen zusammenarbeiten, ist es unser Grundsatz, dass wir wirklich sehr eng mit diesen unabhängigen Softwareanbietern zusammenarbeiten und produzieren wollen Stellen Sie sicher, dass Sie bei allen Softwareaktivitäten die Hardware in Snapdragon nutzen können, um den niedrigsten Stromverbrauch zu erzielen möglich.
Deshalb stellen wir bei diesen Anbietern unter anderem sicher, dass sie wirklich guten Zugriff auf die HVX-Engine bzw. den Hexagon-DSP-Kern haben. Sie verwenden die EVA-Engine auch, um Bewegungsvektoren zu erhalten und die Hardware und die EVA-Engine für die Bildbearbeitung zu nutzen Sie können Bildbewegungen, Übersetzung und Entzerrung und dergleichen in einer Hardware durchführen, anstatt dafür die GPU zu verwenden Das.
Deshalb arbeiten wir wirklich eng mit diesen ISVs zusammen, insbesondere mit denen, die ich speziell erwähnt habe, um sicherzustellen, dass sie nicht einfach alles verraten und Software in der CPU, aber sie verwenden Dinge wie den DSP und Hardwarebeschleuniger im EVA, um eine bessere Leistung und einen geringeren Stromverbrauch zu erzielen Verbrauch. Das ist auch für uns sehr wichtig, weil es unseren Kunden die bestmögliche Mischung aus Funktionen und Stromverbrauch bietet.
[Abschließende Bemerkungen von Judd]: Ich wollte nur sagen: Vielen Dank für all die wirklich guten Fragen. Sie sind wirklich sehr, sehr detailliert. Ich bin jetzt seit etwa drei Jahren bei Qualcomm und schaue auf unsere Vergangenheit, sogar über meine Zeit hier hinaus, wo wir zuvor bei Spectra angefangen haben Mit dem Snapdragon 845 haben wir in den letzten Jahren wirklich hart daran gearbeitet, den ISP, die Kamera und einfach das Gesamterlebnis dramatisch zu verbessern Jahre. Ich bin wirklich gespannt auf das, was die Zukunft bringt. Und ich bin gespannt darauf, was wir auf zukünftigen Tech Summits ankündigen werden, über die ihr Fragen stellen und darüber schreiben könnt. [Spectra Camera] ist meiner Meinung nach wahrscheinlich eine der aufregendsten Technologien bei Qualcomm.
Abschließende Gedanken
Es war großartig, mit Judd über Qualcomms Beiträge zur Smartphone-Fotografie zu diskutieren. Wir können gemischte Gefühle gegenüber dem Unternehmen und seinem Patentlizenzierungssystem haben, aber den Einfluss von Qualcomm auf die Smartphone-Branche spürt jeder, egal, ob man darüber spricht Patente, 4G und 5G, Wi-Fi, die Adreno-GPUs, die Spectra-ISPs und die Snapdragon-Chips selbst, die weitgehend als Goldstandard im Android-Smartphone gelten Markt.
Es gibt noch viele Schwachstellen, die in der Smartphone-Fotografie gelöst werden müssen, aber die Zukunft wird es sein so hell wie Qualcomm verspricht, weitere Fortschritte in den riesigen, wachsenden Bereichen von ML zu machen, die mächtig sind KI. Mal sehen, was Qualcomm auf dem nächsten Snapdragon Tech Summit in diesem Bereich zu verkünden hat.