Джадд Хіп із Qualcomm пояснює, як Qualcomm покращує роботу камери на телефонах Android за допомогою нових функцій у своїх ISP Spectra.
Будучи виробником систем на чіпах (SoC), на яких працює велика частина смартфонів і переносних пристроїв у світі, американська компанія Qualcomm, безсумнівно, є одним із гігантів індустрії виробників мікросхем. Лінія SoC Snapdragon, наприклад, використовується майже всіма великими виробниками пристроїв Android для флагманських, середніх і бюджетних смартфонів. Qualcomm щороку отримує аплодисменти на щорічному технічному саміті компанії за досягнення в області центрального процесора, графічного процесора та штучного інтелекту завдяки використанню нових мікроархітектур процесорів ARM. і доповнює їх щорічними вдосконаленнями своїх графічних процесорів. Однак його досягнення в галузі камер не помічаються так сильно, оскільки вони, як правило, йдуть під радар.
Однак це не означає, що робота Qualcomm над камерами смартфонів неважлива. Навпаки, провайдери Qualcomm Spectra в своїх процесорах Snapdragon Snapdragon допомагають зробити багато сучасних камер смартфонів можливими з підвищеною продуктивністю. обчислювальна потужність, такі функції, як запис відео 8K, відео HDR10, підтримка високомегапіксельних камер QCFA та багато, багато більше. Qualcomm рекламує Spectra 380 ISP у Snapdragon 855
був першим у світі CV-ISP, і вона просувала перші в світі функції запису відео 4K HDR, які тепер доповнені записом відео 4K HDR10+ другого покоління. Spectra 480 ISP останнього покоління Snapdragon 865 має високі можливості – він може обробляти два гігапікселі за секунду, що на 40% більше, ніж його попередник. Це інтелектуальна власність (IP), яка відрізняє Qualcomm від її конкурентів у сфері постачальників мобільних мікросхем.У той час як Qualcomm пояснює більшість основних функцій у своїх прес-релізах і основних доповідях про продукт, вгору досі споживачі не мали можливості дізнатися про більшість деталей низького рівня, які створюють ці речі працювати.
Ось чому ми з XDA Developers із задоволенням прийняли пропозицію поговорити з Джаддом Хіпом, старшим директором із управління продуктами Qualcomm. Ми з головним редактором XDA Мішалом Рахманом мали інтерв’ю з Джаддом у червні 2020 року, щоб дізнатися та побачити, як Qualcomm просуває стійки воріт за допомогою фотографій і відеозаписів зі смартфонів. Ми говорили про такі теми, як обробка зображень AI, багатокадрове шумозаглушення (MFNR), AV1, запис відео Dolby Vision, об’єднання пікселів у високомегапіксельних камерах та багато іншого. Давайте подивимося на висновки Джадда з кожної теми окремо:
Робочі навантаження обробки зображень ШІ
Мішал Рахман: Я почну з одного з тих, що були в Ідріза, який є цікавим і який мене також зацікавив. Тож нам цікаво, які навантаження на обробку зображень штучного інтелекту використовує Qualcomm у Spectra ISP і наскільки вони можуть бути налаштовані виробниками пристроїв?
Джадд Хіп: Так, ми розглядаємо багато робочих навантажень штучного інтелекту, і деякі штучні інтелекти можуть працювати в самому провайдері як, наприклад, наше наступне покоління 3A: автоматична експозиція, автоматичний баланс білого та автофокус — це AI на основі.
Але ми також розглядаємо кілька інших робочих навантажень штучного інтелекту, які виконуватимуться поза ISP, в одному з інших обчислювальних елементів. Тому, зокрема, ми розглядаємо такі речі, як: у нас є ядро шумозаглушення на основі штучного інтелекту, яке працює ззовні від провайдера Інтернету, у частині чіпа, яка працює з механізмом штучного інтелекту (AIE).
Крім того, у нас є такі речі, як розпізнавання обличчя, яке є механізмом повного глибокого навчання, який також працює в комплексі AIE, але, звичайно, допомагає камері. І є інші речі, над якими ми працюємо, крім виявлення облич і шумозаглушення; ми також розглядаємо такі речі, як автоматичне налаштування знімків за допомогою штучного інтелекту, який автоматично встановлюється параметрів на сцену на основі вмісту HDR, ми б обробили, щоб змінити тіні, відблиски, колір тощо річ.
Один із наших партнерів, Morpho, щойно виграв величезну нагороду за навантаження на AI на Embedded Vision Summit цього року. Незалежні партнери-постачальники програмного забезпечення також мають багато дійсно інтенсивних алгоритмів на основі штучного інтелекту, і вони можуть варіюватися від чого завгодно, як плавна камера перехід, подібно до того, що робить Arcsoft (я згадував про це на останньому технічному саміті Snapdragon, який базується на ШІ), до семантичної сегментації Morpho двигун. Рішення Morpho — це механізм штучного інтелекту, який розуміє різні частини сцени, як-от те, що ви знаєте, тканина проти шкіри проти неба та трави та будівля та таке інше, а потім провайдер може взяти цю інформацію та обробити ці пікселі по-різному для текстури, шуму та кольору для приклад.
Заява Qualcomm: Щодо ML & AI ми також не оголошуємо жодних нових оновлень для функцій розпізнавання обличчя та «3A» (AE, AF та AWB) сьогодні. Однак, як сказав Джадд, ми прагнемо надалі розширити можливості ML/AI у камері, включаючи ці дві функції.
Аналіз і контекст: Штучний інтелект у смартфонах здебільшого вважався модним словом відтоді, як у телефонах Android почали з’являтися перші нейронні процесори (NPU) і функції на основі штучного інтелекту. Однак це не означає, що штучний інтелект сам по собі безглуздий. Навпаки, штучний інтелект має великий потенціал у мобільних пристроях, аж до того, що постачальники чіпів і виробники пристроїв поки лише дряпають поверхню того, що можливо.
Завдяки штучному інтелекту камери смартфонів стали кращими — інколи швидко, інколи страшенно повільно, але вони досягають результатів. Камери смартфонів долають основні обмеження, такі як відносно менші датчики, фіксовані фокусна відстань і гірша оптика з інтелектуальною обчислювальною фотографією на основі машинного навчання (ML). Автоматична експозиція, шумозаглушення, розпізнавання облич і сегментація – це лише деякі з областей, де штучний інтелект у фотографії на смартфоні зміг вплинути. У наступні п’ять років ці зароджувані галузі штучного інтелекту, які вдосконалюють різні аспекти фотографії, значно розвинуться.
Багатокадрове шумозаглушення
Ідрес Патель: Qualcomm згадує багатокадрове шумозаглушення як функцію. Я хотів би дізнатися більше про це, як працює стекування зображень. Чи схоже це якось на те, що Google робить зі своєю технологією HDR+, чи це зовсім інше?
Джадд Хіп: Це схоже, але інше. Уявіть, що камера робить серійну зйомку та швидко фіксує п’ять-сім кадрів. Потім механізм ISP переглядає ці кадри та вибирає найкращий (так званий «якірний кадр») для фокус і чіткість, а потім він може вибрати 3-4 кадри з обох боків від цього кадру, а потім усереднити їх усі разом. Він намагається вибрати кадри, розташовані досить близько один до одного, щоб було дуже мало рухів.
І коли він зупиняється на цих кадрах, він усереднює їх разом, щоб розрізнити, наприклад, що фактичні дані зображення проти даних шуму. Отже, коли у вас буде все більше інформації з дедалі більшої кількості фреймів, ви можете робити прості речі, наприклад дивитися на відмінності між фреймами. Відмінності, ймовірно, пов’язані з шумом, тоді як те, що однаково в кадрах, – це, ймовірно, дані зображення.
Тож ми можемо комбінувати кадри в реальному часі, щоб зменшити шум. Тепер ви також можете робити те ж саме зі слабким освітленням і HDR, і це дуже схоже на те, що, ймовірно, робить Google. Ми не знайомі з їхнім алгоритмом. Але вони використовують багатокадрові методи для підвищення чутливості, щоб ви могли краще «бачити»; після того, як ви зменшили рівень шуму, тепер ви можете спробувати зробити більше локального відображення тонів або додати посилення до зображення без додавання додаткового шуму.
Таким чином вони справляються зі слабким освітленням, а також з HDR. Qualcomm удосконалить функцію шумозаглушення з кількома кадрами, яка також включатиме слабке освітлення та HDR. Але це те, що ми незабаром розгорнемо.
Мішал Рахман: Отже, ви згадали про незабаром розгортання цієї функції. Це як оновлення BSP для партнерів?
Джадд Хіп: У наших продуктах наступного покоління за допомогою програмного доповнення ми матимемо можливість взаємодіяти з – насправді це відбувається прямо зараз на наступному продукти покоління – ми зараз співпрацюємо з клієнтами, щоб використовувати більше багатокадрових технік, окрім шумозаглушення, але також працювати з HDR та слабким освітленням ситуації. Він використовує той самий базовий ISP HW механізм, але ми додаємо більше програмного забезпечення для обробки цих кількох кадрів для більшого, ніж просто зменшення шуму.
Тож це не те, що розгорнуто, але ми співпрацюємо з деякими ключовими провідними клієнтами щодо цих функцій.
Аналіз і контекст: З кожним новим оголошенням про Snapdragon SoC таблиця специфікацій Qualcomm включає специфікації, пов’язані з шумозаглушенням у кількох кадрах. Наприклад, Snapdragon 865 із подвійним 14-розрядним CV-ISP підтримує до гіпотетичної одиночної камери 200 Мп (хоча постачальники датчиків камер, такі як Sony, Samsung і OmniVision, ще не випустили жодного датчика камери для смартфонів із роздільною здатністю понад 108 МП). Однак, коли йдеться про підтримку однієї камери з MFNR, нульовою затримкою затвора (ZSL) і підтримкою 30 кадрів/с, специфікація змінюється на 64 МП, а для подвійних камер із однаковими характеристиками специфікація змінюється на 25 Мп.
Багатокадрове шумозаглушення Qualcomm дуже схоже на HDR+, але не зовсім те саме, як пояснював Джадд вище. Тоді як HDR+ робить серію недотриманих експозицій і усереднює їх, щоб отримати найкраще фото, MFNR робить п’ять-сім звичайних кадрів. Здається, що MFNR від Qualcomm не є таким передовим, як рішення Google, оскільки HDR і слабке освітлення не згадуються як конкретні пріоритети в поточному робочий процес для Spectra, тоді як HDR+ від Google націлений на HDR, фотографію в умовах недостатнього освітлення та зменшення шуму одночасно, а нічне бачення навіть покращує його далі. Однак приємно дізнатися, що MFNR отримує вдосконалення, і Qualcomm запровадить ці вдосконалення для «деяких ключових клієнтів». Можливо, у майбутньому нам не знадобляться неофіційні порти Google Camera, щоб повністю розкрити потенціал камер смартфонів Android, які не належать Google.
Супер роздільна здатність для відео
Мішал Рахман: Отже, те, що я почув на Tech Summit. Насправді, я думаю, що це було в інтерв'ю з Android Authority. Чи те, що Qualcomm планує розширити надвисоку роздільну здатність до відео як програмне рішення для партнерів, і що це, очевидно, буде розгорнуто в оновленні. Мені цікаво, чи є у вас оновлення щодо цієї функції.
Джадд Хіп: Так, це функція, яку ми мали можливість використовувати деякий час, і вона тільки зараз розгортається. Я б не сказав, що це оновлення програмного забезпечення, але я б сказав, що це щось на зразок додаткової переваги наявної функції мультикадрової роботи в умовах слабкого освітлення. Ми співпрацюємо з деякими конкретними провідними клієнтами щодо цієї функції. Тож так, суперроздільна здатність відео – це щось у наступному поколінні, або ми матимемо це як те, що ми маємо назвіть функцію плану запису, якщо вона фактично вбудована в базу програмного коду для [] камера. Але зараз це більше на рівні конкретних залучень клієнтів до нової функції.
Аналіз і контекст: Надроздільна здатність для відео – це функція, яка досі не відображалася в камерах смартфонів. Це така нова сфера, що про це досі пишуться наукові статті. Використання багатокадрових технологій для фотографії — це одне, але використання їх для відео для підвищення якості відео до вищої роздільної здатності — це зовсім інша справа. Qualcomm каже, що знову розгортає цю функцію для «деяких ключових клієнтів», але зараз вона не вбудована в базу програмного коду для камери. У майбутньому він може бути доступний для всіх, але наразі це функція, якою кінцеві споживачі ще навіть не скористалися.
Високомегапіксельні сенсори Quad Bayer
Ідрес Патель: Давайте поговоримо про датчики Quad Bayer. З 2019 року багато телефонів тепер мають датчики на 48 МП, 64 МП, а тепер навіть 108 МП. Це датчики Quad Bayer; у вас насправді немає справжньої кольорової роздільної здатності 48, 64 або 108 Мп. Одне, що я хотів запитати, це те, чим ISP відрізняється щодо обробки зображень для цих Quad Bayer або Nona Датчики Bayer (об’єднання пікселів 4-в-1 або 9-в-1), порівняно з традиційними датчиками, які не мають жодного пікселя групування.
Джадд Хіп: Так, звичайно, перевага цих чотирьох датчиків CFA (Quad Color Filter Array) полягає в здатності працювати при яскравому світлі їх із повною роздільною здатністю, а потім провайдер може обробити їх із повною роздільною здатністю 108 мегапікселів або 64 мегапікселів або будь-якої іншої доступний.
Однак зазвичай у більшості ситуацій з освітленням, як-от у приміщенні чи в темряві, вам доводиться об’єднувати, оскільки пікселі датчика настільки малі, що вам доводиться комбінувати пікселі, щоб отримати кращу світлочутливість. Тож я б сказав, що більшу частину часу, особливо якщо ви знімаєте відео або якщо ви перебуваєте в умовах слабкого освітлення для моментального знімка, ви працюєте в режимі групування.
Тепер провайдер може обробляти датчик будь-яким способом. Ви можете дивитися на датчик у груповому режимі, і в цьому випадку надходить звичайне зображення Байєра, або він може дивитися на нього в режимі повної роздільної здатності, у якому вхідні дані являють собою квадроцикл CFA. І якщо він у цьому режимі, провайдер перетворює його на Bayer.
Тож ми робимо – те, що ми називаємо – «ремозаїку». Це виконує певну інтерполяцію чотирикутного зображення CFA, щоб воно знову виглядало як повна роздільна здатність Bayer. І це зазвичай робиться в програмному забезпеченні для знімків, хоча з часом ми збираємося додати цю можливість в апаратне забезпечення також для підтримки відео.
Те, що сьогодні є в апаратному забезпеченні провайдерів Інтернет-послуг, — це групування. Таким чином, ви можете bin у сенсорі, і ви можете фактично мати датчик вирішувати, чи він збирається виводити повну, чверть або 1/9 роздільну здатність, або ви можете bin у ISP. І це функція, яку ми фактично додали в Snapdragon 865. Отже, якщо ви збираєтеся в ISP, а потім запускаєте датчик із повною роздільною здатністю, це дає ISP можливість одночасно мати як зображення повної роздільної здатності, так і зображення з роздільною здатністю. Таким чином, він може використовувати зображення з меншою роздільною здатністю або «об’єднане» зображення для відео (відеокамера) і попереднього перегляду (видошукач) і одночасно використовувати зображення з повною роздільною здатністю для повнорозмірного знімка.
Але знову ж таки це було б у разі яскравого освітлення. Але принаймні, якщо ви bin у ISP, у вас є можливість обробляти як велике, так і маленьке зображення в один і той же час, і тому ви можете отримати одночасне відео та знімок, ви також можете отримати повну роздільну здатність ЗСЛ; все без необхідності перемикати датчик вперед і назад, що займає значну кількість часу.
Це дійсно хороша функція. І оскільки датчики Quad CFA і навіть ви знаєте, датчики 9x і, можливо, навіть більше, виходять, і оскільки цих датчиків стає більше повсюдно – ми все більше і більше намагаємося працювати з цими датчиками в апаратному забезпеченні не лише для групування, але й для ремозаїка.
І тому перевага полягає в тому, що якщо ви робите це в апаратному забезпеченні, а не в програмному забезпеченні, ви зменшуєте час затримки для ваших клієнтів, а отже, час знімка до кадру та швидкість серії буде набагато швидшим. Тож у міру просування нових провайдерів Інтернету та нових чіпів ви почнете бачити набагато більше того, що ми робимо для цих нових типів датчиків, вставлених у апаратне забезпечення.
Аналіз і контекст: Компанія Huawei першою використала 40-мегапіксельний сенсор Quad Bayer Huawei P20 Pro у 2018 році, і популярність датчиків Quad Bayer була настільки високою, що тепер вона досягла навіть телефонів за 150 доларів, які працюють на чіпах Snapdragon/Exynos/MediaTek. Зокрема, ми бачили, як індустрія смартфонів прийшла до 48-мегапіксельної та 64-мегапіксельної камер як найкращого місця, тоді як деякі телефони досягають 108-мегапіксельної камери. Датчики Quad Bayer і Nona Bayer не позбавлені недоліків, оскільки їх повна роздільна здатність має застереження.
Проте з маркетингових міркувань датчик на 48 МП звучить набагато краще, ніж датчик на 12 МП, навіть якщо користувач більшу частину часу фотографує з роздільною здатністю 12 МП. Теоретично 48-мегапіксельний датчик має створювати кращі 12-мегапіксельні об’єднані фотографії за слабкого освітлення, ніж традиційний 12-мегапіксельний датчик. датчик, але обробка зображень має продовжуватись, і, як я згадую нижче, для цього потрібно пройти довгий шлях статися. Незважаючи на це, було цікаво побачити, як Spectra ISP обробляє датчики Quad Bayer із ремозаїкою. У цих датчиків є великий потенціал, і такі телефони, як OnePlus 8 Pro (який використовує сенсор Sony IMX689 Quad Bayer із великими пікселями) зараз є вершиною камер смартфонів.
Розпізнавання обличчя на основі ML
Мішал Рахман: Я думаю, раніше ви згадували, що Spectra 480 підтримує розпізнавання обличчя на основі ML. Це те, що я насправді почув на Tech Summit. [Це] одне з удосконалень від 380 до 480; що це частина - є новий об'єктивний блок виявлення в механізмі відеоаналітики, який використовується для просторового розпізнавання в майбутньому.
Чи можете ви розповісти більше про те, наскільки це покращує розпізнавання обличчя та які потенційні програми, на вашу думку, використовують постачальники?
Джадд Хіп: Так, насправді, ви маєте рацію щодо вбудованого блоку комп’ютерного бачення, тобто блоку «EVA», про який ми говорили на Tech Summit. У ньому є загальне ядро виявлення об’єктів, яке ми використовуємо, коли камера працює, ми використовуємо це для виявлення облич. Техніки в цьому блоці є більш традиційними техніками, тому розпізнавання об’єктів виконується за допомогою традиційних класифікаторів, але на додачу до цього у нас є запущений механізм програмного забезпечення, який фактично покращує точність цього блокувати.
Тому ми використовуємо програмне забезпечення на основі ML, щоб відфільтрувати хибні спрацьовування, оскільки апаратне забезпечення може виявляти більше речей як обличчя на сцені, а потім програмне забезпечення ML кажучи: "гаразд, це обличчя" або "це справді не обличчя", тож це підвищує точність на кілька відсотків, запускаючи цей фільтр ML поверх обладнання.
Я згадав багато речей про майбутнє. У майбутньому ми також плануємо запустити фактичне повне розпізнавання обличчя в ML або в режимі глибокого навчання в програмному забезпеченні. Особливо це стосується нижчих рівнів, тому, наприклад, на рівні, де у нас немає апаратного механізму EVA, ми почнемо поступово впроваджувати глибоке навчання як виявлення, яке працює в системі штучного інтелекту чіпа, а пізніше, на верхніх рівнях у рівнях 700-800, у нас є апаратне забезпечення EVA для цього...
Хоча загалом я скажу, що ми більше рухатимемося до підходів машинного навчання для виявлення облич, і це включатиме як програмне забезпечення в середньостроковій перспективі, так і апаратне забезпечення в пізній перспективі. Я не збираюся розголошувати, які продукти його матимуть, але, звичайно, у міру того, як ми просуваємося вперед у вдосконаленні ISP, ми, безумовно, будемо додавати все більше апаратних можливостей для ML.
Мішал Рахман: Чудово. Що ж, я думаю, що напрямок, яким ви рухаєтеся, полягає в тому, щоб перенести вдосконалення машинного навчання серії 800 на нижчий рівень, тож я вважаю, що це загалом даність. Але, звісно, ви не можете надати нам жодної конкретної інформації щодо цього. Дякуємо за оновлення.
Джадд Хіп: Розпізнавання обличчя – це те, чим ми дуже захоплюємося. Ми хочемо підвищити цю точність, ви знаєте, покоління за поколінням на всіх рівнях від рівня 800 до рівня 400. ML є значною частиною цього.
Аналіз і контекст: Саме ці аспекти надають фотографіям зі смартфонів набагато більше можливостей навіть у порівнянні з останніми бездзеркальними камерами. Так, бездзеркальні камери мають кращу якість зображення за слабкого освітлення та є набагато гнучкішими, але камери смартфонів долають свої обмеження геніальними способами. Розпізнавання обличчя на основі ML — це лише частина цього.
Покращення механізму обробки зображень
Мішал Рахман: Чудово. Тож однією з речей, які я коротко почув під час дискусій за круглим столом після технічного саміту Snapdragon, було вдосконалення механізму обробки зображень. Я чув, що було покращено зменшення шуму низьких середніх частот або LEANR. І що ви застосовуєте динамічну карту зворотного посилення; це те, що ви згадали раніше в розмові.
Джадд Хіп: О, гаразд. Тому я думаю, що ви змішуєте дві речі разом. Так, є ядро LEANR, яке працює над зменшенням шуму на більш грубому зерні, що допомагає при слабкому освітленні. Це новий блок, який був доданий у Snapdragon 865 до ISP, і це одне.
Карта зворотного посилення - це щось інше. Це ще щось, про що я говорив під час круглих столів, але це те, щоб усунути ефект затінення лінз. Отже, як ви знаєте, якщо у вас є телефон і він має маленьку лінзу; центр лінзи буде світлим, а краї – більш віньєтованими; тобто вони будуть темнішими.
І тому в минулі роки в Інтернет-провайдері ми застосували статичну реверсну карту посилення, щоб позбутися цих темних країв. І так це було в ISP досить довго. Проте в Snapdragon 865 ми додали можливість динамічно змінювати карту посилення залежно від конкретного кадру зображення, оскільки якщо ви застосовуєте багато посилень до країв відбувається те, що краї можуть бути обрізаними, особливо якщо ви дивитеся на сцени з яскравим світлом надворі, наприклад, блакитне небо може стати білим або краї будуть зрізані через велику кількість посилення.
Тож у Snapdragon 865 ця карта зворотного посилення не є статичною; це динамічно. Отже, ми дивимося на зображення і кажемо: «Добре, ці частини зображення обрізано, а цього не повинно бути», щоб ми могли крутити вимкніть карту посилення природним чином, щоб ви не отримували яскравих смуг, ефектів ореолу чи подібних речей від корекції лінзи затінення. Отже, це відрізняється від шумозаглушення, і це два різних ядра.
Зйомка за слабкого освітлення та агресивне зменшення шуму
Ідрес Патель: Тож одна річ, про яку я хотів запитати, — це фотографія при слабкому освітленні. Як і в останні кілька років, було багато [реалізованих OEM] нічних режимів, але одна річ, яку я помітив, полягає в тому, що багато виробників пристроїв використовують агресивне шумозаглушення, яке зменшує деталізацію до точки, коли рівномірний шум яскравості видалено.
Тож моє запитання полягає в тому, чи радить Qualcomm виробникам пристроїв не робити цього, і чи це робить їхні конвеєри обробки, чи це щось під впливом провайдера в SoC.
Джадд Хіп: Багато з цього пов’язано з налаштуванням, і якщо у вас немає мультикадру, або я б сказав, дуже хороший датчик зображення не доступний, з високою чутливістю або оптикою з низькими числами f. Один із способів позбутися шуму за слабкого освітлення — застосувати більше шумозаглушення, але що відбувається, коли ви застосовуєте більше шумозаглушення, це те, що ви втрачаєте деталі, тому різкі краї стають розмитими. Тепер ви можете позбутися цього, якщо застосуєте ці багатокадрові методи. Або якщо ви застосовуєте методи штучного інтелекту, які можуть якось визначити, де знаходяться краї об’єктів і грані, і тому подібне. Тож застосування простого шумопоглинання методом грубої сили в наш час не є найкращим способом впоратися з цим, оскільки ви втрачаєте деталі.
Те, що ви хочете зробити, це застосувати багатокадрові методи або методи штучного інтелекту, щоб ви все ще могли застосовувати шум зменшення до більш схожих внутрішніх областей об’єктів, зберігаючи красиві чисті краї або зберігаючи гострі краї об'єктів. Ось що я б сказав: використання штучного інтелекту або багатокадрового режиму — це спосіб зменшити шум і покращити зображення за слабкого освітлення.
Ідрес Патель: Так, і це саме те, що я хотів почути. [Це] тому, що це головне, що відрізняє чудові камери смартфонів від камер середнього або бюджетного рівня.
Джадд Хіп: Так.
Ідрес Патель: чудові камери смартфонів знають, коли застосовувати шумозаглушення, а коли ні.
Джадд Хіп: Точно. Так, і, як я вже сказав, налаштування камери справді виконують наші клієнти або виробники комплектного обладнання, а деякі виробники надають перевагу більш м’якому зображенню з меншим шумом. Деякі вважають за краще розкривати більше деталей із, можливо, трохи більше шуму.
І тому це компроміс, і тому у вас є обмеження. І як я сказав, найкраще, що можна зробити, це отримати кращий датчик зображення з вищою чутливістю, більші пікселі або оптика з нижчим числом діафрагми, оскільки тоді ви отримуєте більше світла з самого початку, це завжди краще. Але якщо ви не можете цього зробити, тоді замість того, щоб просто посилювати шумозаглушення та втрачати деталі, ви хочете використовувати багатокадрові методи або методи штучного інтелекту.
Аналіз і контекст: На мій погляд, це найбільша проблема камер смартфонів. Так, ви можете використовувати сенсор 48 МП, 64 МП або навіть 108 МП. Однак, якщо ви не вирішите використовувати стримане шумозаглушення за допомогою методів MFNR або штучного інтелекту, усі ці мегапікселі, об’єднання 4-в-1 і навіть об’єднання 9-в-1 не принесуть великої користі. Galaxy S20 Ultra є яскравим прикладом тут, оскільки його основна камера на 108 МП в основному вважався розчаруванням. Samsung пішла назад у обробці зображень, використовуючи надзвичайно агресивне шумозаглушення у своїх нічних режимах у своїх флагманах 2020 року, тоді як серія Galaxy S10 2019 року, за іронією долі, мала кращу якість зображення.
Джадд показує, що деякі OEM-виробники насправді віддають перевагу більш м’якому зображенню з меншим шумом, що є принципово неправильним вибором. Налаштування виконується виробниками пристроїв, тому два телефони, які використовують один і той самий датчик і живляться від однієї SoC, можуть виводити дуже, дуже різні фотографії. Треба сподіватися, що ці виробники пристроїв дізнаються правду від своїх ефективніших конкурентів. У той час як Samsung втратив свій шлях у обробці зображень цього року, OnePlus був різким контрастом. OnePlus 8 Pro є однією з найкращих камер смартфонів на ринку, що є помітним досягненням, враховуючи дуже погану продуктивність камери OnePlus 5T у 2017 році. Щоб фотографії виходили чіткими, незалежно від того, наскільки лютує мегапіксельна війна, має змінитися мислення щодо обробки зображень.
Декодування та кодування AV1
Мішал Рахман: Отже, це дещо окремо від інших дискусій, які ми ведемо про якість камери. Деякі люди в спільноті медіакодеків із відкритим кодом цікавляться тим, коли Qualcomm почне підтримувати AV1 декодування і, можливо, кодування. Я знаю, що це трохи натяжно, але Google вимагає, щоб телевізори 4K HDR і 8K на Android 10 підтримували декодування AV1 і Netflix, YouTube, вони починають випуск відео, закодованих у AV1. Отже, схоже на повільне зростання кількості відео, закодованих AV1. Тому нам цікаво, коли хоча б підтримка декодування буде доступна в Spectra.
Заява Qualcomm: Згідно з вашим запитанням щодо AV1, ми не маємо нічого анонсувати сьогодні. Однак Snapdragon наразі здатний відтворювати AV1 за допомогою програмного забезпечення. Qualcomm постійно працює з партнерами над кодеками наступного покоління за допомогою програмного та апаратного забезпечення Snapdragon – лідер у сфері кодеків HDR, включаючи захоплення та відтворення у форматах HEIF, HLG, HDR10, HDR10+ і Dolby Бачення. Звичайно, ми усвідомлюємо, що для того, щоб надати нашим клієнтам найкращий досвід роботи з CODEC, включно з підтримкою високої роздільної здатності та найменшої потужності, бажано реалізувати це в HW.
Відеозапис - компенсація руху
Мішал Рахман: Тож я не знаю, чи є у Ідріза ще якісь запитання, але у мене було одне запитання про те, що я прочитав на саміті Snapdragon Tech Summit. Йдеться про відеоядро з компенсацією руху. Я чув, що є вдосконалення механізму компенсації руху, щоб зменшити шум під час запису відео. Мені було цікаво, чи можете ви розповісти, що саме було покращено та що зроблено.
Джадд Хіп: Механізм EVA (Engine for Video Analytics) було покращено за допомогою більш щільного ядра карти руху, щоб EVA Ви знаєте, наприклад, двигун завжди переглядає вхідне відео, і в ньому є ядро, яке здійснює рух оцінка. Те, що ми зробили, це те, що ми зробили це ядро набагато точнішим, де воно робить це майже на піксельному рівні, а не на рівні більшого грубий рівень блоків, тому ми отримуємо набагато більше векторів руху від двигуна EVA в Snapdragon 865, ніж у попередньому поколінь. А це означає, що відеоядро, яке виконує кодування, може використовувати ці вектори руху, щоб бути більше точні щодо кодування, але провайдер на стороні камери також використовує цю інформацію для шуму скорочення.
Тож, як ви знаєте, упродовж багатьох поколінь у нас була часова фільтрація з компенсацією руху, яка насправді є активним зменшенням шуму під час відео, яке усереднює кадри з часом, щоб позбутися шуму.
Однак проблема з цією технікою полягає в тому, що у сцені є рух. Зрештою, шумопоглинання відхиляється від руху, тому що з ним неможливо впоратися або воно змащується, і ви отримуєте ці потворні сліди та артефакти на рухомих речах. Отже, у часовій фільтрації з компенсацією руху, що ми робили в минулому, оскільки у нас не було цієї щільної карти руху для локальних руху, у нас є - просто обробляються лише випадки, коли ви рухаєте камеру, це досить легко, тому що все рухається глобально.
Але якщо ви щось знімаєте, і у вас є об’єкт, що рухається В МЕЖІ сцени, ми робили раніше [це] ми просто проігнорували ці пікселі, оскільки не могли обробити їх на наявність шуму, тому що це було локальне переміщення об'єкт. І тому, якщо ви усереднюєте кадр за кадром, об’єкт знаходився в іншому місці кожного кадру, тому ви не могли його справді обробити.
Але на Snapdragon 865, оскільки ми маємо більш щільну карту руху, і ми маємо можливість дивитися на вектори руху майже на пікселі на основі пікселів ми фактично можемо обробляти ці локально переміщені пікселі кадр за кадром для зменшення шуму, тоді як раніше ми не могли. Здається, я згадав про метрику в розмові. Номер не пам'ятаю (це було 40%) але це був великий відсоток пікселів у середньому для більшості відео, які тепер можна обробити на наявність шуму, тоді як у попередньому поколінні це було неможливо. І це справді частково для того, щоб мати здатність розуміти локальний рух, а не лише глобальний рух.
Відеозапис - HDR
Ідрес Патель: Ще одне запитання стосується HDR-відео. Цього року я бачу, що набагато більше виробників пристроїв пропонують запис відео HDR10. Тож чи це те, що рекламувалося разом із Snapdragon 865, чи воно існує з кількох поколінь.
Джадд Хіп: О так, коли ми говорили про це на Tech Summit, у нас був HDR10, який є відеостандартом для HDR на кодування камери вже кілька поколінь, я вважаю, що починаючи з Snapdragon 845, і ми постійно вдосконалюємося що.
Минулого року ми говорили про HDR10+, який є 10-бітним HDR-записом, але замість статичних метаданих він має динамічні метадані, тож метадані, які фіксує камера під час сцени фактично записується в режимі реального часу, так що під час її відтворення система відтворення розуміє, була це темна кімната чи світла кімната, і може компенсувати що.
Ми також торік на Tech Summit говорили про запис Dolby Vision, який є альтернативою Dolby HDR10+. Це дуже схоже, коли вони також створюють динамічні метадані. Таким чином, сьогодні Snapdragon може підтримувати всі ці три формати: HDR10, HDR10+ і запис Dolby Vision. І тому насправді немає ніяких обмежень, наші виробники комплектного обладнання можуть вибрати будь-який спосіб, який вони віддають перевагу. У нас уже деякий час є клієнти, які використовують HDR10, і минулого та цього року все більше клієнтів обирають HDR10+. І я думаю, що в майбутньому ви також побачите впровадження Dolby Vision Capture.
Так, ми активно це просували. HDR дуже важливий для нас, як для моментальних знімків, так і для відео. І, як я вже сказав, ми прихильні до форматів HDR10 і HDR10+, а тепер і Dolby Vision, ви знаєте, починаючи з Snapdragon 845 і тепер навіть нещодавно Snapdragon 865 для Dolby Vision.
Мішал Рахман: Крім того, я насправді не був впевнений, чи хтось із постачальників уже впровадив запис Dolby Vision, але я думаю, що це відповідає на це запитання. [Це] те, що ми побачимо в майбутньому.
Джадд Хіп: Звичайно, я не можу коментувати, які постачальники зацікавлені та щось подібне. Це було б питання до Dolby; це їх особливість, тому, якщо вам потрібна додаткова інформація про це, я пропоную зв’язатися з Dolby. Але на сьогоднішній день, наскільки мені відомо, не було жодного телефону, який би випускався з Dolby Vision Capture.
Ідрес Патель: Тому що вам також потрібна підтримка дисплея. Я помітив, що дисплеї смартфонів підтримують HDR10 і HDR10+, але не підтримують Dolby Vision.
Джадд Хіп: Насправді так, але раніше відтворення Dolby Vision підтримувалося на Snapdragon. Він може працювати з даним дисплеєм, і дисплей не обов’язково повинен відповідати будь-яким конкретним критеріям, щоб бути сумісним з Dolby Vision, за винятком того, що Dolby оцінить дисплей і переконається, що він має певну кольорову гаму, гамму, певну бітову глибину, певну яскравість і певний контраст співвідношення.
Отже, ви знаєте, ви можете придбати дисплей HDR10, але ви також можете купити телефон, який підтримує Dolby Vision відтворення, але Doby кваліфікує цей дисплей, щоб переконатися, що він сумісний із їхніми суворими вимоги.
Співпраця з постачальниками програмного забезпечення: Imint, Morpho та Arcsoft
Мішал Рахман: Мені здається, що мені потрібно відповісти на одне запитання, щоб провести додаткові дослідження з однією компанією, з якою ми нещодавно спілкувалися. Imint. Вони нещодавно оновили свій Програмне забезпечення для стабілізації Vidhance до працювати з Spectra 480. Я знаю, що ви працюєте з багатьма компаніями, які також користуються перевагами Spectra 480, обробки. Мені цікаво, чи можете ви розкрити більше прикладів цих технологій, які мають – або партнерів, яких ви маєте працювали, просто щоб це] те, що ми можемо продовжити, дізнатися більше про те, як Spectra 480 використовується в поле.
Джадд Хіп: Ми працюємо з багатьма постачальниками програмного забезпечення. Як і те, що ми згадували в минулому, Dolby є одним із них. Є й інші, як ви згадали, Imint/Vidhance для EIS (електронна стабілізація зображення). Раніше ми також згадували Morpho та Arcsoft, ми з ними також дуже тісно співпрацюємо.
Що стосується того, як ми з ними працюємо, наша політика полягає в тому, що ми справді хочемо дуже тісно співпрацювати з цими незалежними постачальниками програмного забезпечення та робити впевнені, що незалежно від того, що вони роблять у програмному забезпеченні, вони можуть використовувати апаратне забезпечення Snapdragon, щоб отримати найнижче енергоспоживання можливо.
Тож одна з речей, яку ми робимо з цими постачальниками, полягає в тому, щоб переконатися, що вони мають дійсно хороший доступ до механізму HVX або ядра Hexagon DSP. Вони також використовують механізм EVA для отримання векторів руху та використовують апаратне забезпечення та механізм EVA для обробки зображень, щоб вони можуть виконувати переміщення зображень, переклад і деформацію тощо в апаратному забезпеченні, а не за допомогою графічного процесора що.
Тому ми справді тісно співпрацюємо з цими незалежними розробниками програмного забезпечення, особливо з тими, про яких я згадав, щоб переконатися, що вони не просто розміщують усе і програмне забезпечення в ЦП, але вони використовують такі речі, як DSP і апаратні прискорювачі в EVA, щоб підвищити продуктивність і знизити енергоспоживання споживання. Тож це також дуже важливо для нас, тому що це надає нашим клієнтам найкраще поєднання функцій і енергоспоживання.
[Заключні коментарі Джадда]: Я просто хотів сказати, що дякую вам за всі справді хороші запитання. Вони дуже, дуже докладні. Я працюю в Qualcomm близько трьох років і дивлюся на наше минуле, навіть після того, як я працював тут, де ми почали працювати над Spectra раніше Snapdragon 845, ми дуже наполегливо працювали, щоб істотно покращити ISP, і камеру, і просто загальний досвід протягом останніх кількох років. Мене дуже хвилює навіть те, що принесе майбутнє. І я в захваті від того, що ми оголосимо на майбутніх технічних самітах, про які ви, хлопці, зможете запитати та написати. [Spectra Camera], мабуть, на мою думку, є однією з найцікавіших технологій Qualcomm.
Заключні думки
Було чудово обговорити з Джаддом внесок Qualcomm у фотографію смартфонів. У нас можуть бути змішані почуття щодо компанії та її системи ліцензування патентів, але слід Qualcomm в індустрії смартфонів відчуває кожен, незалежно від того, патенти, 4G і 5G, Wi-Fi, графічні процесори Adreno, інтернет-провайдери Spectra та самі чіпи Snapdragon, які в основному вважаються золотим стандартом у смартфонах Android ринку.
Є ще багато проблемних моментів, які потрібно вирішити у фотографії на смартфоні, але майбутнє є Qualcomm обіцяє досягти більшого прогресу у величезних сферах машинного навчання, які розвиваються, ШІ. Давайте подивимося, що Qualcomm має оголосити в цій галузі на наступному технічному саміті Snapdragon.