ג'אד היפ של קוואלקום מסביר כיצד קוואלקום משפרת את חוויות המצלמה בטלפונים אנדרואיד עם תכונות חדשות בספקי האינטרנט שלה.
כיצרנית של מערכת-על-שבבים (SoCs) שמניעים חלק גדול מהטלפונים החכמים והלבישים בעולם, קוואלקום האמריקאית היא ללא ספק אחת הענקיות של תעשיית יצרניות השבבים. קו Snapdragon של SoCs, למשל, משמש כמעט כל יצרנית מכשירי אנדרואיד גדולה עבור סמארטפונים ספינת דגל, טווח בינוני ותקציב. קוואלקום זוכה לשבחים מדי שנה בפסגת הטכנולוגיה השנתית של החברה על התקדמות בתחומי המעבד, ה-GPU וה-AI, שכן היא משלבת את מיקרו-ארכיטקטורות ה-CPU החדשות של ARM ומשלים אותם עם שיפורים שנתיים במעבדי ה-GPU המותאמים אישית שלו. עם זאת, ההתקדמות שלה בתחום המצלמות אינה מורגשת כל כך, מכיוון שהן נוטות להיכנס תחת מכ"ם.
עם זאת, זה לא אומר שהעבודה של קוואלקום במצלמות סמארטפונים אינה חשובה. להיפך, ספקי האינטרנט של קוואלקום ב-Snapdragon ה-SoCs שלה עוזרים להפוך חלק גדול ממצלמות הסמארטפונים המודרניות לאפשריות עם מוגברת כוח עיבוד חישובי, תכונות כגון הקלטת וידאו 8K, וידאו HDR10, תמיכה במצלמות QCFA גבוהות מגה-פיקסל, ועוד הרבה, הרבה יותר. קוואלקום קידמה את ספקטרה 380 ספקית ב-Snapdragon 855
היה ה-CV-ISP הראשון בעולם, והיא קידמה את תכונות הקלטת וידאו 4K HDR הראשונות בעולם, אשר בעצמה נוספו כעת על ידי הקלטת וידאו 4K HDR10+ מהדור השני. ספקטרה 480 ISP בדור האחרון Snapdragon 865 הוא בעל יכולת גבוהה - הוא יכול לעבד שני גיגה פיקסל לשנייה, עלייה של 40% לעומת קודמו. זהו קניין רוחני (IP) שמבדיל את קוואלקום מהמתחרות שלה בתחום ספקי השבבים הניידים.בעוד קוואלקום מסבירה את רוב תכונות הכותרת בהודעות לעיתונות שלה ובהערות המרכזיות של המוצר, למעלה עד עכשיו, לצרכנים לא הייתה הזדמנות לדעת את רוב הפרטים הנמוכים שיוצרים את הדברים האלה עֲבוֹדָה.
זו הסיבה שאנו ב-XDA Developers שמחנו לקבל הצעה לדבר עם ג'אד היפ, מנהל בכיר, ניהול מוצר בקוואלקום. העורך הראשי של XDA, מישאל רחמן, ואני קיימנו ראיון עם ג'אד ביוני 2020 כדי ללמוד ולראות כיצד קוואלקום דוחפת את עמודי המטרה עם צילום סמארטפון והקלטת וידאו. דיברנו על נושאים הכוללים עיבוד תמונה בינה מלאכותית, הפחתת רעש מרובה פריים (MFNR), AV1, הקלטת וידאו Dolby Vision, שילוב פיקסלים במצלמות של מגה-פיקסל גבוה ועוד הרבה יותר. בואו נסתכל על התובנות של ג'אד בכל נושא בנפרד:
עומסי עבודה של עיבוד תמונה בינה מלאכותית
מישאל רחמן: אני אתחיל עם אחד מאלה שהיו לאיידריס, שהוא מעניין, וגם בו התעניינתי. אז אנחנו תוהים מה הם עומסי העבודה של עיבוד תמונה בינה מלאכותית שבה משתמשת קוואלקום ב-Spectra ISP ובאיזו מידה הם ניתנים להתאמה אישית על ידי יצרני המכשירים?
ג'אד היפ: כן, אז אנחנו מסתכלים על הרבה עומסי עבודה של AI ויש כמה AI שיכולים לפעול ב-ISP עצמו כמו, למשל, הדור הבא שלנו 3A: חשיפה אוטומטית, איזון לבן אוטומטי ומיקוד אוטומטי הם בינה מלאכותית מבוסס.
אבל אנחנו גם מסתכלים על כמה עומסי עבודה אחרים של AI, שיפעלו מחוץ ל-ISP, באחד ממרכיבי המחשוב האחרים. אז במיוחד אנחנו מסתכלים על דברים כמו: יש לנו ליבת הפחתת רעש מבוססת בינה מלאכותית הפועלת חיצונית מ-ISP, בחלק של מנוע ה-AI (AIE) של השבב.
כמו כן, יש לנו דברים כמו זיהוי פנים, שהוא מנוע למידה עמוקה מלא שפועל גם במתחם AIE, אבל כמובן מסייע למצלמה. ויש עוד דברים שאנחנו עובדים עליהם מלבד זיהוי פנים והשפלה; אנחנו גם בוחנים לעשות דברים כמו התאמה אוטומטית של צילומי מצב באמצעות AI שתוגדר אוטומטית פרמטרים לכל סצנה בהתבסס על תוכן HDR, היינו מעבדים כדי לשנות צל והדגשות וצבע וכאלה דָבָר.
אחד השותפים שלנו, Morpho, זכה זה עתה בפרס עומס עבודה ענק של AI בפסגת Embedded Vision Summit השנה. לשותפים של ספקי תוכנה עצמאיים יש גם הרבה אלגוריתמים מבוססי AI אינטנסיביים ואלה יכולים לנוע מכל דבר כמו מצלמה חלקה מעבר, כמו מה שארקסופט עושה, (ציינתי את זה בפסגת הטכנולוגיה האחרונה של Snapdragon המבוססת בינה מלאכותית), לפילוח הסמנטי של Morpho מנוע. הפתרון של Morpho הוא מנוע AI שמבין חלקים שונים של הסצנה, כמו מה אתה יודע, בד מול עור מול שמיים ודשא בנייה ודברים כאלה ואז ספק שירותי האינטרנט יכול לקחת את המידע הזה ולעבד את הפיקסלים האלה בצורה שונה עבור מרקם ורעש וצבע עבור דוגמא.
ההצהרה של קוואלקום: עבור ML ובינה מלאכותית אנחנו גם לא מכריזים על עדכונים חדשים לתכונות של זיהוי פנים ו-"3A" (AE, AF ו-AWB) גם היום. עם זאת, כפי שאמר ג'אד, אנו מחויבים, בהמשך הדרך, להביא יותר יכולת ML/AI למצלמה, כולל שני תחומי התכונות הללו.
ניתוח והקשר: בינה מלאכותית בסמארטפונים נחשבת במידה רבה מילת באז מאז שיחידות העיבוד העצביות הראשונות (NPU) ותכונות "מבוססות בינה מלאכותית" החלו להגיע בטלפונים אנדרואיד. עם זאת, זה לא אומר ש-AI עצמו חסר משמעות. להיפך, ל-AI יש פוטנציאל רב במובייל, עד לנקודה שבה ספקי שבבים ויצרני מכשירים כאחד רק מגרדים את פני השטח עד כה ממה שאפשר.
הודות לבינה מלאכותית, מצלמות הסמארטפונים הפכו טובות יותר - לפעמים במהירות, לפעמים לאט מייסר, אבל הן מגיעות לשם. מצלמות סמארטפונים מתגברות על מגבלות בסיסיות כמו חיישנים קטנים יחסית, קבועים אורכי מוקד, ואופטיקה גרועה יותר עם צילום חישובי חכם המופעל על ידי למידת מכונה (ML). חשיפה אוטומטית, הפחתת רעש, זיהוי פנים ופילוח הם רק חלק מהתחומים שבהם AI בצילום סמארטפונים הצליח להשפיע. בחמש השנים הקרובות, התחומים המתהווים של AI המשפרים היבטים שונים של צילום יבשילו מאוד.
הפחתת רעש רב-פריים
אידריס פאטל: קוואלקום הזכירה הפחתת רעש רב-פריים כתכונה. אני רוצה לדעת יותר פרטים על זה כמו איך ערימת התמונות עובדת. האם זה דומה באיזשהו אופן לאהוב את מה שגוגל עושה עם טכנולוגיית ה-HDR+ שלהם או שזה שונה לחלוטין?
ג'אד היפ: זה דומה אבל שונה. דמיינו את המצלמה עושה פרץ ומצלמת חמישה עד שבעה פריימים ברצף מהיר. ואז מנוע ה-ISP מסתכל על המסגרות הללו ובוחר את הטוב ביותר (הנקרא "מסגרת העוגן") עבור מיקוד ובהירות ואז הוא יכול לבחור 3-4 פריימים משני הצדדים של המסגרת הזו ואז ממוצע של כולם יַחַד. הוא מנסה לבחור מסגרות קרובות מספיק זו לזו כך שתהיה מעט מאוד תנועה.
וכאשר הוא מתיישב על הפריימים האלה, הוא מעמיד אותם בממוצע כדי להבחין במה שונה, למשל, מה הם נתוני תמונה בפועל לעומת נתוני רעש. אז כשיש לך יותר ויותר מידע, מעוד ועוד מסגרות, אתה יכול למעשה לעשות דברים פשוטים כמו להסתכל על ההבדלים בין המסגרות. ההבדלים הם כנראה רעש, ואילו מה ששווה במסגרות הם כנראה נתוני תמונה.
אז אנחנו יכולים לעשות את שילוב המסגרת בזמן אמת כדי להפחית את הרעש. עכשיו, אתה יכול גם לעשות את אותו הדבר עם תאורה חלשה ו-HDR וזה דומה מאוד למה שגוגל כנראה עושה. אנחנו לא בקיאים באלגוריתם שלהם. אבל הם משתמשים בטכניקות ריבוי מסגרות כדי להגביר את הרגישות כך שתוכל "לראות" טוב יותר; לאחר שהקטנת את רצפת הרעש, כעת תוכל להסתכל על ביצוע מיפוי גוונים מקומי יותר, או הוספת רווח לתמונה מבלי להוסיף עוד רעש.
אז ככה הם מטפלים בתאורה חלשה, כמו גם ב-HDR. שיפורים לתכונת הפחתת הרעשים הרב-פריים יגיעו מ-Qualcomm, שתכלול גם תאורה חלשה ו-HDR. אבל זה משהו שנוציא בקרוב.
מישאל רחמן: אז הזכרת את השקת התכונה הזו בקרוב. האם זה מגיע כמו עדכון ל-BSP עבור שותפים?
ג'אד היפ: במוצרי הדור הבא שלנו, באמצעות תוספת תוכנה, תהיה לנו את היכולת לעסוק - למעשה זה קורה עכשיו ב- הבא מוצרי דור - אנחנו בקשר עם לקוחות עכשיו כדי לעשות יותר טכניקות ריבוי מסגרות מעבר להפחתת רעש, אבל גם כדי להתמודד עם HDR ואור נמוך מצבים. הוא משתמש באותו מנוע בסיס ISP HW, אבל אנחנו מוסיפים תוכנה נוספת כדי להתמודד עם ריבוי מסגרות אלה ליותר מסתם הפחתת רעש.
אז זה לא משהו שהתגלגל, אבל אנחנו בקשר עם כמה לקוחות מובילים מרכזיים בתכונות האלה.
ניתוח והקשר: עם כל הכרזת Snapdragon SoC חדשה, טבלת המפרטים של קוואלקום כוללת מפרטים הקשורים להפחתת רעש רב-פריים. ה-Snapdragon 865, למשל, עם ספקי ה-ISP הכפולים של 14 סיביות תומך במצלמה בודדת היפותטית של עד 200MP (למרות שספקי חיישני מצלמות כמו סוני, סמסונג ואומניוויז'ן עדיין לא שחררו שום חיישן מצלמות סמארטפונים מעל 108MP). עם זאת, כשמדובר בתמיכה במצלמה יחידה עם MFNR, השהיית תריס אפסית (ZSL) ותמיכה של 30 פריימים לשנייה, המפרט משתנה ל-64MP, ולמצלמות כפולות עם אותו מפרט, המפרט משתנה ל 25MP.
הפחתת הרעש הרב-פריים של קוואלקום דומה מאוד ל-HDR+ אבל לא לגמרי זהה, כפי שהוסבר על ידי Judd לעיל. בעוד HDR+ לוקח סדרה של חשיפות חסרות חשיפה וממוצע אותן כדי לקבל את התמונה הטובה ביותר, MFNR לוקח חמש-שבעה פריימים רגילים. לא נראה שה-MFNR של קוואלקום מתקדם כמו הפתרון של גוגל מכיוון ש-HDR ותאורה חלשה אינם מוזכרים כעדיפויות ספציפיות כרגע זרימת עבודה עבור Spectra, בעוד ש-HDR+ של גוגל מתמקד ב-HDR, צילום באור נמוך והפחתת רעש בו-זמנית, כאשר ראיית לילה תופסת את זה אפילו נוסף. עם זאת, זה מעודד לדעת ש-MFNR מקבל שיפורים וקוואלקום תשיק את השיפורים הללו ל"כמה לקוחות מפתח". בעתיד, אולי לא נזדקק ליציאות לא רשמיות של מצלמת גוגל כדי להשיג את מלוא הפוטנציאל של מצלמות סמארטפונים שאינן של גוגל אנדרואיד.
רזולוציה סופר עבור וידאו
מישאל רחמן: אז, משהו ששמעתי בפסגת הטכנולוגיה. למעשה, אני חושב שזה היה בראיון עם רשות אנדרואיד. האם קוואלקום מתכננת להרחיב את רזולוציית העל לווידאו כפתרון תוכנה עבור שותפים ושזה יתפרסם בעדכון, ככל הנראה. אני תוהה אם יש לך עדכונים לחלוק על תכונה זו.
ג'אד היפ: כן, אז זו תכונה שהייתה לנו את היכולת לעשות מזה זמן מה, והיא רק עכשיו מתגלגלת. לא הייתי אומר שזה בעדכון תוכנה, אבל הייתי אומר שזה סוג של יתרון נוסף של יכולת ריבוי הפריימים הקיימת עם תאורה נמוכה. אנחנו בקשר עם כמה לקוחות מובילים ספציפיים לגבי התכונה הזו. אז כן, רזולוציית סופר וידאו היא משהו בדור אחר או כך יהיה לנו את זה כמו שאנחנו להתקשר לתכונת תוכנית שיא שבה היא למעשה מובנית בבסיס קוד התוכנה עבור [ה] מַצלֵמָה. אבל כרגע, זה יותר ברמת התקשרויות ספציפיות של לקוחות עבור אותה תכונה חדשה.
ניתוח והקשר: רזולוציית סופר וידאו היא תכונה שעד כה לא הופיעה במצלמות סמארטפונים. זה תחום כל כך חדש עבודות מחקר עדיין נכתבות על זה. שימוש בטכניקות ריבוי פריים לצילום הוא דבר אחד, אבל השימוש בהן לווידאו כדי לשדרג את הסרטון לרזולוציה גבוהה יותר זה עניין אחר לגמרי. קוואלקום אומרת שהיא מפיקה את התכונה ל"כמה לקוחות מפתח" שוב, אבל כרגע היא לא מובנית בבסיס קוד התוכנה של המצלמה. בעתיד, זה אולי יהיה זמין לכולם, אבל לעת עתה, זו תכונה שצרכני הקצה אפילו לא הספיקו להשתמש בה עדיין.
חיישני Quad Bayer בעלי מגה-פיקסל גבוה
אידריס פאטל: בואו נדבר על חיישני Quad Bayer. מאז 2019, לטלפונים רבים יש כעת חיישני 48MP, 64MP ועכשיו אפילו 108MP. אלו חיישני Quad Bayer; למעשה, אין לך רזולוציית צבע אמיתית של 48 או 64 או 108 מגה פיקסל. דבר אחד שרציתי לשאול הוא מה ההבדל בין ISP מבחינת עיבוד תמונה עבור Quad Bayer או Nona אלה חיישני באייר (4-in-1 או 9-in-1 פיקסלים binning), בהשוואה לחיישנים מסורתיים, שאין להם שום פיקסל בנינג.
ג'אד היפ: כן, אז כמובן היתרון של חיישני ה-CFA המרובע (Quad Color Filter Array) אלה הוא היכולת לפעול באור בהיר אותם ברזולוציה מלאה, ואז ספק שירותי האינטרנט יכול לעבד אותם ברזולוציה של 108 מגה פיקסל או 64 מגה פיקסל או מה שזה לא יהיה זמין.
עם זאת, בדרך כלל ברוב מצבי התאורה, כמו מקורה או חושך, אתה צריך לאחסן בגלל הפיקסלים של החיישן כל כך זעירים שאתה צריך לשלב פיקסלים כדי לקבל רגישות טובה יותר לאור. אז הייתי אומר שרוב הזמן, במיוחד אם אתה מצלם וידאו או אם אתה בתאורה חלשה לצורך צילום, אתה פועל במצב אינטגרלי.
כעת, ספק שירותי האינטרנט יכול לעבד את החיישן בכל מקרה. אתה יכול להסתכל על החיישן במצב bind ובמקרה זה רק תמונה רגילה של באייר נכנסת, או שהוא יכול להסתכל עליו במצב ברזולוציה מלאה שבו הנתונים הנכנסים הם CFA מרובע. ואם זה במצב הזה ספק שירותי האינטרנט ממיר אותו לבאייר.
אז אנחנו עושים - מה שאנחנו מכנים - "רימוזיז". זה עושה קצת אינטרפולציה של תמונת ה-CFA המרובעת כדי לגרום לה להיראות שוב כמו באייר ברזולוציה מלאה. וזה נעשה בדרך כלל בתוכנה לצילום מצב, למרות שבסופו של דבר אנחנו הולכים להוסיף את היכולת הזו בחומרה כדי לתמוך גם בווידאו.
מה שיש היום בחומרה של ספק שירותי האינטרנט הוא binning. אז אתה יכול לאחסן את החיישן ואתה יכול למעשה לגרום לחיישן להחליט אם הוא יוציא רזולוציה מלאה או רבע או 1/9 או שאתה יכול לאחסן ב-ISP. וזו תכונה שהוספנו ב-Snapdragon 865, למעשה. אז אם אתה מכניס את ה-ISP ואז מפעיל את החיישן ברזולוציה מלאה, זה נותן ל-ISP את היכולת לקבל גם את התמונה ברזולוציה מלאה וגם את התמונה המצורפת בו-זמנית. לכן, הוא יכול להשתמש ברזולוציה הקטנה יותר או בתמונה ה"אסומה" עבור וידאו (מצלמת וידאו) ותצוגה מקדימה (עינית) ובו זמנית להשתמש בתמונה ברזולוציה מלאה לצילום בגודל מלא.
אבל שוב, זה יהיה במקרה של תנאי תאורה בהירים. אבל לפחות אם אתה מכניס את ISP, יש לך את היכולת להתמודד עם התמונה הגדולה והקטנה גם כן באותו זמן, ולכן, אתה יכול לקבל וידאו ותמונת מצב בו זמנית, אתה יכול גם לקבל רזולוציה מלאה ZSL; כל זאת מבלי להחליף את החיישן קדימה ואחורה, דבר שלוקח זמן לא מבוטל.
זו תכונה ממש טובה. וכחיישני Quad CFA ואפילו אתה יודע, חיישני ה-9x ואולי אפילו יותר יוצאים החוצה, וככל שהחיישנים האלה הופכים ליותר בכל מקום - אנחנו מחפשים יותר ויותר לטפל בחיישנים האלה בחומרה, לא רק עבור binning אלא גם עבור רימוזאיקה.
ולכן היתרון של זה הוא שאם אתה עושה את זה בחומרה לעומת עושה את זה בתוכנה אתה מפחית את זמן השהייה ללקוחות שלך, ולכן, זמני ה-shot to shot שלך וקצבי הפריצה שלך יהיו הרבה יותר מהירים. אז כשאנחנו צועדים קדימה עם ספקי אינטרנט חדשים ושבבים חדשים, אתה תתחיל לראות הרבה יותר ממה שאנחנו עושים עבור סוגי החיישנים החדשים האלה שהוכנסו לחומרה.
ניתוח והקשר: Huawei הייתה הראשונה להשתמש בחיישן 40MP Quad Bayer עם ה- Huawei P20 Pro בשנת 2018, והפופולריות של חיישני Quad Bayer הייתה כל כך גבוהה שהיא עשתה את דרכה אפילו לטלפונים של 150 $ המופעלים על ידי שבבי Snapdragon/Exynos/MediaTek. בפרט, ראינו את תעשיית הסמארטפונים מגיעה למצלמות 48MP ו-64MP כנקודה המתוקה, בעוד שכמה טלפונים אכן מגיעים ל-108MP. חיישני Quad Bayer ונונה באייר אינם מגיעים ללא שליליים, שכן הרזולוציה המלאה שלהם מגיעה עם אזהרות.
עם זאת, מסיבות שיווקיות, חיישן 48MP נשמע הרבה יותר טוב מחיישן 12MP, גם אם המשתמש מצלם תמונות של 12MP פיקסלים רוב הזמן בכל מקרה. חיישן 48 מגה פיקסל אמור להביא באופן תיאורטי לתמונות טובות יותר עם פיקסל של 12 מגה פיקסל באור נמוך מאשר 12 מגה פיקסל מסורתי חיישן, אבל עיבוד התמונה צריך לעמוד בקצב, וכפי שציינתי להלן, יש עוד דרך ארוכה לעבור בשביל זה לִקְרוֹת. בלי קשר, היה מעניין לראות כיצד ספקטרה ספקית מטפלת בחיישני Quad Bayer עם רימוזאיקה. יש הרבה פוטנציאל בחיישנים האלה, וטלפונים כמו OnePlus 8 Pro (המשתמש בחיישן Sony IMX689 Quad Bayer עם פיקסלים גדולים) נמצאים כעת בפסגת מצלמות הסמארטפונים.
זיהוי פנים מבוסס ML
מישאל רחמן: אז אני חושב שקודם לכן הזכרת שזיהוי פנים מבוסס ML נתמך ב-Spectra 480. זה משהו שבאמת שמעתי בפסגת הטכנולוגיה. [זהו] אחד השיפורים מה-380 ל-480; שזה חלק מה- יש בלוק זיהוי אובייקטיבי חדש במנוע ניתוח הווידאו המשמש לזיהוי מרחבי קדימה.
האם אתה יכול לדבר יותר על כמה זה משפר את זיהוי הפנים ואילו יישומים פוטנציאליים אתה רואה שהם נמצאים בשימוש על ידי ספקים?
ג'אד היפ: כן בעצם, אז אתה צודק בבלוק הראייה הממוחשבת, שהוא בלוק ה"EVA", עליו דיברנו ב-Tech Summit. יש בה ליבת זיהוי עצמים כללית בה אנו משתמשים כשהמצלמה פועלת, אנו משתמשים בה כדי לזהות פרצופים. הטכניקות בבלוק זה הן טכניקות מסורתיות יותר, ולכן זיהוי האובייקט נעשה עם מסורתי מסווגים, אבל נוסף על כך יש לנו מנוע תוכנה שפועל כדי לשפר את הדיוק של זה לַחסוֹם.
אז אנחנו משתמשים בתוכנה מבוססת ML כדי לסנן את התוצאות הכוזבות, מכיוון שהחומרה עשויה לזהות יותר דברים כפנים בסצנה, ואז תוכנת ML היא אומר, "בסדר זה פנים", או "זה ממש לא פנים" ולכן זה מגדיל את הדיוק בכמה אחוזים על ידי הפעלת מסנן ML על גבי חוּמרָה.
הזכרתי הרבה דברים על העתיד. בהמשך, מה שאנו מתכננים לעשות הוא גם להפעיל את כל זיהוי הפנים עצמו ב-ML או במצב למידה עמוקה בתוכנה. במיוחד, זה יהיה נכון בשכבות הנמוכות, כך למשל בשכבה שבה אין לנו את מנוע החומרה של EVA, נתחיל לשלב למידה עמוקה כזיהוי, שפועל במנוע ה-AI של השבב ולאחר מכן, בשכבות העליונות בשכבות 700-800, יש לנו את חומרת ה-EVA לעשות זאת...
עם זאת אגיד באופן כללי, אנו נתקדם יותר לכיוון גישות ML לזיהוי פנים וזה יכלול גם תוכנה בטווח הבינוני וגם חומרה בטווח מאוחר יותר. אני לא מתכוון לחשוף באילו מוצרים יהיה את זה, אבל כמובן שככל שאנו צועדים קדימה בשיפור ה-ISP, נוסיף עוד ועוד יכולת חומרה לביצוע ML, בוודאות.
מישאל רחמן: מדהים. ובכן, אני חושב שזה מובן מאליו שהכיוון שאליו אתה הולך הוא להוריד את שיפורי למידת המכונה של סדרת 800 לרמה הנמוכה יותר, אז אני חושב שזה בדרך כלל מובן מאליו. אבל כמובן, אתה לא יכול לתת לנו פרטים על זה. תודה לך על העדכון.
ג'אד היפ: זיהוי פנים הוא משהו שאנחנו מאוד נלהבים ממנו. אנחנו רוצים לשפר את הדיוקים האלה, אתה יודע דור על דור בכל השכבות כל הדרך משכבת 800 ועד לשכבת 400. ML הוא חלק גדול מזה.
ניתוח והקשר: היבטים אלה הם מה שנותנים לצילום סמארטפון הרבה יותר פוטנציאל אפילו למצלמות חסרות המראה העדכניות ביותר. כן, למצלמות חסרות המראה יש איכות תמונה טובה יותר בתאורה נמוכה והן הרבה יותר גמישות, אבל מצלמות הסמארטפונים מתגברות על מגבלותיהן בדרכים גאוניות. זיהוי פנים מבוסס ML הוא רק חלק מזה.
שיפורים במנוע עיבוד התמונה
מישאל רחמן: מדהים. אז אחד הדברים ששמעתי בקצרה במהלך הדיונים בשולחן העגול לאחר פסגת הטכנולוגיה Snapdragon היה שיפור במנוע עיבוד התמונה. שמעתי שיש שיפור הפחתת רעש בתדר בינוני נמוך או LEANR. ושאתה מיישם מפת רווח הפוך דינמית; זה משהו שהזכרת קודם בשיחה.
ג'אד היפ: אה בסדר. אז אני חושב שאתה מערבב שני דברים ביחד. כן, אז יש את הליבה של LEANR, שהיא הליבה שעובדת על הפחתת רעש על גרגר גס יותר, מה שעוזר באור נמוך. זה בלוק חדש שהתווסף ב-Snapdragon 865 לספק האינטרנט, וזה דבר אחד.
מפת הרווח ההפוכה היא משהו אחר. זה עוד משהו שציינתי בשולחנות העגולים, אבל זה להפוך את ההשפעות של הצללת עדשות. אז כפי שאתה יודע, אם יש לך מכשיר ויש לו עדשה קטנה; מרכז העדשה הולך להיות בהיר והקצוות יהיו יותר מוארים; כלומר הם יהיו אפלים יותר.
וכך בשנים עברו ב-ISP, מה שהיה לנו הוא שהחלנו מפת רווח הפוך סטטית כדי להיפטר מהקצוות האפלים האלה. וכך זה קיים ב-ISP כבר די הרבה זמן. עם זאת, מה שהוספנו ב-Snapdragon 865 הוא היכולת של מפת הרווח הזו להשתנות באופן דינמי בהינתן מסגרת התמונה המסוימת, כי אם תחיל רווחים רבים על הקצוות מה שקורה הוא שהקצוות עלולים להיחתך, במיוחד אם אתה מסתכל על סצנות אור בהיר בחוץ, כמו שמיים כחולים יכולים להיות לבנים או שהקצוות ייחתמו בגלל הרבה לְהַשִׂיג.
אז ב-Snapdragon 865, מפת הרווח הפוכה אינה סטטית; זה דינמי. אז אנחנו מסתכלים על התמונה ואומרים, "בסדר, החלקים האלה של התמונה נחתכים והם לא צריכים להיות" כדי שנוכל להתגלגל מחוץ למפת הרווח באופן טבעי כדי שלא תקבל שוליים בהירים או אפקטים של הילה או דברים כאלה מתיקון העדשה הצללה. אז זה שונה מהפחתת רעש, והן שתי ליבות שונות.
צילום בתאורה נמוכה והפחתת רעש אגרסיבית
אידריס פאטל: אז דבר אחד שרציתי לשאול לגביו היה צילום בתאורה נמוכה. כמו בשנים האחרונות, היו הרבה מצבי לילה [מיושמים ב-OEM], אבל דבר אחד ששמתי לב אליו הוא יצרני מכשירים רבים הולכים על הפחתת רעש אגרסיבית, אשר מפחיתה פרטים, עד לנקודה שבה אפילו רעש זוהר הוא הוסר.
אז השאלה שלי היא האם קוואלקום ממליצה לכל יצרני מכשירים לא לעשות זאת והאם זה משהו שצינורות העיבוד שלהם עושים, או שזה משהו שמושפע מה-ISP ב-SoC.
ג'אד היפ: הרבה מזה קשור לכוונון, ואם אין לך ריבוי פריים, או שהייתי אומר שאין חיישן תמונה טוב מאוד, עם רגישות גבוהה או אופטיקה עם מספרי f נמוכים. אחת הדרכים להיפטר מרעשים בתאורה חלשה במיוחד היא להחיל יותר הפחתת רעש, אבל מה שקורה כשאתה מפעיל יותר הפחתת רעש הוא שאתה מאבד פרטים, כך שהקצוות החדים הופכים מטושטשים. כעת, אתה יכול להיפטר מזה אם אתה מיישם את הטכניקות הרב-מסגרות הללו. או אם אתה מיישם טכניקות AI, שיכולות להבין היכן נמצאים קצוות של אובייקטים ופנים, וכאלה. אז הפעלת רק הפחתת רעש בכוח גס בעידן הזה היא לא באמת הדרך להתמודד עם זה כי בסופו של דבר אתה מאבד פרטים.
מה שאתה רוצה לעשות זה לעשות טכניקות ריבוי מסגרות או טכניקות AI כך שאתה עדיין יכול להחיל רעש צמצום לאזורים פנימיים יותר של חפצים תוך שמירה על קצוות נקיים ונקיים או שמירה על קצוות חדים חפצים. אז זה מה שהייתי אומר: שימוש ב-AI או ב-multi-frame הוא הדרך לעשות את הפחתת הרעשים ולשפר את התמונות בתאורה חלשה קדימה.
אידריס פאטל: כן, וזה בדיוק מה שרציתי לשמוע. [זה] כי זה הדבר העיקרי שמפריד בין מצלמות סמארטפונים מעולות למצלמות מהדרג הבינוני או התקציבי.
ג'אד היפ: כן.
אידריס פאטל: מצלמות סמארטפונים מעולות יודעות מתי ליישם הפחתת רעש ומתי לא.
ג'אד היפ: בדיוק. כן, וכמו שאמרתי, כוונון המצלמה נעשה באמת על ידי הלקוחות שלנו או יצרני OEM, ויש יצרני OEM שמעדיפים תמונה רכה יותר עם פחות רעש. חלקם מעדיפים לחשוף יותר פרטים עם אולי קצת יותר רעש.
אז זה פשרה ולכן יש לך מגבלות. וזה כמו שאמרתי הדבר הטוב ביותר לעשות, הוא לקבל חיישן תמונה טוב יותר עם רגישות גבוהה יותר, פיקסלים גדולים יותר או אופטיקה של מספר f נמוך יותר, כי אז אתה מקבל יותר אור מההתחלה, זה תמיד טוב יותר. אבל אם אתה לא יכול לעשות את זה, אז במקום פשוט להגביר את הפחתת הרעש ולאבד פרטים, מה שאתה רוצה לעשות הוא להשתמש בטכניקות ריבוי מסגרות או AI.
ניתוח והקשר: זו, לדעתי, כרגע הבעיה הגדולה ביותר עם מצלמות סמארטפונים. כן, אתה יכול להשתמש בחיישן 48MP או 64MP או אפילו 108MP. עם זאת, אם אינך בוחר להשתמש בהפחתת רעש מאופקת עם טכניקות MFNR או AI, כל המגה-פיקסל, 4-in-1 binning ואפילו 9-in-1 binning אינם מועילים במיוחד. ה-Galaxy S20 Ultra הוא הדוגמה הבולטת כאן, כמצלמה הראשית של 108MP נחשבה במידה רבה כאכזבה. סמסונג הלכה אחורה בעיבוד תמונה על ידי שימוש בהפחתת רעש אגרסיבית ביותר במצבי הלילה שלה בספינות הדגל שלה של 2020, בעוד שלסדרת ה-Galaxy S10 2019 הייתה למרבה האירוניה איכות תמונה טובה יותר.
ג'אד מגלה שחלק מיצרני הציוד המקורי מעדיפים למעשה תמונה רכה יותר עם פחות רעש, וזו בעצם הבחירה השגויה לעשות. הכוונון נעשה על ידי יצרני מכשירים ומכאן ששני טלפונים המשתמשים באותו חיישן ומופעלים על ידי אותו SoC יכולים להוציא תמונות מאוד מאוד שונות. יש לקוות שיצרניות המכשירים הללו ילמדו את האמת מהמתחרים בעלי הביצועים הטובים יותר שלהם. בעוד שסמסונג איבדה את דרכה בעיבוד תמונה השנה, OnePlus היווה ניגוד מוחלט. ה-OnePlus 8 Pro היא אחת ממצלמות הסמארטפונים הטובות ביותר בשוק, וזה הישג בולט בהתחשב בתפוקה הדלה מאוד של המצלמה של ה-OnePlus 5T ב-2017. הלך הרוח של עיבוד התמונה חייב להשתנות כדי שהתמונות ייצאו חדות, לא משנה כמה מלחמות המגה-פיקסל משתוללות.
AV1 פענוח וקידוד
מישאל רחמן: אז זה קצת נפרד מהדיונים האחרים שאנחנו מנהלים על איכות המצלמה. אחד הדברים שכמה אנשים בקהילת ה-Codec מדיה בקוד פתוח תהו זה מתי קוואלקום תתמוך פענוח AV1 ואולי קידוד. אני יודע שזה קצת קשה אבל גוגל דורשת טלוויזיות 4K HDR ו-8K באנדרואיד 10 כדי לתמוך בפענוח AV1 ובנטפליקס, יוטיוב, הם מתחילים את השקת סרטונים המקודדים ב-AV1. אז זה נראה כמו עלייה איטית של סרטונים מקודדים ב-AV1. אז אנחנו תוהים מתי לפחות התמיכה בפענוח תהיה זמינה ב- Spectra.
ההצהרה של קוואלקום: לפי שאלתך ב-AV1 - אין לנו מה להכריז היום. עם זאת, Snapdragon מסוגל כרגע להשמיע AV1 באמצעות תוכנה. קוואלקום תמיד עובדת עם שותפים על קודקים מהדור הבא באמצעות ייצור תוכנה וחומרה Snapdragon המובילה ב-Codec HDR כולל לכידה והשמעה ב-HEIF, HLG, HDR10, HDR10+ ו-Dolby חָזוֹן. כמובן, אנו מבינים כדי להביא את חוויות ה-CODEC הטובות ביותר ללקוחותינו, כולל תמיכה ברזולוציה גבוהה והספק הנמוך ביותר, שרצוי ליישם אותן ב-HW.
הקלטת וידאו - פיצוי תנועה
מישאל רחמן: אז אני לא יודע אם ל-Idrees יש שאלות נוספות, אבל הייתה לי שאלה אחת לגבי משהו שקראתי עוד בפסגת הטכנולוגיה Snapdragon. זה לגבי ליבת הווידאו מפוצת תנועה. שמעתי שיש שיפורים במנוע פיצוי התנועה, כדי להפחית את הרעש בעת הקלטת וידאו. תהיתי אם אתה יכול להרחיב מה בדיוק שופר ומה נעשה.
ג'אד היפ: מנוע ה-EVA (Engine for Video Analytics) שופר עם ליבת מפת תנועה צפופה יותר כך שה-EVA מנוע, אתה יודע, למשל תמיד מסתכל על הסרטון הנכנס ויש לו ליבה שעושה תנועה אוּמדָן. מה שעשינו זה שעשינו את הליבה הזו הרבה יותר מדויקת במקום שבו היא עושה את זה כמעט ברמה של פיקסל ולא כמו יותר רמת בלוק גס ולכן אנו מוציאים הרבה יותר וקטורי תנועה ממנוע ה-EVA ב-Snapdragon 865 ממה שעשינו בעבר דורות. ומה שזה אומר הוא שליבת הווידאו שעושה קידוד יכולה להשתמש בוקטורי התנועה האלה כדי להיות יותר מדויק לגבי הקידוד, אבל ספק שירותי האינטרנט בצד המצלמה משתמש גם במידע הזה לרעש צִמצוּם.
אז כידוע, במשך דורות יש לנו סינון זמני עם פיצוי על תנועה, שהוא בעצם הפחתת הרעש האקטיבית במהלך הווידאו, שמבצעת ממוצע של פריימים לאורך זמן כדי להיפטר מהרעש.
עם זאת, הבעיה בטכניקה הזו היא אם יש לך תנועה בסצנה. תנועה בסופו של דבר פשוט נדחתה מהפחתת רעש כי אי אפשר להתמודד איתה או שהיא נמרחת, ואתה מקבל את השבילים והחפצים המכוערים האלה על חפצים נעים. אז, בסינון זמני מפיצוי בתנועה, מה שעשינו בעבר מאז שלא הייתה לנו מפת תנועה צפופה זו עבור מקומי תנועה, יש לנו - טיפלנו רק במקרים כאשר אתה מזיז את המצלמה, זה די קל כי הכל זז באופן גלובלי.
אבל אם אתה מצלם משהו ויש לך חפץ שזז בתוך הסצנה, מה שעשינו קודם [זה] פשוט התעלמנו מהפיקסלים האלה כי לא יכולנו לעבד אותם לרעש, כי זה היה נע מקומי לְהִתְנַגֵד. ולפיכך, אם עשיתם ממוצע של פריים אחר פריים, האובייקט היה במקום אחר בכל פריים כך שלא באמת יכולת לעבד אותו.
אבל ב-Snapdragon 865, מכיוון שיש לנו את מפת התנועה הצפופה יותר ויש לנו את היכולת להסתכל על וקטורי התנועה על כמעט פיקסל לפי בסיס פיקסלים, אנחנו למעשה מסוגלים לעבד את הפיקסלים שהוזזו מקומית מסגרת אחר מסגרת להפחתת רעש, בעוד שקודם לכן לא יכולנו. אני חושב שהזכרתי מדד בהרצאה. אני לא זוכר את המספר (זה היה 40%) אבל זה היה אחוז גדול של פיקסלים בממוצע עבור רוב הסרטונים שניתן כעת לעבד עבור רעש, בעוד שבדור הקודם, הם לא יכלו להיות. וזה באמת חלק מהיכולת להבין תנועה מקומית ולא רק תנועה גלובלית.
הקלטת וידאו - HDR
אידריס פאטל: שאלה נוספת שיש לי היא לגבי וידאו HDR. השנה, אני רואה הרבה יותר יצרני מכשירים מציעים הקלטת וידאו HDR10. אז האם זה משהו שקודם עם Snapdragon 865, או שהוא היה שם מאז כמה דורות.
ג'אד היפ: אה כן, אז כשדיברנו על זה ב-Tech Summit, היה לנו HDR10, שהוא תקן הווידאו עבור HDR ב- צד מקודד המצלמה כבר כמה דורות, מאז Snapdragon 845, אני מאמין, ושפרנו כל הזמן זֶה.
אז בשנה שעברה, דיברנו על HDR10+, שזה הקלטת HDR של 10 סיביות, אבל במקום עם מטא נתונים סטטיים יש לה מטא נתונים דינמיים, אז המטא נתונים שנלכדים על ידי המצלמה במהלך הסצנה למעשה מוקלט בזמן אמת, כך שכאשר אתה מנגן אותה מנוע ההשמעה מבין אם זה היה חדר חשוך או חדר מואר, והוא יכול לפצות על זֶה.
בשנה שעברה ב-Tech Summit דיברנו גם על לכידת Dolby Vision, שהיא האלטרנטיבה של Dolby ל-HDR10+. זה מאוד דומה למקום שבו הם למעשה מייצרים גם את המטא-נתונים הדינמיים. אז Snapdragon היום יכול לתמוך בכל שלושת הפורמטים האלה: HDR10, HDR10+ ולכידת Dolby Vision. ולכן אין שום מגבלה, יצרני ה-OEM שלנו יכולים לבחור כל שיטה שהם מעדיפים. יש לנו לקוחות שמשתמשים ב-HDR10 כבר זמן מה, ויש לנו בשנה שעברה והשנה יותר ויותר לקוחות שאוספו HDR10+. ואני חושב שבעתיד תראה אימוץ מסוים של Dolby Vision Capture גם כן.
אז כן, קדמנו את זה מאוד. HDR באמת חשוב לנו, גם בצד הצילום וגם בצד הווידאו. וכמו שאמרתי, היינו מחויבים ל-HDR10 ו-HDR10+ ועכשיו לפורמטים של Dolby Vision, אתם יודעים מאז Snapdragon 845 ועכשיו אפילו לאחרונה Snapdragon 865 עבור Dolby Vision.
מישאל רחמן: כמו כן, למעשה לא הייתי בטוח אם יש ספקים שהטמיעו עדיין הקלטת Dolby Vision, אבל אני מניח שזה עונה על השאלה הזו. [זה] משהו שנראה בעתיד.
ג'אד היפ: כמובן - אני לא יכול להגיב איזה ספקים מתעניינים וכאלה. זו תהיה שאלה עבור דולבי; זה התכונה שלהם, אז אם אתה רוצה מידע נוסף על זה, הייתי מציע ליצור קשר עם Dolby. אבל עד היום, עד כמה שידוע לי, לא היה מכשיר שעדיין יצא עם Dolby Vision Capture.
אידריס פאטל: כי אתה צריך גם תמיכה בתצוגה. שמתי לב שתצוגות סמארטפונים תומכות ב-HDR10 ו-HDR10+ אך לא ב-Dolby Vision.
ג'אד היפ: כן למעשה, אבל השמעת Dolby Vision נתמכה ב-Snapdragon בעבר. זה יכול לעבוד עם צג נתון והתצוגה לא חייבת לעמוד בהכרח בקריטריונים מסוימים כדי להיות תואם ל-Dolby Vision מלבד זה דולבי תדרג את התצוגה ותוודא שיש לה סולם צבעים מסוים, גמא, עומק סיביות מסוים, בהירות מסוימת וניגודיות מסוימת יַחַס.
אז, אתה יודע, אתה יכול לקנות צג HDR10, אבל אתה יכול גם לקנות מכשיר התומך ב-Dolby Vision השמעה, אבל דובי יתאים את התצוגה הזו כדי לוודא שהיא תואמת את המחמירים שלהם דרישות.
שיתוף פעולה עם ספקי תוכנה: Imint, Morpho ו- Arcsoft
מישאל רחמן: אני מניח שרק שאלה אחת שאוכל לעקוב אחריה, לעשות איתה מחקר נוסף היא חברה אחת שאיתה דיברנו לאחרונה היא אימינט. לאחרונה הם שדרגו את שלהם תוכנת Vidhance Stabilization ל לעבוד עם ה-Spectra 480. אני יודע שאתם עובדים עם הרבה חברות שגם מנצלות את ה-Spectra 480, העיבוד. אני תוהה אם אתה מסוגל לחשוף דוגמאות נוספות לטכנולוגיות האלה שיש להן - או לשותפים שיש לך עבדנו איתו, רק כדי שזה יהיה] משהו שנוכל לעקוב אחריו, ללמוד עוד על אופן השימוש ב-Spectra 480 ב- שדה.
ג'אד היפ: אנחנו עובדים עם הרבה ספקי תוכנה. כמו מה שהזכרנו בעבר, Dolby הוא אחד מהם. יש עוד כאלה כמו שציינת, Imint/Vidhance for EIS (ייצוב תמונה אלקטרוני). הזכרנו גם את Morpho ואת Arcsoft בעבר, אנחנו עובדים איתן מאוד גם כן.
בכל הנוגע לאופן שבו אנחנו עובדים איתם, המדיניות שלנו היא שאנחנו באמת רוצים לעבוד ממש צמוד עם ספקי התוכנה העצמאיים האלה ולעשות בטוח שכל מה שהם עושים בתוכנה, שהם מסוגלים למנף את החומרה ב-Snapdragon כדי לקבל את צריכת החשמל הנמוכה ביותר אפשרי.
אז אחד הדברים שאנחנו עושים עם הספקים האלה הוא שאנחנו מוודאים שיש להם גישה טובה באמת למנוע HVX, או הליבה של Hexagon DSP. הם גם משתמשים במנוע ה-EVA כדי לקבל וקטורי תנועה וכדי להשתמש בחומרה ובמנוע ה-EVA לצורך מניפולציה של תמונות. הם יכולים לבצע תנועת תמונה, תרגום ופינוי עיוות וכאלה בחומרה במקום להשתמש ב-GPU כדי לעשות זֶה.
וכך, אנחנו באמת עובדים בשיתוף פעולה הדוק עם ה-ISVs האלה, במיוחד אלה שהזכרתי במיוחד, כדי לוודא שהם לא רק שמים הכל ותוכנה במעבד אבל הם משתמשים בדברים כמו DSP ומאיצי חומרה ב-EVA כדי להשיג ביצועים טובים יותר והספק נמוך יותר צְרִיכָה. אז זה ממש חשוב לנו גם כי זה נותן ללקוחות שלנו את השילוב הטוב ביותר של תכונות וצריכת חשמל.
[הערות סיום מג'אד]: רק רציתי לומר תודה על כל השאלות הטובות באמת. הם ממש ממש מפורטים. אני בקוואלקום כבר כשלוש שנים ומסתכל על העבר שלנו, אפילו מעבר לכהונתי כאן, שם התחלנו בספקטרה בעבר Snapdragon 845, עבדנו מאוד קשה כדי לשפר באופן דרמטי את ספק שירותי האינטרנט, והמצלמה, ורק את החוויה הכוללת במהלך השנים האחרונות שנים. אני ממש מתרגש אפילו ממה שהעתיד יביא. ואני נרגש ממה שנכריז בפסגות הטכנולוגיה העתידיות שתוכלו לשאול ולכתוב עליהן. [Spectra Camera], כנראה, לדעתי, היא אחת הטכנולוגיות המרגשות ביותר בקוואלקום.
מחשבות אחרונות
היה נהדר לנהל דיון עם ג'אד על התרומות של קוואלקום לצילום סמארטפונים. יכולות להיות לנו רגשות מעורבים לגבי החברה ומערכת רישוי הפטנטים שלה, אבל החותם של קוואלקום על תעשיית הסמארטפונים מורגש על ידי כולם, בין אם אתה מדבר על פטנטים, 4G ו-5G, Wi-Fi, ה-Adreno GPUs, ספקטרה ספקי האינטרנט ושבבי Snapdragon עצמם, הנחשבים במידה רבה כסטנדרט הזהב בסמארטפון אנדרואיד שׁוּק.
יש עדיין הרבה נקודות כאב שצריך לפתור בצילום סמארטפון, אבל העתיד כן בהיר שכן קוואלקום מבטיחה לעשות התקדמות רבה יותר בתחומים העצומים והצומחים של ML, מה שמאפשר AI. בואו נראה מה יש לקוואלקום להכריז בתחום זה בפסגת הטכנולוגיה הבאה של Snapdragon.