שיחקנו עם Stable Video Diffusion, וזה מסמן עתיד מפחיד של זיופים עמוקים של AI

Stable Video Diffusion כבר כאן, ולמרות שזה בהחלט מגניב, זה מאיית עתיד מדאיג כשמדובר בזיופים עמוקים.

טייק אווי מפתח

בינה מלאכותית גנרטיבית, בדומה ל-Stable Video Diffusion, היא בעלת פוטנציאל ליצור תמונות וסרטוני וידאו מציאותיים ביותר הניתנים להתאמה אישית על סמך הנחיות שסופקו.
השימוש בתמונות וסרטוני וידאו שנוצרו על ידי בינה מלאכותית לצורך הפרת מידע ופרטיות הופך נפוץ יותר, ומאתגר את המהימנות של ראיות חזותיות באינטרנט.
פיזור וידאו יציב הוא רק ההתחלה, וכאשר טכנולוגיית הבינה המלאכותית ממשיכה להתקדם, עתיד המדיה המקוונת מאוים על ידי שימוש לרעה פוטנציאלי וחששות אתיים.

מהפכת ה-AI הייתה אחת ההתקדמות הגדולות והחשובות של 2023. עם אנשים כמו OpenAI כובשים את העולם בסערה עם ChatGPT ואחרים כמו Bing Chat ו-Google Bard הבאים, בינה מלאכותית גנרטיבית היא טכנולוגיה חזקה למדי. המקום שבו זה מדאיג הוא יצירת תמונות בינה מלאכותית, כלים שיכולים ליצור תמונות מותאמות אישית על סמך הנחיות שניתנו להם. כעת, עם Stable Video Diffusion, הדברים עומדים להחמיר עוד יותר.

אני רחוק מלהיות חושש כשזה מגיע לטכנולוגיה, ואני חושב של-AI גנרטיבי יש הרבה שימושים בשניהם

נְגִישׁוּת ו הקשרים מהנים, אבל אין ספק שהטכנולוגיה יכולה לשמש גם לרוע. דיסאינפורמציה היא תופעה שהופכת תכופה יותר ויותר, וכבר הוכח שתמונות מזויפות שנוצרו כמרמות משתמשים בהקשרים רבים ושונים. זוכרים את התמונה ההיא של האפיפיור פרנציסקוס שהסתובב במקום שבו הוא לבש ז'קט לבן ארוך? התמונה הזו לא הייתה אמיתית, אבל רבים חשבו שכן. תמונות הן כבר לא כדור הכסף של ההוכחה שאנשים ציפו שיהיו פעם.

מקור: AI Generative

בהתחשב בכך שכבר אי אפשר בימינו להסתמך על תמונות כהוכחה בלעדית למשהו, כשסרטוני וידאו הם הדבר הבא על גוש החיתוך, יהיה קשה יותר מתמיד להסתמך על כל דבר שאתה רואה באינטרנט אמיתי.

Stable Video Diffusion של Stability AI טוב להחריד

אבל זה רק בבדיקה עכשיו

Stable Video Diffusion בהמשך ל-Stable Diffusion שיצא בשנה שעברה, דגם "משקולות פתוחות". זה ללא ספק הניע את גל ה-AI של מחוללי התמונות, ולכל הפחות שיחק משמעותית חֵלֶק. טופס הווידאו של הדגם הספציפי הזה נגיש באותה מידה וניתן להפעיל אותו על ידי כל מי שיש לו אחד מהם המעבד הגרפי הטוב ביותר של Nvidia.

איך הדגם הספציפי הזה עובד די מעניין, וכרגע הוא די מוגבל בכמה שהוא באמת יכול לעשות. כפי שמנסח זאת Stability AI, "בעוד אנו מעדכנים בשקיקה את הדגמים שלנו עם ההתקדמות העדכנית ביותר ופועלים כדי שלב את המשוב שלך, דגם זה אינו מיועד ליישומים בעולם האמיתי או מסחרי בשלב זה שלב. התובנות והמשוב שלך על בטיחות ואיכות חשובים לשיפור המודל הזה לקראת יציאתו בסופו של דבר".

ישנם שני דגמים נוכחיים זמינים לשימוש המשתמשים; הראשון הוא SVD, והשני הוא SVD-XT. אלה יכולים ליצור 14 ו-25 פריימים בהתאמה בקצבי פריימים הניתנים להתאמה אישית בין 3 ל-30 FPS. עם סוג זה של בינה מלאכותית שמסוגלת לעשות כל כך הרבה, זה רק עניין של זמן עד שאנשים יוכלו לבשל את הזיופים העמוקים שלהם בבית של מישהו בבית.

סביר להניח שיהיה קל להגדיר את פיזור וידאו יציב

זה לא בהכרח דבר טוב

כאשר דיפוזיה יציבה המריא לראשונה, חבר שלי אימן דוגמן על פניו של חבר שלו כדי להוסיף את החבר הזה ל- ציוד מתכת מוצק יקום בגלריה בהזמנה אישית מטופשת עד כדי גיחוך. זו הייתה מתנה די מגניבה והרבה כיף לעבוד עליה ולהתעסק איתה (החבר נתן הסכמה מלאה לאימון דוגמנית על הפנים שלו), אבל אני חושב על אז, עכשיו, לגמרי מזועזע.

עם מאות התמונות שלנו שנמצאות שם בחוץ, כבר אפשר היה לאנשים להכשיר דוגמניות על פרצופים של אנשים שלא נותנים את הסכמתם, כמעט כל מי שיש לו תמונות של עצמם בפומבי ניתן לצפייה. עכשיו תארו לעצמכם שאתם יכולים ליצור תמונה של מישהו ואז להיות מסוגלים להנפיש את הציור הזה באמצעות פיזור וידאו יציב?

יש לכך השלכות רבות, החל מהפרות פרטיות ועד לגבול הבלתי חוקי. כבר שמעתי מנשים במרחב יוצרי התוכן שסיפרו לי על מעריצים בינה מלאכותית שמייצרים פורנוגרפיה שלהם שולחים להם את זה בחזרה, כמעט כאילו אותם "מעריצים" היו גאים בעובדה שהם הפרו את הפרטיות של בן אדם אחר. זה נמשך כבר יותר משנה, וזו דוגמה שאני מכיר. בשום פנים ואופן לא מדובר בהשלכת הפרטיות היחידה של כלים כאלה, ולמעשה, סביר להניח שזה רק הולך ויחמיר.

דוגמאות ל-Stable Video Diffusion כבר זמינות

מפחיד אבל לא ייאמן

הסרטון שלמעלה, שפורסם על ידי Stability AI, מראה את העוצמה של Stable Video Diffusion. אחרים גם המשיכו להראות את כוחה של הטכנולוגיה, והדגימו כיצד היא יכולה לגרום לכל דבר לזוז ולהיות מונפש בחלון קטן של כמה שניות. זה דורש כוח חישוב רב, אבל יש הרבה שירותים כמו Hugging Face ו- Replicator שאנשים יכולים למעשה לשכור זמן עיבוד. הרצתי אותו באופן מקומי, באמצעות התמונה למטה (מופצת עם תוכנת Stable Video Diffusion) כדי לבדוק עד כמה זה היה טוב.

התמונה שלמעלה היא תמונה שאני חושד שנוצרה בינה מלאכותית, מכיוון שאיני יכול למצוא התאמות מדויקות אליה באינטרנט. עם זאת, זה מועמד מושלם לבדיקה. הרצתי את המודל Stable Video Diffusion באופן מקומי עם התמונה הזו, ובתוך קצת פחות משעה, קיבלתי את הקליפ הבא של ארבע שניות.

זה טוב להחריד. למרות שזה בקצב פריימים נמוך עכשיו, כפי שכבר הוזכר, זהו מודל בפיתוח שעדיין לא נועד לשימוש כללי. ניסיתי עם תמונה משלי, תמונה של רכבת שמגיעה בערפל.

למרבה הצער, התוצאה לא הייתה כל כך טובה, אם כי זו הייתה תמונה מאתגרת יותר עבור AI לעבוד איתה הודות לערפל.

באופן מרשים, נראה שעדיין הבין שהרכבת היא, ובכן, רכבת. זה פשוט בסופו של דבר עבר למסילת הרכבת השנייה. בכל זאת, זו תוכנת בטא, ובכל זאת התוצאות מרשימות.

פיזור וידאו יציב הוא רק ההתחלה

לא משנה מה אתם עשויים לחשוב על כמה הטכנולוגיה הזו מרשימה, זו רק ההתחלה. זהו מודל הקוד הפתוח הראשון שאנשים ללא ספק יפרקו, ישפרו ואולי ישתמשו בו עם חוסר אכפתיות לאתיקה. עתיד המדיה המקוונת נמצא בסכנה, בעיקר בזכות וידאו ותמונות בינה מלאכותית, וככל שהם משתפרים טוב יותר, יש השלכות מרחיקות לכת שיפתחו גרסאות מרובות של תיבת פנדורה במהלך החודשים הקרובים ושנים.

כמדען מחשבים, הטכנולוגיה כל כך מרשימה עד שהיא מבלבלת את המוח, והצמיחה המהירה של נוף הבינה המלאכותית היצירתית היא כל כך, כל כך מרשימה. עם זאת, בתור א אדם, הטכנולוגיה הזו מפחידה אותי.