מהו מחולל תמונות בינה מלאכותית וכיצד הוא פועל?

מחוללי תמונות בינה מלאכותית יצרו הרבה באז לאחרונה, אבל אולי קשה להבין אותם. הנה כל מה שאתה צריך לדעת עליהם.

בשנת 2022, ראינו את הופעתם של כמה מחוללי טקסט לתמונה מדהימים. הראשון שהחל את הגל הגדול היה Dall-E 2, כאשר דיפוזיה יציבה הגיעה זמן קצר לאחר מכן. מאז ראינו גם כלים אחרים מגיעים, כולל Midjourney, Craiyon ואפילו TikTok במידה מסוימת. יש חששות הולכים וגוברים בכל הנוגע לכלים ליצירת תמונות בינה מלאכותית, הנוגעים בעיקר לאתיקה של כלים כאלה כאשר הם יכולים ליצור תמונות של אנשים אמיתיים במקומות או מצבים שהם לא היו בפועל ב.

עם זאת, גם לא רק אתיקה יש לשקול. מחוללי תמונות AI מאומנים על מיליוני ומיליוני תמונות ולמדו לזהות דברים באמצעות תמונות קיימות בפועל שנוצרו על ידי אנשים אמיתיים. מתי זה הופך להפרת זכויות יוצרים? אם ה-AI שלך מייצר בטעות תמונה שנראית דומה מאוד לעיצוב אחר, והיוצר של התמונה ממשיך לשתף אותה באופן מסחרי, האם מישהו אחראי לנזקים כלשהם? אם כן, מי? מיהו בכלל ה"אמן" במקרה הזה?

ישנם טוֹן מסיבות להיזהר ממחוללי תמונות בינה מלאכותית, והחששות האתיים והבטיחותיים הללו רק מגרדים את פני השטח. ניתן להשתמש בכלים הללו ליצירת תמונות מזויפות שניתן להשתמש בהן כדי לדחוף נרטיב, והן רק יחמירו עם הזמן. בהתחשב ביכולות המדהימות של הכלים האלה ליצירת תמונות כבר, זה מפחיד לחשוב מה הם יהיו מסוגלים לעשות בקרוב מאוד. עם זאת, אם אתה רוצה ליצור תמונות יפות וליהנות, אז אין בזה שום נזק.

דיפוזיה יציבה

דיפוזיה יציבה היא ההשראה מאחורי המאמר הזה וכלי ששיחקתי איתו א מִגרָשׁ לאחרונה. זה פועל באופן מקומי במחשב שלך (כך שאתה לא נלחם על משאבים עם משתמשים אחרים של איזה כלי מקוון) וזה אחד החזקים שבהם אתה יכול להשתמש כרגע. זה לא רק מאפשר לך לכוונן המון פרמטרים, אלא שאתה יכול גם לשלוט על תהליך היצירה כולו.

דיפוזיה יציבה סובלת מכל אותן מלכודות בינה מלאכותית, עם ה"סכנה" הנוספת של נגישות. כל מי שיש לו מחשב חזק מספיק יכול להגדיר אותו ולהפעיל אותו במהירות. עם i7-12700KF, RTX 3080, 32GB של זיכרון RAM ואינטרנט של גיגה-ביט, הצלחתי להגדיר דיפוזיה יציבה וליצור את התמונות הראשונות שלי תוך שעה. המחשב שלי בהחלט נמצא על קצה גבוה יותר, אבל אתה יכול לברוח מלהפעיל אותו חומרה חלשה יותר (אם כי אינך יכול ליצור תמונות גדולות כל כך עם vRAM נמוך יותר וזה ייקח יותר זמן).

הדבר הטוב ביותר ב-Stable Diffusion הוא שזה לגמרי קוד פתוח. אתה יכול ליישם תמיכה בו בכל אחד מהפרויקטים שלך היום אם תרצה, ויש כבר תוספים כגון Alpaca שאתה יכול להשתמש בהם כדי לשלב עם Photoshop. זה עדיין לא מושלם, אבל זה מוקדם מאוד בפיתוח של תוכניות אלה. אתה יכול להשתמש סטודיו חלומות או אם תרצה, אם כי זה עולה כסף וזה קצת מגביל לעומת הגדרה מקומית.

מה גם שאם אתה מגדיר את Stable Diffusion באופן מקומי, יש מזלגות כמו ה-Stable Diffusion WebUI של AUTOMATIC1111 שמגיעים עם כלי יוקרתי מובנה שיכול להגדיל את הרזולוציה עד פי ארבעה. אמנם אתה יכול ליצור תמונות ברזולוציות גבוהות יותר, אבל לרוב הרבה יותר מהיר ליצור תמונה ברזולוציה נמוכה יותר ואז לשדרג אותה. כל התמונות להלן מועלות ברזולוציות קטנות יותר.

דיפוזיה יציבה הוכשרה על אשכול של 4,000 GPUs של Nvidia A100 הפועלים ב-AWS והתקיימה במשך חודש. יש לו את היכולת ליצור תמונות של מפורסמים ויש לו גם מסנן NSFW מובנה. אתה יכול להשבית מסנן NSFW זה בהתקנות מקומיות, מכיוון שהוא למעשה חוסך במשאבים על ידי הפחתת השימוש ב-VRAM. לגבי המשמעות של "דיפוזיה", זה תהליך של התחלה עם רעש טהור ועידון לאורך זמן. זה הופך את התמונה לקרוב יותר ויותר להנחיית הטקסט לאורך זמן עד שלא נשאר רעש. זו אותה הדרך שבה פועל Dall-E 2.

לבסוף, תכונה מהנה נוספת שיש ל-Stable Diffusion היא "img2img". בזה, אתה נותן לו תמונה כהנחיה, מתאר מה אתה רוצה שהתמונה תהיה, ואז נותן לה לתת לך תָקִין צִיוּר.

נתתי לו תבנית לעבוד איתה וקיבלתי תמונה די הגונה. אני בטוח שעם הנחיות טובות יותר (שלי סותרות משהו), אתה יכול להשתפר אפילו. ובכל זאת, לא רע בכלל למשהו שלקח לי בערך חמש דקות להכין.

בקיצור, Stable Diffusion הוא חינמי, קל להגדרה, והבעיה הגדולה ביותר היא עד כמה הוא נגיש. אם אין לך מחשב חזק מספיק, תצטרך לשלם כדי להשתמש בזה דרך סטודיו כמו Dream Studio.

קרייון

קרייון היה ידוע בעבר בתור DALL·E Mini, אם כי למרות השם, אין קשר ל-Dall-E 2. הוא נוצר על מנת לשחזר את התוצאות של מודל הטקסט לתמונה DALL·E של OpenAI. Craiyon זמין לציבור וניתן להשתמש בו כדי ליצור תמונות הגונות באופן מפתיע, אם כי התמונות לא כל כך מדויקות, וגם לא באיכות גבוהה. רזולוציות תמונה מקסימליות של 256x256, וגם אין כלים לשינוי קנה מידה.

Craiyon לגמרי בחינם לשימוש ונגיש דרך האתר שלה. אתה יכול ליצור כל תמונה באמצעות כל הנחיה, והקאץ' היחיד הוא שהתמונות באיכות נמוכה יותר ושתצטרך להמתין שתי דקות בערך לכל אצווה של תמונות שנוצרת. Craiyon התחיל כמודל קוד פתוח שמטרתו לשחזר את התוצאות של מודל DALL·E הראשוני. הדגם שנמצא כעת בשימוש ידוע בשם DALL·E Mega, והוא מכיל מספר שיפורים.

קרייון, בניגוד לאפשרויות האחרות כאן, נתמך על ידי הכנסות מפרסומות. כתוצאה מכך, תראה חסויות בתשלום ופרסומות אחרות האתר שלהם כשאתה מבקר. יש גם אפליקציה לסמארטפונים אנדרואיד. זה לא הכי מתוחכם, אבל זה כיף, קל לשימוש ונגיש.

Craiyon - AI Image Generatorמפתח: קרייון

מחיר: חינם.

3.9.

הורד

Dall-E 2

Dall-E 2 הוא תוצר של מעבדת המחקר OpenAI והוא מחולל התמונות הידוע ביותר של AI שאנשים חושבים עליו. זהו כלי סגור עם גישה מוגבלת, אבל עבור אלה שיכולים לגשת אליו, חלק מהתוצאות שהוא יכול להגיע אליהם הן מדהימות. הוא נסגר בתחילה עקב חששות סביב האתיקה והבטיחות של כלי כזה, אם כי הוא התרחב בהדרגה עם הזמן.

אחד היתרונות הגדולים ביותר שיש ל-Dall-E 2 הוא היכולת ליצור תמונות פוטוריאליסטיות שבמבט חטוף אינן ניתנות להבחנה מתצלומים אמיתיים. זה יכול ליצור ציורים, תמונות שנראות כאילו צולמו במצלמות אמיתיות ותרחישים מומצאים לחלוטין. הוא ייצג קפיצה עצומה ביכולות הבינה המלאכותית כשהוכרז לראשונה, הן ביכולות שלה ליצור תמונות והן בעיבוד השפה הטבעית שלו, המכונה NLP. זאת הודות להטמעתו של GPT-3, שהוא אחד מדגמי השפה המתקדמים ביותר שיש וגם נכתב על ידי OpenAI.

בדיוק כמו עם Stable Diffusion, ל-Dall-E 2 יש גם יכולת משלו לצלם תמונות קיימות ולשנות אותן על סמך הנחיה. אתה יכול לערוך תמונות באמצעותו על ידי בקשה ממנו להוסיף משהו לתמונה, או אפילו לבקש ממנו להסיר משהו או לשנות את התאורה. בעוד שהוא יוצר רק תמונות מרובעות, הודיעה OpenAI ציור חוץ בחודש שעבר שיכול להרחיב את התמונות שלך לרחבה יותר, תוך התחשבות בהקשר של מה שכבר זמין בתמונה המרובעת שלך.

Dall-E 2 זמין לכולם להתנסות.

אמצע מסע

Midjourney היא פלטפורמה מעניינת מכיוון שהיא פלטפורמה ציבורית שיכולה ליצור תמונות, אם כי אתה עושה זאת דרך שרת Discord. לא רק זה, אלא לאחר שתיצור 25 תמונות, תצטרך להירשם לשירות כדי להמשיך לייצר תמונות חדשות.

בזמן אמצע מסע היא כנראה הפלטפורמה הכי נגישה כאן (בהינתן שאתה יכול לגשת אליה מכל מכשיר עם חשבון דיסקורד), זה גם עולה לך כסף. עם זאת, אתה מוציא מזה איכות. משתמש בשירות, ג'ייסון אלן, יצר יצירה שהוא כינה "תאטרון אופרה מרחבי". הוא הצטרף לתחרות האמנות של יריד המדינה של קולורדו... וניצח.

בניגוד לפרויקטים האחרים הללו, Midjourney היא תוכנית בינה מלאכותית קניינית. אין קוד מקור שאתה יכול להסתכל עליו, וכל מטרתו בנקודת זמן זו מוגבלת לשימוש בתוך שרת דיסקורד. באשר למה זה שרת דיסקורד בלבד, דיוויד הולץ, מייסד Midjourney, אמר את הדברים הבאים הגבול בראיון.

התחלנו לבדוק את הטכנולוגיה הגולמית בספטמבר בשנה שעברה, ומיד מצאנו דברים שונים באמת. גילינו מהר מאוד שרוב האנשים לא יודעים מה הם רוצים. אתה אומר: "הנה מכונה שאתה יכול לדמיין איתה כל דבר - מה אתה רוצה?" והם הולכים: "כלב". ואתה הולך "בֶּאֱמֶת?" והם הולכים "כלב ורוד". אז אתה נותן להם תמונה של כלב, והם הולכים "בסדר" ואז הולכים לעשות משהו אַחֵר.

בעוד שאם תכניס אותם לקבוצה, הם ילכו "כלב" ומישהו אחר ילך "כלב חלל" ומישהו אחר ילך "כלב חלל אצטקי", ואז הכל פתאום אנשים מבינים את האפשרויות, ואתה יוצר את הדמיון המוגבר הזה - סביבה שבה אנשים יכולים ללמוד ולשחק עם החדש הזה קיבולת. אז גילינו שאנשים מאוד אוהבים לדמיין ביחד, וכך הפכנו את [Midjourney] לחברתי.

אז, גם היית מתקשה להרחיק אותו מסגנון ברירת המחדל של "Midjourney", כביכול. זה לפי הולץ, בכל מקרה, באותו ראיון.

[יש לנו סגנון ומראה ברירת מחדל, והוא אמנותי ויפה, וקשה לדחוף את [הדוגמנית] מזה.

עם זאת, מאז, החברה פרסמה שני דגמים חדשים - "test" ו-"testp". "מבחן" הוא מודל למטרות כלליות, ו-"testp" מתמקד אך ורק בפוטוריאליזם. כתוצאה מכך, תוכל להתרחק מזה יותר בְּרִירַת מֶחדָל חפש וצור תמונות מסוגים נוספים אם תרצה.

הסכנות והאתיקה של אמנות שנוצרת בינה מלאכותית

אמנות שנוצרת בינה מלאכותית, למרות שהיא מגניבה, מטילה מספר סכנות על החברה בכללותה. בעידן שבו יכול להיות קשה לדעת בזמנים שבהם החדשות הוצאו מהקשרם או ישר מפוברק, יש סכנה כאשר ניתן ליצור תמונות תוך דקות ספורות שנראות ומרגישות אמיתי. לדוגמה, תסתכל על התמונות שיצרתי למטה. אחד נוצר באמצעות Stable Diffusion, והשני נוצר עם Craiyon.

הנחיה: "עב"ם התרסק ברוזוול, 1947, תאורה, חקירה כללית של הצבא, תאורת אולפן"

התמונות שלמעלה מתארות עב"ם שהתרסק ברוזוול והתמונה הראשונה מראה מה שנראה כמו אדם שהולך על גבי העב"ם שהתרסק. בעוד שהתמונה כאן נוצרה לצורך הצגת תמונה מזויפת, נראה שהיא יכולה להיות אמיתית. כל חפץ יכול להיות מוסבר על ידי העובדה שתמונות ב-1947 היו ממילא באיכות ירודה יותר, ושתי התמונות יכולות לעבור את מבחן הראייה במבט מהיר על היותן אמיתיות. אתה אפילו לא צריך אחד מהם המחשבים הטובים ביותר לעשות משהו כזה, שכן Craiyon הוא אפליקציה חינמית.

המקום שבו זה נעשה אפילו יותר עכור הוא שאתה יכול למעשה לפרט אמן שאתה רוצה שהאלגוריתם ייקח ממנו השראה. אמן נפוץ הוא גרג רוטקובסקי, שדיבר כלפי חוץ נגד השימוש בשמו באמנות שנוצרת בינה מלאכותית. שמו מדורג כאחת ההנחיות הנפוצות ביותר בשימוש ביצירת תמונות. "א.י. צריך להוציא אמנים חיים מהמאגר שלו", רוטקובסקי סיפר artnet בראיון, "התמקד ביצירות תחת רשות הרבים." חיפוש בשמו של רוטקובסקי יחזיר לרוב אמנות בינה מלאכותית שנוצרה כדי להיראות כמו עבודתו אך אינה בעצם העבודה שלו.

גרוע עוד יותר הוא שאמנות שנוצרת בינה מלאכותית יכולה לעתים קרובות להדגיש את ההטיות של המין האנושי. לקרייון אפילו יש אזהרה בתחתית עמוד הבית שלו בשאלות הנפוצות, לפיה "מכיוון שהמודל הוכשר על נתונים לא מסוננים מהאינטרנט, הוא עשוי ליצור תמונות המכילות סטריאוטיפים מזיקים." כתוצאה מכך, הזנת הנחיות כגון "מנהל החברה" תחזיר לרוב תמונות של גברים לבנים ב חליפות. כמו כן, כניסה ל"מורה" כהנחיה כמעט תמיד תחזיר נשים לכיתות.

העתיד של אמנות שנוצרת בינה מלאכותית

בהתחשב בכך שנראה שהתעשייה לא מאטה (והרגולציה לא מדביקה את הקצב), אנו מצפים לראות התקדמות רבה עוד יותר בתחומים אלה. העובדה שעברנו מהיכולות של Dall-E 2 (גם אם זה היה פרטי) ל-Stable Diffusion תוך כמה חודשים בלבד מראה עד כמה מדובר בתעשייה גדולה, וכמה גדולה היא יכולה להיות תעשייה לִהיוֹת. תמונות שבעבר ניתן היה להתקשר לצוות של אמנים ניתנות כעת להפקה תוך שניות, כאשר במקום זאת אמן בודד מעורב בתהליך למטרות תיקון. כבר ראינו כיצד Midjourney יכולה לעזור לזכות אותך בתחרות אמנות, למשל, למרות משרד זכויות היוצרים של ארה"ב כרגע אומר שאתה אפילו לא יכול להגן על תמונות שנוצרו על ידי AI.

כפי שגם הולץ הצהיר בראיון שלו, העלות הנוכחית של הכשרת כל דגם היא בסביבות 50,000 דולר - או יותר. תמונות גם עולות כסף מכיוון שהן נוצרות בשרתים בשרניים להפליא, במיוחד כאשר מספר עצום של משתמשים באים ליצור תמונות משלהם. זה הולך להיות יקר מאוד עבור כל שחקן חדש שייכנס למרחב, מה שעלול בתורו לדחות גם חברות מסוימות. עם זאת, מאמצים ראשוניים כמו Stable Diffusion בהיותה קוד פתוח מבשרים טובות.

כתוצאה מכך, נחכה בהתרגשות לראות את העתיד של תמונות AI. המרחב התפתח כל כך מהר בשנה האחרונה, ונראה שהתקדמויות חדשות נעשות מדי יום. עם זאת, עם הצצה למניפולציה מבוססת AI אפילו מגיעים לסמארטפונים שלנו, יש הרבה שיכול לקרות בשנה-שנתיים הקרובות.