Що таке AI Image Generator і як він працює?

Генератори зображень штучного інтелекту нещодавно викликали багато шуму, але їх важко зрозуміти. Ось усе, що вам потрібно про них знати.

У 2022 році ми побачили появу деяких неймовірних генераторів тексту в зображення. Першим, хто запустив велику хвилю, був Dall-E 2, а незабаром з’явився Stable Diffusion. Відтоді з’явилися й інші інструменти, зокрема Midjourney, Craiyon і певною мірою навіть TikTok. Зростає занепокоєння щодо інструментів генерації зображень штучного інтелекту, головним чином щодо етики такі інструменти, коли вони можуть генерувати зображення реальних людей у місцях чи ситуаціях, якими вони насправді не були в.

Однак слід враховувати не лише етику. Генератори зображень ШІ навчаються на мільйонах і мільйонах фотографій і навчилися ідентифікувати речі за допомогою фактично існуючих фотографій, створених реальними людьми. Коли це стає порушенням авторських прав? Якщо ваш штучний інтелект випадково генерує зображення, яке виглядає дуже схожим на інший дизайн, і творець цього зображення продовжує комерційно ділитися ним, чи хтось несе відповідальність за будь-які збитки? Якщо так, то хто? Хто взагалі «художник» у цьому випадку?

Є тонна Причин, щоб бути обережними щодо генераторів зображень штучного інтелекту, і ці проблеми етики та безпеки лише дряпають поверхню. Ці інструменти можна використовувати для створення підроблених зображень, які можна використати для проштовхування оповіді, і з часом вони стануть лише гіршими. Враховуючи неймовірні можливості цих інструментів генерації зображень, страшно подумати, що вони зможуть зробити дуже скоро. Однак, якщо ви хочете створити красиві зображення та трохи повеселитися, то в цьому немає абсолютно ніякої шкоди.

Стабільна дифузія

Стабільне розповсюдження стало натхненням для цієї статті та інструментом, з яким я бавився багато недавно. Він працює локально на вашому комп’ютері (тому ви не боретеся за ресурси з іншими користувачами якогось онлайн-інструменту) і є одним із найпотужніших, які ви можете зараз використовувати. Це дозволяє не тільки точно налаштувати масу параметрів, але й контролювати весь процес генерації.

Stable Diffusion страждає від тих самих недоліків штучного інтелекту, з додатковою «небезпекою» доступності. Будь-хто з достатньо потужним комп’ютером може налаштувати його та швидко запустити. Завдяки i7-12700KF, RTX 3080, 32 ГБ оперативної пам’яті та гігабітному Інтернету я зміг налаштувати Stable Diffusion і створити свої перші зображення протягом години. Мій комп’ютер точно включений вищий кінець, але ви можете запустити його далі слабше обладнання (хоча ви не можете створити такі великі зображення з меншою кількістю vRAM, і це займе більше часу).

Найкраще в Stable Diffusion те, що він повністю відкритий. Ви можете реалізувати підтримку для цього в будь-якому зі своїх проектів сьогодні, якщо хочете, і вже є такі плагіни, як Alpaca, які можна використовувати для інтеграції з Photoshop. Це ще не ідеально, але це дуже ранній етап розробки цих програм. Ви можете використовувати Студія мрії будь-який, якщо ви хочете, хоча це коштує грошей і є трохи обмежувальним порівняно з налаштуванням локально.

Більше того, якщо ви налаштуєте Stable Diffusion локально, є такі форки, як Стабільний веб-інтерфейс дифузії AUTOMATIC1111 які постачаються з вбудованим високоякісним інструментом, який може збільшити роздільну здатність до чотирьох разів. Хоча ви можете створювати зображення з вищою роздільною здатністю, часто набагато швидше створити зображення з нижчою роздільною здатністю, а потім збільшити його масштаб. Усі зображення, наведені нижче, мають меншу роздільну здатність.

Stable Diffusion навчався на кластері з 4000 графічних процесорів Nvidia A100, що працюють в AWS, і проходив протягом місяця. Він має можливість генерувати зображення знаменитостей, а також має вбудований фільтр NSFW. Ви можете вимкнути цей фільтр NSFW у локальних інсталяціях, оскільки він фактично економить ресурси, зменшуючи використання VRAM. Щодо того, що означає «дифузія», то це процес, який починається з чистого шуму та вдосконалюється з часом. Це робить зображення поступово ближчим до текстової підказки з часом, доки не зникне шум. Таким же чином працює Dall-E 2.

Нарешті, ще одна цікава функція, яку має Stable Diffusion, це "img2img". У цьому випадку ви надаєте йому зображення як підказку, описуєте, яке зображення ви хочете бачити, а потім дозволяєте йому надати вам належне малювання.

Я дав йому шаблон для роботи та отримав досить пристойне зображення. Я впевнений, що з кращими підказками (мої дещо суперечливі) ви могли б стати ще кращими. Тим не менш, зовсім непогано для того, на виготовлення якого у мене пішло близько п’яти хвилин.

Коротше кажучи, Stable Diffusion безкоштовний, його легко налаштувати, і найбільша проблема полягає в тому, наскільки він доступний. Якщо у вас недостатньо потужний ПК, вам доведеться заплатити, щоб використовувати його через подібні до Dream Studio.

Олівець

Раніше Craiyon був відомий як DALL·E Mini, хоча, незважаючи на назву, не має відношення до Dall-E 2. Він був створений для відтворення результатів моделі OpenAI DALL·E для перетворення тексту в зображення. Craiyon є загальнодоступним і може використовуватися для створення зображень, які є напрочуд пристойними, хоча зображення не такі точні та не такі високоякісні. Максимальна роздільна здатність зображення становить 256x256, і також немає інструментів масштабування.

Craiyon абсолютно безкоштовний у використанні та доступний через веб-сайт. Ви можете створити будь-яке зображення за допомогою будь-якої підказки, і єдина заковика полягає в тому, що зображення мають нижчу якість і вам доведеться чекати дві хвилини або близько того, щоб створити кожну партію зображень. Craiyon починався як модель з відкритим кодом, спрямована на відтворення результатів початкової моделі DALL·E. Модель, яка зараз використовується, відома як DALL·E Mega, і вона має кілька покращень.

Craiyon, на відміну від інших варіантів тут, підтримується доходами від реклами. У результаті ви побачите платне спонсорство та іншу рекламу їхній веб-сайт коли ви відвідуєте. Також є додаток для смартфонів Android. Він не найскладніший, але веселий, простий у використанні та доступний.

Craiyon - генератор зображень AIРозробник: Олівець

Ціна: безкоштовно.

3.9.

Завантажити

Dall-E 2

Dall-E 2 є продуктом дослідницької лабораторії OpenAI і є найвідомішим генератором зображень ШІ, про який люди думають. Це закритий інструмент з обмеженим доступом, але для тих, хто має до нього доступ, деякі результати, які він може отримати, неймовірні. Спочатку він був закритий через занепокоєння щодо етики та безпеки такого інструменту, але з часом він поступово розширився.

Однією з найбільших переваг Dall-E 2 є можливість створювати фотореалістичні зображення, які з першого погляду неможливо відрізнити від справжніх фотографій. Він може створювати картини, зображення, які виглядають як зняті на справжні камери, і повністю вигадані сценарії. Коли він був вперше оголошений, це стало величезним стрибком у можливостях штучного інтелекту, як у його здатності створювати зображення, так і в його обробці природної мови, відомої як NLP. Це завдяки реалізації GPT-3, яка є однією з найдосконаліших мовних моделей, а також розроблена OpenAI.

Подібно до Stable Diffusion, Dall-E 2 також має власну можливість отримувати наявні зображення та змінювати їх на основі підказки. Ви можете редагувати фотографії через нього, попросивши його додати щось до зображення або навіть попросити його видалити щось або змінити освітлення. Хоча він створює лише квадратні зображення, оголосив OpenAI Перемальовування останнього місяця, що може розширити ваші зображення, беручи до уваги контекст того, що вже доступно на вашому квадратному зображенні.

Dall-E 2 доступний для всіх, щоб спробувати.

Середня дорога

Midjourney є цікавою, оскільки це публічна платформа, яка може створювати зображення, хоча ви робите це через сервер Discord. Крім того, після створення 25 зображень вам потрібно буде підписатися на послугу, щоб продовжувати створювати нові.

Поки Середня дорога це, ймовірно, найдоступніша платформа (враховуючи, що ви можете отримати доступ до неї з будь-якого пристрою з обліковим записом Discord), вона також коштує грошей. Однак ви отримуєте від цього якість. Користувач сервісу Джейсон Аллен створив твір, який він назвав «Просторовий театр опери». Він подав його на мистецький конкурс штату Колорадо... і виграв.

На відміну від цих інших проектів, Midjourney є власною програмою штучного інтелекту. Немає вихідного коду, на який ви можете подивитися, і вся його мета на даний момент обмежена використанням на сервері Discord. Щодо того, чому це лише сервер Discord, Девід Хольц, засновник Midjourney, сказав таке The Verge в інтерв'ю.

Ми почали тестувати необроблену технологію у вересні минулого року, і одразу виявили зовсім інші речі. Ми дуже швидко виявили, що більшість людей не знають, чого хочуть. Ви скажете: «Ось машина, з якою можна уявити що завгодно — чого ви хочете?» І вони кажуть: «собака». А ти йдеш "справді?" і вони називаються «рожевий пес». Тож ви даєте їм фотографію собаки, і вони кажуть «добре», а потім йдуть щось робити інше.

Тоді як якщо ви об’єднаєте їх у групу, вони назвуть «собака», а хтось інший називатиметься «космічним собакою», а хтось ще називатиметься «космічним собакою ацтеків», а потім усі раптом люди розуміють можливості, і ви створюєте цю розширену уяву — середовище, де люди можуть навчатися та грати з цим новим місткість. Тож ми виявили, що людям дуже подобається фантазувати разом, і тому ми зробили [Midjourney] соціальним.

У той час у вас також виникли проблеми з відходом від стандартного стилю "Промежуток", так би мовити. Принаймні, так сказав Хольц у тому ж інтерв’ю.

[Ми] маємо стиль і зовнішній вигляд за замовчуванням, він художній і красивий, і [модель] важко відштовхнути від цього.

Проте з того часу компанія випустила дві нові моделі — «test» і «testp». "test" є моделлю загального призначення, а "testp" зосереджена виключно на фотореалізмі. Як наслідок, ви зможете піти від цього більше за замовчуванням дивіться та створюйте зображення інших типів, якщо бажаєте.

Небезпека та етика мистецтва, створеного ШІ

Мистецтво, створене штучним інтелектом, хоч і круте, але створює низку небезпек для суспільства в цілому. У епоху, коли інколи буває важко визначити, що новини вирвано з контексту чи прямо сфабриковані, виникає небезпека, коли зображення можна створити за лічені хвилини, які виглядають і відчуваються справжній. Наприклад, подивіться на фотографії, які я створив нижче. Один був згенерований за допомогою Stable Diffusion, а інший – за допомогою Craiyon.

Підказка: "НЛО, що розбився в Розвеллі, 1947 рік, освітлення, армійське генерал-розслідування, студійне освітлення"

На вищевказаних фотографіях зображено НЛО, що розбилося в Розвеллі, а на першому зображенні зображено людину, яка ходить по НЛО, що розбився. Хоча зображення тут було створено з метою демонстрації підробленої фотографії, схоже, що вона може бути справжньою. Будь-які артефакти можна пояснити тим фактом, що фотографії 1947 року в будь-якому випадку були б нижчої якості, і обидва зображення могли пройти перевірку на реальність при швидкому погляді. Вам навіть не потрібен один із найкращі комп'ютери щоб зробити щось подібне, оскільки Craiyon є безкоштовною програмою.

Ще більш туманним стає те, що ви насправді можете вказати художника, якого ви хочете надихнути на створення алгоритму. Поширеним художником є Грег Рутковскі, який відкрито виступає проти використання свого імені в мистецтві, створеному ШІ. Його ім'я вважається одним із найпоширеніших підказок, які використовуються при створенні зображень. «А.І. має виключити живих художників зі своєї бази даних», – Рутковскі розповів artnet в інтерв’ю «зосередьтеся на творах, які є суспільним надбанням». Пошук імені Рутковського часто повертає мистецтво штучного інтелекту, яке було створено, щоб виглядати як його робота, але не є насправді його робота.

Ще гірше те, що створене штучним інтелектом мистецтво часто може підкреслити упередження людської раси. Craiyon навіть має попередження внизу своєї домашньої сторінки у розділі поширених запитань, в якому зазначено, що «оскільки модель навчалася на невідфільтрованих даних з Інтернету, вона може генерувати зображення, які містять шкідливі стереотипи". У результаті введення підказок, таких як "керівник компанії", найчастіше повертає зображення білих чоловіків у костюми. Подібним чином введення «вчителя» як підказка майже завжди повертатиме жінок у класи.

Майбутнє мистецтва, створеного ШІ

Враховуючи те, що, здається, галузь не сповільнюється (а регулювання не наздоганяє), ми очікуємо ще більшого прогресу в цих сферах. Той факт, що ми перейшли від можливостей Dall-E 2 (навіть якщо він був приватним) до Stable Diffusion всього за кілька місяців показує, наскільки велика ця галузь і наскільки масштабною вона може бути бути. Зображення, які раніше можна було передати команді художників, тепер можна створити за лічені секунди, замість цього в процесі залучаючи одного художника для виправлення. Ми вже бачили, як Midjourney може допомогти вам виграти мистецький конкурс, наприклад, через Бюро захисту авторських прав США наразі каже що ви навіть не можете захищати авторські права на зображення, створені ШІ.

Як також заявив Хольц у своєму інтерв’ю, поточна вартість навчання кожної моделі становить близько 50 000 доларів або більше. Зображення також коштують грошей, оскільки вони генеруються на неймовірно потужних серверах, особливо коли величезна кількість користувачів приходить, щоб створити власні зображення. Це буде надзвичайно високою ціною для будь-яких нових гравців, які ввійдуть у простір, що, у свою чергу, також може відштовхнути деякі компанії. Однак початкові спроби, такі як Stable Diffusion бути відкритим вихідним кодом, віщують добро.

У результаті ми з нетерпінням чекатимемо, коли побачимо майбутнє зображень ШІ. Простір так швидко розвивався за останній рік, і здається, що нові досягнення відбуваються щодня. Проте з проблисками маніпуляції зображеннями на основі ШІ навіть на наших смартфонах, багато чого може статися протягом наступних року чи двох.