Генераторите на AI изображения напоследък предизвикаха много шум, но може да са трудни за разбиране. Ето всичко, което трябва да знаете за тях.
През 2022 г. станахме свидетели на появата на някои невероятни генератори за текст към изображение. Първият, който постави началото на голямата вълна, беше Dall-E 2, а Stable Diffusion пристигна малко по-късно. Оттогава видяхме да се появяват и други инструменти, включително Midjourney, Craiyon и дори TikTok до известна степен. Има нарастващи опасения, когато става въпрос за инструменти за генериране на изображения с изкуствен интелект, отнасящи се предимно до етиката на такива инструменти, когато могат да генерират изображения на реални хора на места или ситуации, които не са били в действителност в.
Въпреки това, не трябва да се вземат предвид само етиката. Генераторите на AI изображения са обучени на милиони и милиони снимки и са се научили да идентифицират неща чрез действително съществуващи снимки, създадени от реални хора. Кога се превръща в нарушение на авторските права? Ако вашият AI случайно генерира изображение, което изглежда много подобно на друг дизайн, и създателят на това изображение продължи да го споделя с търговска цел, носи ли някой отговорност за щети? Ако е така, кой? Кой изобщо е "художникът" в случая?
Има а тон причините да внимавате с генераторите на изображения с изкуствен интелект и тези етични съображения и съображения за безопасност са само драскотини по повърхността. Тези инструменти могат да се използват за създаване на фалшиви изображения, които могат да се използват за прокарване на разказ, и те само ще се влошат с времето. Предвид вече невероятните възможности на тези инструменти за генериране на изображения, страшно е да си помислим какво ще могат да правят много скоро. Въпреки това, ако искате да правите красиви изображения и да се забавлявате, тогава няма абсолютно никаква вреда в това.
Стабилна дифузия
Stable Diffusion е вдъхновението зад тази статия и инструмент, с който си играя много наскоро. Той работи локално на вашия компютър (така че не се борите за ресурси с други потребители на някакъв онлайн инструмент) и е един от най-мощните, които можете да използвате в момента. Не само ви позволява да настроите фино много параметри, но можете също така да контролирате целия процес на генериране.
Stable Diffusion страда от всички същите клопки на AI, с добавената „опасност“ от достъпността. Всеки с достатъчно мощен компютър може да го настрои и да работи бързо. С i7-12700KF, RTX 3080, 32 GB RAM и гигабитов интернет, успях да настроя Stable Diffusion и да генерирам първите си изображения в рамките на един час. Моят компютър определено е на по-висок край, но можете да се измъкнете, като го стартирате по-слаб хардуер (въпреки че не можете да генерирате толкова големи изображения с по-ниска vRAM и това ще отнеме повече време).
Най-хубавото на Stable Diffusion е, че е с изцяло отворен код. Можете да внедрите поддръжка за него във всеки от вашите проекти днес, ако искате, и вече има добавки като Alpaca, които можете да използвате за интегриране с Photoshop. Все още не е перфектно, но е изключително рано в развитието на тези програми. Можеш да използваш Dream Studio или ако желаете, въпреки че това струва пари и е малко ограничаващо в сравнение с настройването му локално.
Нещо повече, ако настроите Stable Diffusion локално, има разклонения като Стабилен WebUI за дифузия на AUTOMATIC1111 които идват с вграден инструмент за високо ниво, който може да увеличи разделителната способност до четири пъти. Докато можете да генерирате изображения с по-високи разделителни способности, често е много по-бързо да генерирате изображение с по-ниска разделителна способност и след това да го увеличите. Всички изображения по-долу са увеличени от по-малки разделителни способности.
Stable Diffusion беше обучен на клъстер от 4000 графични процесора Nvidia A100, работещи в AWS, и се проведе в продължение на месец. Той има способността да генерира изображения на известни личности и също има вграден NSFW филтър. Можете да деактивирате този NSFW филтър при локални инсталации, тъй като той всъщност спестява ресурси чрез намаляване на използването на VRAM. Що се отнася до това какво означава "дифузия", това е процес на започване с чист шум и пречистване с течение на времето. С течение на времето изображението се приближава постепенно до текстовата подкана, докато не остане шум. Това е същият начин, по който работи Dall-E 2.
И накрая, друга забавна функция, която има Stable Diffusion, е "img2img". В това му давате изображение като подкана, описвате какво искате да бъде изображението и след това го оставяте да ви даде правилно рисунка.
Дадох му шаблон за работа и получих доста приличен образ. Сигурен съм, че с по-добри подкани (моите са донякъде противоречиви), можете да станете още по-добри. И все пак не е лошо за нещо, което ми отне около пет минути да направя.
Накратко, Stable Diffusion е безплатна, лесна за настройка и най-големият проблем е колко е достъпна. Ако нямате достатъчно мощен компютър, ще трябва да платите, за да използвате това чрез подобни на Dream Studio.
Пастел
Craiyon беше известен преди като DALL·E Mini, въпреки че въпреки името няма връзка с Dall-E 2. Той е създаден, за да възпроизведе резултатите от модела DALL·E на OpenAI текст към изображение. Craiyon е достъпен за обществеността и може да се използва за генериране на изображения, които са изненадващо прилични, въпреки че изображенията не са толкова точни, нито са толкова висококачествени. Максималната разделителна способност на изображението е 256x256 и също няма инструменти за мащабиране.
Craiyon е напълно безплатен за използване и достъпен чрез неговия уебсайт. Можете да генерирате всяко изображение чрез всяка подкана и единствената уловка е, че изображенията са с по-ниско качество и че ще трябва да изчакате около две минути за всяка генерирана партида изображения. Craiyon стартира като модел с отворен код, насочен към възпроизвеждане на резултатите от първоначалния DALL·E модел. Моделът, който сега се използва, е известен като DALL·E Mega и включва няколко подобрения.
Craiyon, за разлика от другите опции тук, се поддържа от приходи от реклама. В резултат на това ще видите платени спонсорства и други реклами техния уебсайт когато посещавате. Има и приложение за смартфони с Android. Не е най-сложният, но е забавен, лесен за използване и достъпен.
Цена: Безплатно.
3.9.
Dall-E 2
Dall-E 2 е продукт на изследователската лаборатория OpenAI и е най-известният AI генератор на изображения, за който хората се сещат. Това е затворен инструмент с ограничен достъп, но за тези, които имат достъп до него, някои от резултатите, които може да постигне, са невероятни. Първоначално беше затворен поради опасения относно етиката и безопасността на такъв инструмент, въпреки че постепенно се разшири с течение на времето.
Едно от най-големите предимства на Dall-E 2 е способността да създава фотореалистични изображения, които на пръв поглед са неразличими от реалните снимки. Той може да генерира картини, изображения, които изглеждат като заснети с истински камери, и изцяло измислени сценарии. Той представлява огромен скок във възможностите на AI, когато беше обявен за първи път, както в способностите му да прави изображения, така и в неговата обработка на естествен език, известна като NLP. Това е благодарение на внедряването на GPT-3, който е един от най-напредналите езикови модели и също така е създаден от OpenAI.
Точно както при Stable Diffusion, Dall-E 2 също има собствена способност да взема съществуващи изображения и да ги променя въз основа на подкана. Можете да редактирате снимки чрез него, като го помолите да добави нещо към изображение или дори да го помолите да премахне нещо или да промени осветлението. Въпреки че създава само квадратни изображения, OpenAI обяви Надрисуване миналия месец, който може да разшири вашите изображения, като вземе предвид контекста на това, което вече е налично във вашето квадратно изображение.
Dall-E 2 е достъпно за изпробване от всички.
По средата на пътуването
Midjourney е интересна, тъй като е публична платформа, която може да генерира изображения, въпреки че го правите чрез сървър на Discord. Не само това, но след като генерирате 25 изображения, ще трябва да се абонирате за услугата, за да продължите да генерирате нови.
Докато По средата на пътуването е може би най-достъпната платформа тук (като се има предвид, че имате достъп до нея от всяко устройство с акаунт в Discord), тя също ви струва пари. Въпреки това, вие получавате качество от него. Потребител на услугата, Джейсън Алън, създаде произведение, което нарече „Театър D'Opera Spatial“. Той го включи в конкурса за изкуства на щатския панаир в Колорадо... и спечели.
За разлика от тези други проекти, Midjourney е собствена програма за изкуствен интелект. Няма изходен код, който можете да разгледате, и цялата му цел в този момент е ограничена до използване в сървър на Discord. Що се отнася до това защо това е само сървър на Discord, Дейвид Холц, основател на Midjourney, каза следното на На ръба в интервю.
Започнахме да тестваме суровата технология през септември миналата година и веднага открихме наистина различни неща. Много бързо открихме, че повечето хора не знаят какво искат. Казвате: „Ето една машина, можете да си представите всичко с нея - какво искате?“ И те казват: „куче“. И тръгваш "наистина ли?" и те стават „розово куче“. Така че вие им давате снимка на куче и те казват „добре“ и след това отиват да направят нещо друго.
Докато, ако ги поставите в група, те ще отидат на „куче“, а някой друг ще нарече „космическо куче“, а някой друг ще нарече „ацтекско космическо куче“, а след това всички внезапно хората разбират възможностите и вие създавате това разширено въображение - среда, в която хората могат да учат и да играят с това ново капацитет. Така открихме, че хората наистина обичат да си представят заедно и направихме [Midjourney] социален.
Тогава вие също бихте имали проблеми да го насочите далеч от стила "Midjourney" по подразбиране, така да се каже. Така или иначе според Холц в същото интервю.
[Ние] имаме стил и външен вид по подразбиране, той е артистичен и красив и е трудно [моделът] да бъде отстранен от това.
Оттогава обаче компанията пусна два нови модела - "test" и "testp". "test" е модел с общо предназначение, а "testp" е фокусиран единствено върху фотореализма. В резултат на това ще можете да избягате повече от това по подразбиране погледнете и генерирайте изображения от повече типове, ако желаете.
Опасностите и етиката на изкуството, генерирано от AI
Изкуството, генерирано от AI, макар и готино, налага редица опасности за обществото като цяло. В епоха, в която понякога може да е трудно да се каже кога новината е извадена от контекста или направо Изфабрикувани, възниква опасност, когато могат да бъдат направени изображения за няколко минути, които изглеждат и се усещат истински. Например, разгледайте снимките, които генерирах по-долу. Единият е генериран с помощта на Stable Diffusion, а другият е генериран с Craiyon.
Подсказка: „катастрофирало НЛО в Розуел, 1947 г., осветление, генерално разследване на армията, студийно осветление“
Снимките по-горе изобразяват катастрофирало НЛО в Розуел, а първото изображение показва нещо, което изглежда като човек, който върви върху катастрофиралото НЛО. Въпреки че изображението тук е генерирано с цел показване на фалшива снимка, изглежда, че може да е истинско. Всякакви артефакти могат да бъдат обяснени с факта, че снимките от 1947 г. така или иначе биха били с по-лошо качество и двете изображения биха могли да преминат очен тест с бърз поглед, за да бъдат реални. Дори не се нуждаете от един от най-добрите компютри да направите нещо подобно, тъй като Craiyon е безплатно приложение.
Там, където става още по-мрачно, е, че всъщност можете посочете художник, от когото искате алгоритъмът да се вдъхнови. Често срещан художник е Грег Рутковски, който открито се обяви против използването на името му в изкуството, генерирано от AI. Името му се нарежда като едно от най-честите подсказки, използвани при генериране на изображения. „A.I. трябва да изключи живи художници от своята база данни“, Рутковски каза artnet в интервю, „съсредоточете се върху произведения, които са обществено достояние“. Търсенето на името на Rutkowski често ще върне AI изкуство, което е генерирано, за да изглежда като негова работа, но не е всъщност неговата работа.
Още по-лошото е, че изкуството, генерирано от AI, често може да подчертае пристрастията на човешката раса. Craiyon дори има предупреждение в долната част на началната си страница в ЧЗВ, заявявайки, че „тъй като моделът е обучен на нефилтрирани данни от Интернет, може генерират изображения, които съдържат вредни стереотипи." В резултат на това въвеждането на подкани като "изпълнителен директор на компанията" най-често ще върне изображения на бели мъже в костюми. По същия начин, въвеждането на „учител“ като подкана почти винаги ще връща жени в класните стаи.
Бъдещето на изкуството, генерирано от AI
Като се има предвид, че изглежда индустрията не се забавя (и регулацията не наваксва), очакваме да видим още по-голям напредък в тези области. Фактът, че преминахме от възможностите на Dall-E 2 (дори и да беше частен) към Stable Diffusion само за няколко месеца показва колко голяма индустрия е това и колко голяма индустрия може да бъде потенциално бъда. Изображения, които преди това е можело да бъдат възложени на екип от художници, сега могат да бъдат генерирани за секунди, като вместо това в процеса участва един художник за коригиращи цели. Вече видяхме как Midjourney може да ви помогне да спечелите конкурс за изкуство, например, въпреки Службата за авторски права на САЩ в момента казва че дори не можете да защитите авторски права върху изображения, генерирани от AI.
Както Холц също каза в интервюто си, текущите разходи за обучение на всеки модел са около $50 000 - или повече. Изображенията също струват пари, тъй като се генерират на невероятно мощни сървъри, особено когато огромен брой потребители идват да генерират свои собствени изображения. Това ще бъде изключително скъпо за всички нови играчи, които навлизат в пространството, което от своя страна може всъщност да отблъсне и някои компании. Въпреки това, първоначалните усилия, като Stable Diffusion да бъде отворен код, вещаят добро.
В резултат на това ще чакаме с вълнение да видим бъдещето на AI изображенията. Пространството се разви толкова бързо през последната година и изглежда, че всеки ден се правят нови подобрения. Въпреки това, с проблясъци на базирана на AI манипулация на изображения дори идва на нашите смартфони, има много неща, които могат да се случат през следващите година или две.