Шта је АИ Генератор слике и како функционише?

Генератори АИ слика су у последње време изазвали много буке, али их је можда тешко разумети. Ево свега што треба да знате о њима.

2022. године видели смо појаву неких невероватних генератора текста у слику. Први који је покренуо велики талас био је Далл-Е 2, са Стабле Диффусион који је стигао недуго касније. Од тада смо видели да стижу и други алати, укључујући Мидјоурнеи, Цраиион, па чак и ТикТок у одређеној мери. Све је већа забринутост када су у питању алати за генерисање слика вештачке интелигенције, који се првенствено односе на етику такви алати када могу да генеришу слике стварних људи на местима или ситуацијама које заправо нису били ин.

Међутим, не треба узети у обзир само етику. АИ генератори слика су обучени на милионима и милионима фотографија и научили су да их идентификују ствари путем стварних постојећих фотографија које су креирали стварни људи. Када то постаје кршење ауторских права? Ако ваша вештачка интелигенција случајно генерише слику која изгледа веома слично другом дизајну, а креатор те слике настави да је комерцијално дели, да ли је неко одговоран за било какву штету? Ако јесте, ко? Ко је уопште "уметник" у овом случају?

Постоје тон разлога да будете опрезни са АИ генераторима слика, а ови етички и безбедносни проблеми само загребу површину. Ови алати се могу користити за креирање лажних слика које се могу користити за гурање нарације, а временом ће се само погоршати. С обзиром на невероватне могућности ових алата за генерисање слика, застрашујуће је и помислити шта ће они бити способни да ураде врло брзо. Међутим, ако желите да направите лепе слике и да се забавите, онда у томе нема никакве штете.

Стабле Диффусион

Стабле Диффусион је инспирација иза овог чланка и алат са којим сам се играо лот недавно. Покреће се локално на вашем рачунару (тако да се не борите за ресурсе са другим корисницима неког онлајн алата) и један је од најмоћнијих који тренутно можете да користите. Не само да вам омогућава да фино подесите мноштво параметара, већ можете и да контролишете цео процес генерисања.

Стабле Диффусион пати од свих истих АИ замки, са додатном „опасношћу“ приступачности. Свако ко има довољно моћан рачунар може да га подеси и да брзо ради. Са и7-12700КФ, РТКС 3080, 32 ГБ РАМ-а и гигабитним интернетом, успео сам да поставим стабилну дифузију и генеришем своје прве слике у року од сат времена. Мој рачунар је дефинитивно укључен виши крај, али можете се извући ако га покренете слабији хардвер (иако не можете да генеришете тако велике слике са нижим вРАМ-ом и то ће потрајати дуже).

Најбоља ствар код Стабле Диффусион је то што је потпуно отвореног кода. Можете имплементирати подршку за то у било који од својих пројеката данас ако то желите, а већ постоје додаци као што је Алпаца које можете користити за интеграцију са Пхотосхоп-ом. Још није савршено, али је изузетно рано у развоју ових програма. Можете користити Дреам Студио било ако желите, иако то кошта и мало је рестриктивно у односу на локално подешавање.

Штавише, ако подесите Стабле Диффусион локално, постоје виљушке као нпр ВебУИ за стабилну дифузију АУТОМАТИЦ1111 који долазе са уграђеним напредним алатом који може повећати резолуцију до четири пута већу. Иако можете да генеришете слике у вишим резолуцијама, често је много брже генерисати слику у нижој резолуцији, а затим је повећати. Све слике испод су увећане са мањих резолуција.

Стабле Диффусион је обучен на групи од 4.000 Нвидиа А100 ГПУ-а који раде у АВС-у и одвијао се више од месец дана. Има могућност да генерише слике познатих личности и има уграђени НСФВ филтер. Можете да онемогућите овај НСФВ филтер на локалним инсталацијама, јер заправо штеди ресурсе смањујући употребу ВРАМ-а. Што се тиче онога што „дифузија“ значи, то је процес почетка са чистом буком и рафинирања током времена. То чини слику постепено ближом текстуалном одзивнику током времена све док не остане шум. Ово је исти начин на који ради Далл-Е 2.

Коначно, још једна забавна карактеристика коју Стабле Диффусион има је „имг2имг“. У овом случају, дајете му слику као подсетник, описујете шта желите да слика буде, а затим пустите да вам да правилно цртање.

Дао сам му шаблон за рад и добио сам прилично пристојну слику. Сигуран сам да са бољим упитима (моје су донекле контрадикторне), можете постати још бољи. Ипак, уопште није лоше за нешто што ми је требало око пет минута да направим.

Укратко, Стабле Диффусион је бесплатна, једноставна за подешавање, а највећи проблем је колико је доступна. Ако немате довољно моћан рачунар, мораћете да платите да бисте га користили преко Дреам Студио-а.

Цраиион

Цраиион је раније био познат као ДАЛЛ·Е Мини, иако упркос имену, нема никакве везе са Далл-Е 2. Направљен је да би се репродуковали резултати ОпенАИ-јевог ДАЛЛ·Е модела текста у слику. Цраиион је доступан јавности и може се користити за генерисање слика које су изненађујуће пристојне, иако слике нису толико тачне, нити су високог квалитета. Максимална резолуција слике је 256к256, а не постоје ни алати за повећање величине.

Цраиион је потпуно бесплатан за коришћење и доступан преко своје веб странице. Можете да генеришете било коју слику путем било ког упита, а једина квака је да су слике нижег квалитета и да ћете морати да сачекате око два минута за сваку генерисану серију слика. Цраиион је започео као модел отвореног кода који је имао за циљ да репродукује резултате почетног ДАЛЛ·Е модела. Модел који се сада користи је познат као ДАЛЛ·Е Мега и садржи неколико побољшања.

Цраиион, за разлику од осталих опција овде, подржава приход од реклама. Као резултат тога, видећете плаћена спонзорства и друге рекламе њихову веб страницу када посећујете. Постоји и апликација за Андроид паметне телефоне. Није најсофистициранији, али је забаван, лак за коришћење и приступачан.

Цраиион - АИ Имаге ГенераторПрограмер: Цраиион

Цена: бесплатно.

3.9.

Преузимање

Далл-Е 2

Далл-Е 2 је производ истраживачке лабораторије ОпенАИ и најпознатији је АИ генератор слика на који људи мисле. То је затворен алат са ограниченим приступом, али за оне који му могу приступити, неки од резултата до којих може доћи су невероватни. Првобитно је затворен због забринутости око етике и безбедности таквог алата, мада се временом постепено проширивао.

Једна од највећих предности које Далл-Е 2 има је могућност стварања фотореалистичних слика које се на први поглед не могу разликовати од стварних фотографија. Може да генерише слике, слике које изгледају као да су снимљене стварним камерама и потпуно измишљене сценарије. Представљао је огроман скок у могућностима вештачке интелигенције када је први пут најављен, како у њеним способностима да прави слике, тако и у његовој обради природног језика, познатом као НЛП. То је захваљујући имплементацији ГПТ-3, који је један од најнапреднијих језичких модела који постоји и чији је аутор ОпенАИ.

Баш као и код Стабле Диффусион, Далл-Е 2 такође има сопствену способност да узима постојеће слике и мења их на основу упита. Можете да уређујете фотографије преко њега тако што ћете од њега тражити да дода нешто на слику, или чак затражити да уклони нешто или да промени осветљење. Иако креира само квадратне слике, најавио је ОпенАИ Оутпаинтинг прошлог месеца који може проширити ваше слике, узимајући у обзир контекст онога што је већ доступно на вашој квадратној слици.

Далл-Е 2 доступан је свима да испробају.

Мидјоурнеи

Мидјоурнеи је занимљив јер је јавна платформа која може да генерише слике, иако то радите преко Дисцорд сервера. И не само то, већ након што генеришете 25 слика, мораћете да се претплатите на услугу да бисте наставили да генеришете нове.

Док Мидјоурнеи је вероватно најприступачнија платформа овде (с обзиром да јој можете приступити са било ког уређаја са Дисцорд налогом), такође вас кошта. Међутим, добијате квалитет из тога. Корисник услуге, Џејсон Ален, направио је комад који је назвао "Тхеатре Д'опера Спатиал". Пријавио га је на уметничко такмичење Државног сајма Колорадо... и победио.

За разлику од ових других пројеката, Мидјоурнеи је власнички програм вештачке интелигенције. Не постоји изворни код који можете да погледате, а његова целокупна сврха у овом тренутку је ограничена на употребу унутар Дисцорд сервера. Што се тиче зашто је то само Дисцорд сервер, Давид Холз, оснивач Мидјоурнеи-а, рекао је следеће Тхе Верге у интервјуу.

Почели смо да тестирамо сирову технологију у септембру прошле године и одмах смо открили заиста различите ствари. Врло брзо смо открили да већина људи не зна шта жели. Кажете: „Ево машине са којом можете замислити било шта – шта желите?“ И кажу: "пас". И ти иди "заиста?" и они иду „ружичасти пас“. Дакле, дате им слику пса, и они кажу „у реду“ и онда оду да ураде нешто друго.

Док ако их ставите у групу, они ће ићи "пас", а неко други ће ићи "свемирски пас", а неко други ће ићи "астечки свемирски пас", а онда све изненада, људи разумеју могућности, а ви стварате ову проширену машту — окружење у којем људи могу да уче и играју се са овим новим капацитет. Тако смо открили да људи заиста воле да замишљају заједно, и тако смо [Мидјоурнеи] учинили друштвеним.

Тада бисте такође имали проблема да га удаљите од подразумеваног „Мидјоурнеи“ стила, да тако кажем. То је, у сваком случају, Холц у истом интервјуу.

[Ми]имамо подразумевани стил и изглед, уметнички је и леп, и тешко је одгурнути [модел] од тога.

Међутим, од тада, компанија је представила два нова модела -- "тест" и "тестп". "тест" је модел опште намене, а "тестп" је фокусиран искључиво на фотореализам. Као резултат тога, моћи ћете да се удаљите од тога више Уобичајено погледајте и генеришете слике више типова ако желите.

Опасности и етика уметности генерисане вештачком интелигенцијом

Уметност коју генерише вештачка интелигенција, иако је кул, намеће бројне опасности друштву у целини. У доба када је тешко рећи када су вести извучене из контекста или отворене измишљено, постоји опасност када се за неколико минута могу направити слике које изгледају и осећају се прави. На пример, погледајте фотографије које сам направио испод. Један је генерисан коришћењем Стабле Диффусион, а други је генерисан помоћу Цраииона.

Упозорење: "срушио се НЛО у Розвелу, 1947, осветљење, генерална истрага војске, осветљење студија"

Горње фотографије приказују срушени НЛО у Розвелу, а прва слика приказује оно што изгледа као особа која хода по врху срушеног НЛО-а. Иако је слика овде генерисана у сврху приказивања лажне фотографије, изгледа да би могла бити стварна. Било који артефакти се могу објаснити чињеницом да би фотографије из 1947. ионако биле лошијег квалитета, а обе слике би могле проћи тест ока на брз поглед да ли су стварне. Не треба вам ни један од најбољи рачунари да урадите нешто овако, пошто је Цраиион бесплатна апликација.

Оно што постаје још мрачније је то што заправо можете спецификовати уметник од кога желите да алгоритам црпи инспирацију. Уобичајени уметник је Грег Рутковски, који је споља говорио против употребе његовог имена у уметности генерисаној вештачком интелигенцијом. Његово име је једно од најчешћих упутстава која се користе у генерисању слика. „А.И. требало би да искључи живе уметнике из своје базе података“, Рутковски рекао артнет у интервјуу, „фокус на дела која су у јавном домену“. Претраживање имена Рутковског често ће вратити умјетност умјетне интелигенције која је генерирана да изгледа као његово дјело, али није заправо његов рад.

Још горе је то што уметност генерисана вештачком интелигенцијом често може да истакне предрасуде људске расе. Цраиион чак има упозорење на дну своје почетне странице у честим питањима, у којем се наводи да „због тога што је модел обучен на нефилтрираним подацима са Интернета, може генеришу слике које садрже штетне стереотипе.“ Као резултат тога, унос упита као што је „извршни директор компаније“ ће најчешће вратити слике белаца у одела. Исто тако, уношење „учитељице“ као подсетника скоро увек враћа жене у учионице.

Будућност уметности генерисане вештачком интелигенцијом

С обзиром на то да се чини да индустрија не успорава (а регулација не сустиже корак), очекујемо још већи напредак у овим областима. Чињеница да смо прешли са могућности Далл-Е 2 (чак и ако је био приватан) на Стабле Диффусион за само неколико месеци показује колико је ово велика индустрија и колико велика индустрија потенцијално може бити. Слике које су раније могле да буду уговорене са тимом уметника сада могу да се генеришу за неколико секунди, а уместо тога један уметник је укључен у процес ради корекције. Већ смо видели како Мидјоурнеи може да вам помогне да победите на уметничком такмичењу, на пример, иако Канцеларија за ауторска права САД тренутно каже да не можете чак ни слике генерисане помоћу вештачке интелигенције.

Као што је Холц такође изјавио у свом интервјуу, тренутни трошкови обуке сваког модела су око 50.000 долара - или више. Слике такође коштају јер се генеришу на невероватно снажним серверима, посебно када велики број корисника дође да генерише сопствене слике. То ће бити изузетно скупо за све нове играче који уђу у простор, што би заузврат могло одбити и неке компаније. Међутим, почетни напори као што је Стабле Диффусион да буде отвореног кода слуте на добро.

Као резултат тога, са узбуђењем ћемо чекати да видимо будућност АИ слика. Простор је еволуирао тако брзо у последњих годину дана, и чини се да се нови напредак остварује свакодневно. Међутим, уз назнаке манипулације сликама засноване на вештачкој интелигенцији чак и на наше паметне телефоне, много тога би могло да се деси у наредних годину или две.