Što je AI Image Generator i kako radi?

AI generatori slika nedavno su izazvali mnogo buke, ali možda ih je teško razumjeti. Ovdje je sve što trebate znati o njima.

U 2022. vidjeli smo pojavu nekih nevjerojatnih generatora teksta u sliku. Prvi koji je pokrenuo veliki val bio je Dall-E 2, a nedugo zatim stiže Stable Diffusion. Od tada smo vidjeli da su stigli i drugi alati, uključujući Midjourney, Craiyon, pa čak i TikTok do određenog stupnja. Postoji sve veća zabrinutost kada su u pitanju alati za generiranje slika umjetnom inteligencijom, koji se primarno odnose na etiku takve alate kada mogu generirati slike stvarnih ljudi na mjestima ili situacijama u kojima oni zapravo nisu bili u.

Međutim, ne treba uzeti u obzir samo etiku. AI generatori slika obučeni su na milijunima i milijunima fotografija i naučili su identificirati stvari putem stvarno postojećih fotografija koje su stvorili stvarni ljudi. Kada to postaje kršenje autorskih prava? Ako vaša umjetna inteligencija slučajno generira sliku koja izgleda vrlo slično drugom dizajnu, a tvorac te slike je nastavi komercijalno dijeliti, je li netko odgovoran za bilo kakvu štetu? Ako da, tko? Tko je uopće "umjetnik" u ovom slučaju?

Tamo su tona razloga da budete oprezni s AI generatorima slika, a ova etička i sigurnosna pitanja samo grebu po površini. Ti se alati mogu koristiti za stvaranje lažnih slika koje se mogu koristiti za promicanje priče, a s vremenom će se samo pogoršavati. S obzirom na već nevjerojatne mogućnosti ovih alata za generiranje slika, zastrašujuće je pomisliti što će uskoro moći učiniti. Međutim, ako želite napraviti lijepe slike i zabaviti se, onda u tome nema nikakve štete.

Stabilna difuzija

Stabilna difuzija je inspiracija za ovaj članak i alat s kojim sam se igrao mnogo nedavno. Pokreće se lokalno na vašem računalu (tako da se ne borite za resurse s drugim korisnicima nekog online alata) i jedan je od najmoćnijih koje trenutno možete koristiti. Ne samo da vam omogućuje fino podešavanje tone parametara, već također možete kontrolirati cijeli proces generiranja.

Stable Diffusion pati od svih istih zamki umjetne inteligencije, uz dodatnu "opasnost" pristupačnosti. Svatko s dovoljno snažnim računalom može ga postaviti i pokrenuti brzo. Uz i7-12700KF, RTX 3080, 32 GB RAM-a i gigabitni internet, uspio sam postaviti Stable Diffusion i generirati svoje prve slike u roku od sat vremena. Moje računalo je definitivno na viši kraj, ali možete se izvući ako ga pokrenete slabiji hardver (iako ne možete generirati tako velike slike s nižim vRAM-om i to će trajati dulje).

Najbolja stvar kod Stable Diffusion je to što je potpuno otvorenog koda. Možete implementirati podršku za to u bilo koji od svojih projekata danas ako to želite, a već postoje dodaci kao što je Alpaca koje možete koristiti za integraciju s Photoshopom. Još nije savršeno, ali je vrlo rano u razvoju ovih programa. Možeš koristiti Studio snova ili ako želite, iako to košta i malo je restriktivno u odnosu na lokalno postavljanje.

Štoviše, ako postavite Stable Diffusion lokalno, postoje vilice kao što su AUTOMATIC1111 Stable Diffusion WebUI koji dolaze s ugrađenim alatom za povećanje razlučivosti koji može povećati razlučivost do četiri puta. Iako možete generirati slike u višim razlučivostima, često je puno brže generirati sliku u nižoj razlučivosti i zatim je povećati. Sve slike u nastavku su povećane u odnosu na manje rezolucije.

Stable Diffusion obučavan je na klasteru od 4000 Nvidia A100 GPU-a koji rade u AWS-u i odvijao se tijekom mjesec dana. Ima mogućnost generiranja slika slavnih i ima ugrađeni NSFW filter. Možete onemogućiti ovaj NSFW filtar na lokalnim instalacijama, jer zapravo štedi na resursima smanjenjem upotrebe VRAM-a. Što se tiče onoga što "difuzija" znači, to je proces započinjanja s čistom bukom i pročišćavanjem tijekom vremena. Time se slika postupno približava tekstualnom upitu dok ne nestane šuma. Ovo je isti način na koji radi Dall-E 2.

Konačno, još jedna zabavna značajka koju ima Stable Diffusion je "img2img". U ovom mu dajete sliku kao upit, opisujete što želite da slika bude, a zatim pustite da vam ispravan crtanje.

Dao sam mu šablonu za rad i dobio sam prilično pristojnu sliku. Siguran sam da s boljim uputama (moje su ponešto kontradiktorne) možete postati još bolji. Ipak, uopće nije loše za nešto za što mi je trebalo nekih pet minuta.

Ukratko, Stable Diffusion je besplatan, jednostavan za postavljanje, a najveći problem je koliko je dostupan. Ako nemate dovoljno moćno računalo, morat ćete platiti da biste ga koristili preko Dream Studio-a.

Bojica

Craiyon je prije bio poznat kao DALL·E Mini, iako unatoč nazivu nema nikakve veze s Dall-E 2. Napravljen je kako bi se reproducirali rezultati OpenAI DALL·E modela teksta u sliku. Craiyon je dostupan javnosti i može se koristiti za generiranje slika koje su iznenađujuće pristojne, iako slike nisu tako precizne, niti su tako visoke kvalitete. Najveća rezolucija slike je 256x256, a nema ni alata za povećanje veličine.

Craiyon je potpuno besplatan za korištenje i dostupan mu je putem njegove web stranice. Možete generirati bilo koju sliku putem bilo kojeg odzivnika, a jedina začkoljica je što su slike slabije kvalitete i što ćete morati pričekati dvije minute ili više za svaku generiranu skupinu slika. Craiyon je započeo kao model otvorenog koda s ciljem reproduciranja rezultata početnog DALL·E modela. Model koji se sada koristi poznat je kao DALL·E Mega i sadrži nekoliko poboljšanja.

Craiyon, za razliku od ostalih opcija ovdje, podržava prihod od oglašavanja. Kao rezultat toga, vidjet ćete plaćena sponzorstva i druge reklame njihovu web stranicu kada posjetite. Postoji i aplikacija za Android pametne telefone. Nije najsofisticiraniji, ali je zabavan, jednostavan za korištenje i pristupačan.

Craiyon - AI generator slikaProgramer: Bojica

Cijena: besplatno.

3.9.

preuzimanje datoteka

Dall-E 2

Dall-E 2 proizvod je istraživačkog laboratorija OpenAI i najpoznatiji je AI generator slike kojeg ljudi zamišljaju. To je zatvoren alat s ograničenim pristupom, ali za one koji mu mogu pristupiti, neki od rezultata do kojih može doći su nevjerojatni. U početku je bio zatvoren zbog zabrinutosti oko etike i sigurnosti takvog alata, iako se s vremenom postupno proširio.

Jedna od najvećih prednosti Dall-E 2 je mogućnost stvaranja fotorealističnih slika koje se na prvi pogled ne mogu razlikovati od stvarnih fotografija. Može generirati slike, slike koje izgledaju kao da su snimljene pravim fotoaparatom i potpuno izmišljene scenarije. Predstavljao je veliki skok u mogućnostima umjetne inteligencije kada je prvi put najavljen, kako u sposobnostima stvaranja slika tako iu obradi prirodnog jezika, poznatoj kao NLP. To je zahvaljujući njegovoj implementaciji GPT-3, koji je jedan od najnaprednijih jezičnih modela koji postoji, a također mu je autor OpenAI.

Baš kao i kod Stable Diffusion, Dall-E 2 također ima vlastitu mogućnost snimanja postojećih slika i njihove izmjene na temelju upita. Možete uređivati fotografije putem njega tražeći da nešto doda slici ili čak zatražiti da nešto ukloni ili promijeni osvjetljenje. Iako stvara samo kvadratne slike, objavio je OpenAI Nadslikavanje prošlog mjeseca koji može šire proširiti vaše slike, uzimajući u obzir kontekst onoga što je već dostupno na vašoj kvadratnoj slici.

Dall-E 2 dostupna je svima za isprobavanje.

Sredina putovanja

Midjourney je zanimljiv jer je to javna platforma koja može generirati slike, iako to radite putem Discord poslužitelja. I ne samo to, već nakon što generirate 25 slika, morat ćete se pretplatiti na uslugu kako biste nastavili generirati nove.

Dok Sredina putovanja je vjerojatno najpristupačnija platforma ovdje (s obzirom da joj možete pristupiti s bilo kojeg uređaja s Discord računom), također vas košta. Međutim, iz toga dobivate kvalitetu. Korisnik usluge, Jason Allen, kreirao je djelo koje je nazvao "Théâtre D'opéra Spatial". Prijavio ju je na umjetničko natjecanje Colorado State Fair... i pobijedio.

Za razliku od ovih drugih projekata, Midjourney je vlasnički program umjetne inteligencije. Ne postoji izvorni kod koji možete pogledati, a njegova cjelokupna svrha u ovom trenutku ograničena je na korištenje unutar Discord poslužitelja. Što se tiče zašto je to samo Discord poslužitelj, David Holz, osnivač Midjourneyja, rekao je sljedeće za The Verge u intervjuu.

Započeli smo s testiranjem sirove tehnologije u rujnu prošle godine i odmah smo otkrili stvarno različite stvari. Vrlo brzo smo otkrili da većina ljudi ne zna što želi. Kažete: "Evo stroja s kojim možete zamisliti bilo što - što želite?" I kažu: "pas". I ti idi "stvarno?" i oni su "ružičasti pas". Dakle, date im sliku psa, a oni kažu "u redu" i onda odu učiniti nešto drugo.

Dok ako ih stavite u grupu, oni će ići "pas", a netko drugi će ići "svemirski pas", a netko drugi će ići "Aztec svemirski pas", a onda sve odjednom, ljudi razumiju mogućnosti, a vi stvarate ovu proširenu maštu — okruženje u kojem ljudi mogu učiti i igrati se s tim novim kapacitet. Tako smo otkrili da ljudi stvarno vole maštati zajedno, pa smo [Midjourney] učinili društvenim.

U to vrijeme također biste imali problema da ga odmaknete od zadanog stila "Midjourney", da tako kažem. To je u svakom slučaju prema Holzu, u istom intervjuu.

[Mi] imamo zadani stil i izgled, umjetnički je i prekrasan, i teško je odgurnuti [model] od toga.

Međutim, od tada je tvrtka izbacila dva nova modela -- "test" i "testp". "test" je model opće namjene, a "testp" je fokusiran isključivo na fotorealizam. Kao rezultat toga, moći ćete pobjeći od toga više zadano pogledajte i generirajte slike više vrsta ako želite.

Opasnosti i etika umjetnosti generirane umjetnom inteligencijom

Umjetnost koju je generirala umjetna inteligencija, iako je cool, nameće brojne opasnosti društvu u cjelini. U doba u kojem ponekad može biti teško reći kada je vijest izvučena iz konteksta ili izravna izmišljene, dolazi do opasnosti kada se u nekoliko minuta mogu napraviti slike koje izgledaju i doimaju se stvaran. Na primjer, pogledajte fotografije koje sam napravio u nastavku. Jedan je generiran pomoću Stable Diffusion, a drugi je generiran pomoću Craiyona.

Uputa: "srušio se NLO u Roswellu, 1947., rasvjeta, vojna generalna istraga, studijska rasvjeta"

Gornje fotografije prikazuju srušeni NLO u Roswellu, a prva slika prikazuje ono što izgleda kao osoba koja hoda po vrhu srušenog NLO-a. Iako je slika ovdje generirana u svrhu prikazivanja lažne fotografije, čini se da bi mogla biti prava. Bilo kakvi artefakti mogu se objasniti činjenicom da bi fotografije iz 1947. ionako bile lošije kvalitete, a obje bi slike mogle proći test oka na brzi pogled na stvarnost. Čak vam i ne treba jedan od najbolja računala učiniti nešto poput ovoga jer je Craiyon besplatna aplikacija.

Ono što postaje još mutnije je da zapravo možete navesti umjetnik od kojeg želite da se algoritam nadahne. Uobičajeni umjetnik je Greg Rutkowski, koji je javno govorio protiv upotrebe svog imena u umjetnosti koju stvara umjetna inteligencija. Njegovo se ime smatra jednim od najčešćih upita koji se koriste u stvaranju slika. “A.I. treba isključiti žive umjetnike iz svoje baze podataka,” Rutkowski ispričao artnet u intervjuu, "usredotočite se na djela u javnoj domeni." Pretraživanje imena Rutkowskog često će vratiti umjetničku umjetnost koja je generirana da izgleda kao njegov rad, ali nije zapravo njegov rad.

Još je gore to što umjetnost generirana umjetnom inteligencijom često može istaknuti predrasude ljudske rase. Craiyon čak ima upozorenje na dnu svoje početne stranice u FAQ-u, navodeći da "budući da je model treniran na nefiltriranim podacima s Interneta, može generiraju slike koje sadrže štetne stereotipe." Kao rezultat toga, unos upita kao što je "izvršni direktor tvrtke" najčešće će vratiti slike bijelaca u odijela. Isto tako, unos "učiteljice" kao upita gotovo će uvijek vratiti žene u učionice.

Budućnost umjetnosti generirane umjetnom inteligencijom

S obzirom na to da se čini da industrija ne usporava (i da je regulativa ne sustiže), očekujemo još veći napredak u tim područjima. Činjenica da smo prešli s mogućnosti Dall-E 2 (čak i ako je bio privatni) na Stable Diffusion u samo nekoliko mjeseci pokazuje koliko je ovo velika industrija i koliko potencijalno može biti velika industrija biti. Slike koje su prije mogle biti ugovorene s timom umjetnika sada se mogu generirati u nekoliko sekundi, s jednim umjetnikom koji je umjesto toga uključen u proces u popravne svrhe. Već smo vidjeli kako vam Midjourney može pomoći da pobijedite na umjetničkom natjecanju, na primjer, iako Ured za autorska prava SAD-a trenutno kaže da ne možete čak ni zaštititi autorska prava na slike generirane umjetnom inteligencijom.

Kao što je Holz također izjavio u svom intervjuu, trenutni trošak obuke svakog modela je oko 50.000 dolara -- ili više. Slike također koštaju jer se generiraju na nevjerojatno snažnim poslužiteljima, pogotovo kada ogroman broj korisnika dođe generirati vlastite slike. To će biti izuzetno skupo za sve nove igrače koji uđu u prostor, što bi zauzvrat moglo odbiti i neke tvrtke. Međutim, početni napori kao što je Stable Diffusion kao open source slute na dobro.

Kao rezultat toga, s uzbuđenjem ćemo čekati da vidimo budućnost AI slika. Prostor je tako brzo evoluirao u posljednjih godinu dana, i čini se da se novi pomaci ostvaruju svakodnevno. Međutim, uz nagle manipulacije slikama temeljene na umjetnoj inteligenciji čak i na našim pametnim telefonima, puno toga bi se moglo dogoditi u sljedećih godinu ili dvije.