Kaj je AI Image Generator in kako deluje?

Generatorji slik z umetno inteligenco so nedavno povzročili veliko pozornosti, vendar jih je morda težko razumeti. Tukaj je vse, kar morate vedeti o njih.

Leta 2022 smo bili priča pojavu nekaterih neverjetnih generatorjev besedila v sliko. Prvi, ki je sprožil velik val, je bil Dall-E 2, malo kasneje pa je prišel Stable Diffusion. Od takrat smo opazili, da prihajajo tudi druga orodja, vključno z Midjourney, Craiyon in celo TikTok do določene mere. Vse več je pomislekov, ko gre za orodja za ustvarjanje slik AI, ki se nanašajo predvsem na etiko taka orodja, ko lahko ustvarijo podobe resničnih ljudi na mestih ali situacijah, kjer dejansko niso bili v.

Vendar pa ni treba upoštevati samo etike. Generatorji slik AI so usposobljeni na milijonih in milijonih fotografij in so se naučili prepoznati stvari s pomočjo dejanskih obstoječih fotografij, ki so jih ustvarili resnični ljudje. Kdaj postane kršitev avtorskih pravic? Ali je nekdo odgovoren za kakršno koli škodo, če vaša umetna inteligenca pomotoma ustvari sliko, ki je zelo podobna drugemu dizajnu, in jo ustvarjalec te slike komercialno deli? Če da, kdo? Kdo je sploh "umetnik" v tem primeru?

Obstajajo ton razlogov, zakaj bi bili previdni glede generatorjev slik z umetno inteligenco, ti etični in varnostni pomisleki pa so le praskanje po površini. S temi orodji je mogoče ustvariti lažne slike, ki jih je mogoče uporabiti za spodbujanje pripovedi, sčasoma pa bodo le še slabše. Že glede na neverjetne zmogljivosti teh orodij za ustvarjanje slik je grozljivo pomisliti, kaj vse bodo zmožna narediti zelo kmalu. Vendar, če želite ustvariti lepe slike in se zabavati, potem v tem ni prav nič škodilo.

Stabilna difuzija

Stabilna difuzija je navdih za ta članek in orodje, s katerim sem se poigraval veliko nedavno. Deluje lokalno na vašem računalniku (tako da se ne borite za vire z drugimi uporabniki kakšnega spletnega orodja) in je eden najmočnejših, ki jih lahko trenutno uporabljate. Ne samo, da vam omogoča natančno nastavitev tone parametrov, ampak lahko tudi nadzorujete celoten proces generiranja.

Stable Diffusion trpi zaradi enakih pasti umetne inteligence, z dodatno "nevarnostjo" dostopnosti. Kdor ima dovolj zmogljiv računalnik, ga lahko nastavi in hitro zažene. Z i7-12700KF, RTX 3080, 32 GB RAM-a in gigabitnim internetom sem lahko nastavil Stable Diffusion in ustvaril svoje prve slike v eni uri. Moj računalnik je zagotovo na višji konec, vendar se lahko izognete, če ga zaženete naprej šibkejša strojna oprema (čeprav ne morete ustvariti tako velikih slik z nižjim vRAM-om in bo trajalo dlje).

Najboljša stvar pri Stable Diffusion je, da je popolnoma odprtokoden. Podporo lahko implementirate v katerega koli od svojih projektov že danes, če želite, in že obstajajo vtičniki, kot je Alpaca, ki jih lahko uporabite za integracijo s Photoshopom. Ni še popoln, vendar je zelo zgodaj v razvoju teh programov. Lahko uporabiš Sanjski studio če želite, čeprav to stane denar in je nekoliko omejujoče v primerjavi z lokalno nastavitvijo.

Še več, če nastavite Stable Diffusion lokalno, obstajajo forki, kot je npr AUTOMATIC1111's Stable Diffusion WebUI ki imajo vgrajeno orodje za večjo ločljivost, ki lahko poveča ločljivost do štirikrat. Medtem ko lahko ustvarite slike pri višjih ločljivostih, je pogosto veliko hitreje ustvariti sliko pri nižji ločljivosti in jo nato povečati. Vse spodnje slike so povečane za manjše ločljivosti.

Stabilna difuzija je bila usposobljena na gruči 4000 grafičnih procesorjev Nvidia A100, ki delujejo v AWS, in je potekala več kot mesec dni. Ima možnost ustvarjanja slik slavnih in ima tudi vgrajen filter NSFW. Ta filter NSFW lahko onemogočite v lokalnih namestitvah, saj dejansko prihrani vire z zmanjšanjem uporabe VRAM-a. Glede tega, kaj pomeni "difuzija", je to proces, ki se začne s čistim šumom in se sčasoma izpopolni. Sčasoma naredi sliko postopoma bližje pozivu za besedilo, dokler šuma ne izgine več. To je enak način delovanja Dall-E 2.

Nazadnje, še ena zabavna funkcija, ki jo ima Stable Diffusion, je "img2img". V tem mu daste sliko kot poziv, opišete, kakšna želite, da je slika, nato pa pustite, da vam da pravilno risanje.

Dal sem mu šablono za delo in nazaj dobil precej spodobno sliko. Prepričan sem, da bi z boljšimi pozivi (moji so nekoliko protislovni) lahko postali še boljši. Kljub temu sploh ni slabo za nekaj, kar mi je vzelo približno pet minut.

Skratka, Stable Diffusion je brezplačen, enostaven za nastavitev, največja težava pa je, kako dostopen je. Če nimate dovolj zmogljivega računalnika, boste morali plačati za uporabo prek Dream Studio.

Barvica

Craiyon je bil prej znan kot DALL·E Mini, čeprav kljub imenu ni povezan z Dall-E 2. Ustvarjen je bil za reproduciranje rezultatov OpenAI DALL·E modela besedila v sliko. Craiyon je na voljo javnosti in se lahko uporablja za ustvarjanje slik, ki so presenetljivo spodobne, čeprav slike niso tako natančne, niti niso tako visoke kakovosti. Največja ločljivost slike je 256 x 256, prav tako ni orodij za povečanje velikosti.

Craiyon je popolnoma brezplačen za uporabo in dostopen prek njegove spletne strani. S poljubnim pozivom lahko ustvarite katero koli sliko, edina težava pa je, da so slike slabše kakovosti in da boste morali na vsako ustvarjeno serijo slik počakati približno dve minuti. Craiyon se je začel kot odprtokodni model, namenjen reproduciranju rezultatov začetnega modela DALL·E. Model, ki se zdaj uporablja, je znan kot DALL·E Mega in ima več izboljšav.

Craiyon je za razliko od drugih tukajšnjih možnosti podprt s prihodki od oglaševanja. Posledično boste videli plačana sponzorstva in druge oglase njihovo spletno stran ko obiščete. Obstaja tudi aplikacija za pametne telefone Android. Ni najbolj izpopolnjen, je pa zabaven, enostaven za uporabo in dostopen.

Craiyon - AI generator slikrazvijalec: Barvica

Cena: brezplačno.

3.9.

Prenesi

Dall-E 2

Dall-E 2 je izdelek raziskovalnega laboratorija OpenAI in je najbolj znan generator slik umetne inteligence, ki si ga ljudje zamislijo. To je zaprto orodje z omejenim dostopom, toda za tiste, ki imajo dostop do njega, so nekateri rezultati, ki jih lahko doseže, neverjetni. Sprva je bil zaprt zaradi pomislekov glede etike in varnosti takšnega orodja, čeprav se je sčasoma postopoma razširil.

Ena največjih prednosti, ki jih ima Dall-E 2, je zmožnost ustvarjanja fotorealističnih slik, ki jih na prvi pogled ni mogoče ločiti od resničnih fotografij. Ustvari lahko slike, slike, ki so videti, kot da so bile posnete z resničnimi kamerami, in povsem izmišljene scenarije. Predstavljal je ogromen skok v zmogljivostih umetne inteligence, ko je bil prvič objavljen, tako v svojih zmožnostih ustvarjanja slik kot pri obdelavi naravnega jezika, znanem kot NLP. To je zahvaljujoč implementaciji GPT-3, ki je eden najnaprednejših jezikovnih modelov na voljo in je prav tako avtor OpenAI.

Tako kot pri Stable Diffusion ima tudi Dall-E 2 lastno sposobnost zajemanja obstoječih slik in njihovega spreminjanja na podlagi poziva. Prek njega lahko urejate fotografije tako, da ga prosite, naj sliki nekaj doda, ali ga celo prosite, naj nekaj odstrani ali spremeni osvetlitev. Čeprav ustvarja samo kvadratne slike, je napovedal OpenAI Preslikava zadnji mesec, ki lahko razširi vaše slike širše, pri čemer upošteva kontekst tega, kar je že na voljo na vaši kvadratni sliki.

Dall-E 2 je na voljo vsem za preizkus.

Midjourney

Midjourney je zanimiv, saj je javna platforma, ki lahko ustvarja slike, čeprav to počnete prek strežnika Discord. Ne samo to, ampak ko ustvarite 25 slik, se boste morali naročiti na storitev, če želite nadaljevati z ustvarjanjem novih.

Medtem Midjourney je verjetno najbolj dostopna platforma tukaj (glede na to, da lahko do nje dostopate iz katere koli naprave z računom Discord), vas tudi stane. Vendar pa iz tega dobite kakovost. Uporabnik storitve Jason Allen je ustvaril predstavo, ki jo je poimenoval "Théâtre D'Opera Spatial". Prijavil ga je na umetniški natečaj Colorado State Fair... in zmagal.

Za razliko od teh drugih projektov je Midjourney lastniški program umetne inteligence. Ni izvorne kode, ki bi si jo lahko ogledali, in njen celoten namen je v tem trenutku omejen na uporabo znotraj strežnika Discord. O tem, zakaj gre samo za strežnik Discord, je David Holz, ustanovitelj Midjourneyja, povedal naslednje The Verge v intervjuju.

Surovo tehnologijo smo začeli preizkušati septembra lani in takoj smo ugotovili res različne stvari. Zelo hitro smo ugotovili, da večina ljudi ne ve, kaj hoče. Rečete: "Tukaj je stroj, z njim si lahko predstavljate karkoli - kaj hočete?" In gredo: "pes." In greš "res?" in gredo "pink dog." Torej jim daš sliko psa, oni pa rečejo "v redu" in potem gredo nekaj narediti drugače.

Medtem ko če jih postavite v skupino, se bodo odločili za "pes", nekdo drug bo rekel "vesoljski pes", nekdo tretji pa bo rekel "azteški vesoljski pes", nato pa vsi nenadoma ljudje razumejo možnosti in vi ustvarjate to razširjeno domišljijo – okolje, kjer se lahko ljudje učijo in igrajo s to novo zmogljivost. Tako smo ugotovili, da si ljudje res radi predstavljajo skupaj, zato smo [Midjourney] naredili družaben.

Takrat bi imeli tudi težave, da bi ga tako rekoč usmerili stran od privzetega sloga »Midjourney«. Kakor koli že, to pravi Holz v istem intervjuju.

[I]mamo privzet slog in videz, ki je umetniški in lep, in [model] je težko odvrniti od tega.

Vendar je od takrat podjetje predstavilo dva nova modela - "test" in "testp". "test" je model za splošne namene, "testp" pa je osredotočen izključno na fotorealizem. Posledično se boste lahko temu bolj izognili privzeto poglejte in ustvarite slike več vrst, če želite.

Nevarnosti in etika umetnosti, ki jo ustvarja umetna inteligenca

Čeprav je umetnost, ki jo ustvarja umetna inteligenca, kul, družbi na splošno predstavlja številne nevarnosti. V dobi, ko je včasih težko ugotoviti, kdaj je novica vzeta iz konteksta ali direktna izdelane, obstaja nevarnost, ko je mogoče v nekaj minutah narediti slike, ki izgledajo in se čutijo resnično. Oglejte si na primer fotografije, ki sem jih ustvaril spodaj. Ena je bila ustvarjena s Stable Diffusion, druga pa s Craiyonom.

Poziv: "strmoglavljen NLP v Roswellu, 1947, razsvetljava, vojaški general preiskuje, studijska razsvetljava"

Zgornje fotografije prikazujejo strmoglavljeni NLP v Roswellu, prva slika pa kaže, kako izgleda oseba, ki hodi po strmoglavljenem NLP-ju. Čeprav je bila slika tukaj ustvarjena z namenom prikazovanja lažne fotografije, se zdi, da bi lahko bila resnična. Morebitne artefakte je mogoče razložiti z dejstvom, da bi bile fotografije iz leta 1947 tako ali tako slabše kakovosti, obe sliki pa bi lahko prestali očesni test ob hitrem pogledu na resničnost. Sploh ne potrebujete enega od najboljši računalniki narediti kaj takega, saj je Craiyon brezplačna aplikacija.

Še bolj mračno pa je, da dejansko lahko navedite umetnik, pri katerem želite, da algoritem črpa navdih. Pogost umetnik je Greg Rutkowski, ki je navzven govoril proti uporabi svojega imena v umetnosti, ki jo ustvarja umetna inteligenca. Njegovo ime velja za enega najpogostejših pozivov, uporabljenih pri ustvarjanju slik. »A.I. bi morala živeče umetnike izključiti iz svoje podatkovne baze,« Rutkowski povedal artnet v intervjuju "osredotočite se na dela v javni domeni." Iskanje imena Rutkowskega bo pogosto vrnilo umetnine z umetno inteligenco, ki so bile ustvarjene tako, da so videti kot njegovo delo, vendar niso pravzaprav njegovo delo.

Še huje je, da lahko umetnost, ki jo ustvari umetna inteligenca, pogosto izpostavi pristranskosti človeške rase. Craiyon ima na dnu svoje domače strani v pogostih vprašanjih celo opozorilo, da »ker je bil model učen na nefiltriranih podatkih iz interneta, lahko ustvarjajo slike, ki vsebujejo škodljive stereotipe." Posledično vnos pozivov, kot je "izvršni direktor podjetja", najpogosteje vrne slike belcev v obleke. Podobno bo vnos "učitelja" kot poziv skoraj vedno vrnil ženske v učilnice.

Prihodnost umetnosti, ustvarjene z umetno inteligenco

Glede na to, da se zdi, da se industrija ne upočasnjuje (in predpisi ne dohitevajo), pričakujemo še večji napredek na teh področjih. Dejstvo, da smo prešli z zmožnosti Dall-E 2 (tudi če je bil zaseben) na Stable Diffusion v samo nekaj mesecih pokaže, kako velika panoga je to in kako velika panoga je potencialno lahko biti. Slike, ki bi jih prej lahko naročili skupini umetnikov, je zdaj mogoče ustvariti v nekaj sekundah, pri čemer je namesto tega v postopek vključen en sam umetnik za namene popravkov. Videli smo že, kako vam lahko Midjourney pomaga zmagati na umetniškem natečaju, na primer, čeprav Urad ZDA za avtorske pravice trenutno pravi da ne morete zaščititi niti slik, ustvarjenih z umetno inteligenco.

Kot je Holz tudi izjavil v svojem intervjuju, je trenutni strošek usposabljanja vsakega modela okoli 50.000 $ - ali več. Slike prav tako stanejo, saj so ustvarjene na neverjetno zmogljivih strežnikih, še posebej, ko pride ogromno uporabnikov, da ustvarijo lastne slike. Za morebitne nove igralce, ki bodo vstopili v vesolje, bo stroškovno previsoko, kar bo morda odvrnilo tudi nekatera podjetja. Vendar pa začetna prizadevanja, kot je Stable Diffusion, ki je odprtokodna, obetajo dobro.

Posledično bomo z navdušenjem čakali na prihodnost slik AI. Prostor se je v zadnjem letu tako hitro razvil in zdi se, da se novi napredki dogajajo dnevno. Vendar z utrinki slikovne manipulacije, ki temelji na AI prihajajo celo na naše pametne telefone, v naslednjem letu ali dveh bi se lahko zgodilo marsikaj.