Mikä on AI Image Generator ja miten se toimii?

Tekoälykuvageneraattorit ovat saaneet aikaan paljon kohua viime aikoina, mutta niitä voi olla vaikea ymmärtää. Tässä on kaikki, mitä sinun tarvitsee tietää heistä.

Vuonna 2022 olemme nähneet uskomattomien tekstistä kuvaksi -generaattoreiden ilmaantumisen. Ensimmäinen, joka lähti suurelle aallolle, oli Dall-E 2, jonka Stable Diffusion saapui hetken kuluttua. Sen jälkeen olemme nähneet myös muita työkaluja saapuvan, mukaan lukien Midjourney, Craiyon ja jopa TikTok jossain määrin. Tekoälykuvan luontityökalut ovat kasvavassa määrin huolissaan, jotka liittyvät ensisijaisesti etiikkaan tällaisia työkaluja, kun ne voivat luoda kuvia oikeista ihmisistä paikoissa tai tilanteissa, joita he eivät todellisuudessa olleet sisään.

Ei kuitenkaan ole otettava huomioon vain etiikka. Tekoälykuvageneraattorit on koulutettu miljoonien ja miljoonien valokuvien käyttöön, ja ne ovat oppineet tunnistamaan asioita todellisten ihmisten luomien kuvien avulla. Milloin siitä tulee tekijänoikeusrikkomus? Jos tekoälysi luo vahingossa kuvan, joka näyttää hyvin samanlaiselta kuin toista mallia, ja kuvan luoja jatkaa sen jakamista kaupallisesti, onko joku vastuussa vahingoista? Jos on, niin kuka? Kuka tässä tapauksessa edes on "taiteilija"?

Siellä on tonnia syistä olla varovaisia tekoälykuvageneraattoreiden suhteen, ja nämä eettiset ja turvallisuusongelmat vain raaputtavat pintaa. Näillä työkaluilla voidaan luoda väärennettyjä kuvia, joita voidaan käyttää narratiivin työntämiseen, ja ne vain pahenevat ajan myötä. Kun otetaan huomioon näiden kuvien luontityökalujen uskomattomat ominaisuudet jo valmiiksi, on pelottavaa ajatella, mitä ne pystyvät tekemään hyvin pian. Kuitenkin, jos haluat tehdä kauniita kuvia ja pitää hauskaa, siitä ei ole mitään haittaa.

Vakaa diffuusio

Stable Diffusion on tämän artikkelin inspiraationa ja työkaluna, jolla olen leikkinyt paljon äskettäin. Se toimii paikallisesti tietokoneellasi (joten et taistele resursseista muiden online-työkalujen käyttäjien kanssa) ja se on yksi tehokkaimmista, joita voit tällä hetkellä käyttää. Sen avulla voit hienosäätää useita parametreja, mutta voit myös hallita koko tuotantoprosessia.

Stable Diffusion kärsii kaikista samoista tekoälyn sudenkuoppista, ja saavutettavuuteen liittyy lisätty "vaara". Jokainen, jolla on riittävän tehokas tietokone, voi asentaa sen ja saada sen toimimaan nopeasti. i7-12700KF: n, RTX 3080:n, 32 Gt: n RAM-muistin ja gigabitin internetin avulla pystyin määrittämään Stable Diffusionin ja luomaan ensimmäiset kuvani tunnin sisällä. Tietokoneeni on ehdottomasti päällä korkeampi pää, mutta voit päästä eroon sen jatkamisesta heikompi laitteisto (vaikka et voi luoda yhtä suuria kuvia pienemmällä vRAM-muistilla ja se kestää kauemmin).

Parasta Stable Diffusionissa on, että se on täysin avoimen lähdekoodin. Voit ottaa sen tuen käyttöön missä tahansa projektissasi tänään, jos haluat, ja jo olemassa on laajennuksia, kuten Alpaca, joita voit käyttää Photoshopin integroimiseen. Se ei ole vielä täydellinen, mutta se on erittäin varhaisessa vaiheessa näiden ohjelmien kehitystä. Voit käyttää Unelmien studio joko jos haluat, vaikka se maksaa rahaa ja on hieman rajoittava verrattuna paikalliseen käyttöön.

Lisäksi, jos määrität Stable Diffusionin paikallisesti, on haarukoita, kuten AUTOMATIC1111:n Stable Diffusion WebUI joissa on sisäänrakennettu korkeatasoinen työkalu, joka voi kasvattaa resoluutiota jopa neljä kertaa suuremmaksi. Vaikka voit luoda kuvia korkeammalla resoluutiolla, on usein paljon nopeampaa luoda kuva pienemmällä resoluutiolla ja sitten skaalata sitä. Kaikki alla olevat kuvat on skaalattu pienemmillä resoluutioilla.

Stable Diffusion koulutettiin 4 000 Nvidia A100 GPU: n klusteriin, jotka toimivat AWS: ssä, ja se toteutettiin yli kuukauden. Sillä on kyky luoda kuvia julkkiksista, ja siinä on myös sisäänrakennettu NSFW-suodatin. Voit poistaa tämän NSFW-suodattimen käytöstä paikallisissa asennuksissa, koska se itse asiassa säästää resursseja vähentämällä VRAM: n käyttöä. Mitä "Diffusion" tarkoittaa, se on prosessi, jossa aloitetaan puhtaalla kohinalla ja jalostetaan ajan myötä. Se tekee kuvan vähitellen lähemmäksi tekstikehotetta ajan mittaan, kunnes kohinaa ei ole jäljellä. Tämä on samalla tavalla kuin Dall-E 2 toimii.

Lopuksi toinen hauska ominaisuus, joka Stable Diffusionilla on, on "img2img". Tässä annat sille kuvan kehotteena, kuvailet, millaisen haluat kuvan olevan, ja annat sen sitten antaa sinulle oikea piirustus.

Annoin sille mallin käytettäväksi ja sain takaisin melko kunnollisen kuvan. Olen varma, että paremmilla kehotteilla (minun on hieman ristiriitainen), voit saada vielä paremman. Ei kuitenkaan ollenkaan huono asia, jonka tekemiseen meni noin viisi minuuttia.

Lyhyesti sanottuna Stable Diffusion on ilmainen, helppo asentaa, ja suurin ongelma on sen saavutettavuus. Jos sinulla ei ole tarpeeksi tehokasta tietokonetta, sinun on maksettava käyttääksesi tätä Dream Studion kaltaisen kautta.

Craiyon

Craiyon tunnettiin aiemmin nimellä DALL·E Mini, vaikka nimestä huolimatta sillä ei ole mitään yhteyttä Dall-E 2:een. Se luotiin toistamaan OpenAI: n DALL·E tekstistä kuvaksi -mallin tulokset. Craiyon on yleisön saatavilla ja sitä voidaan käyttää yllättävän kunnollisten kuvien luomiseen, vaikka kuvat eivät olekaan yhtä tarkkoja eivätkä laadukkaita. Kuvaresoluutio on maksimissaan 256x256, eikä skaalaustyökaluja ole myöskään.

Craiyon on täysin ilmainen käyttää ja saatavilla sen verkkosivuston kautta. Voit luoda minkä tahansa kuvan minkä tahansa kehotteen avulla, ja ainoa saalis on, että kuvat ovat huonompia ja että sinun on odotettava noin kaksi minuuttia jokaista luotua kuvaerää varten. Craiyon aloitti avoimen lähdekoodin mallina, jonka tarkoituksena oli toistaa alkuperäisen DALL·E-mallin tulokset. Nyt käytössä oleva malli tunnetaan nimellä DALL·E Mega, ja se sisältää useita parannuksia.

Craiyon, toisin kuin muut vaihtoehdot, tukee mainostuloja. Tämän seurauksena näet maksettuja sponsoreita ja muita mainoksia heidän verkkosivuillaan kun vierailet. Android-älypuhelimille on myös sovellus. Se ei ole kaikkein kehittynein, mutta se on hauska, helppokäyttöinen ja helposti saatavilla.

Craiyon - AI Image GeneratorKehittäjä: Craiyon

Hinta: Ilmainen.

3.9.

ladata

Dall-E 2

Dall-E 2 on OpenAI-tutkimuslaboratorion tuote ja tunnetuin tekoälykuvageneraattori, jota ihmiset ajattelevat. Se on suljettu työkalu, jolla on rajoitettu käyttöoikeus, mutta niille, jotka voivat käyttää sitä, jotkut sen saamista tuloksista ovat uskomattomia. Se suljettiin alun perin tällaisen työkalun etiikkaan ja turvallisuuteen liittyvien huolenaiheiden vuoksi, vaikka se on laajentunut vähitellen ajan myötä.

Yksi Dall-E 2:n suurimmista eduista on kyky luoda fotorealistisia kuvia, joita yhdellä silmäyksellä ei voi erottaa todellisista valokuvista. Se voi luoda maalauksia, kuvia, jotka näyttävät olevan otettu oikeilla kameroilla, ja täysin keksittyjä skenaarioita. Se edusti valtavaa hyppyä tekoälyn ominaisuuksissa, kun se julkistettiin ensimmäisen kerran, sekä sen kykyjen tehdä kuvia että sen luonnollisen kielen käsittelyssä, joka tunnetaan nimellä NLP. Tämä johtuu GPT-3:n toteutuksesta, joka on yksi edistyneimmistä kielimalleista ja jonka on myös kirjoittanut OpenAI.

Aivan kuten Stable Diffusion, Dall-E 2:lla on myös oma kykynsä ottaa olemassa olevia kuvia ja muokata niitä kehotteen perusteella. Voit muokata valokuvia sen kautta pyytämällä sitä lisäämään jotain kuvaan tai jopa pyytämään sitä poistamaan jotain tai muuttamaan valaistusta. Vaikka se luo vain neliömäisiä kuvia, OpenAI ilmoitti Ulkomaalaus viime kuussa, mikä voi laajentaa kuviasi, kun otetaan huomioon neliönmuotoisessa kuvassasi jo saatavilla olevat sisällöt.

Dall-E 2 on kaikkien koettavissa.

Keskimatka

Midjourney on mielenkiintoinen, koska se on julkinen alusta, joka voi luoda kuvia, vaikka teet sen Discord-palvelimen kautta. Ei vain sitä, vaan kun olet luonut 25 kuvaa, sinun on tilattava palvelu jatkaaksesi uusien luomista.

Sillä aikaa Keskimatka on luultavasti helpoin alusta täällä (koska voit käyttää sitä millä tahansa laitteella Discord-tilillä), se myös maksaa sinulle rahaa. Siitä saa kuitenkin laatua. Palvelun käyttäjä Jason Allen loi teoksen, jonka hän kutsui nimellä "Théâtre D'opéra Spatial". Hän osallistui Colorado State Fair -taidekilpailuun... ja voitti.

Toisin kuin nämä muut hankkeet, Midjourney on patentoitu tekoälyohjelma. Ei ole lähdekoodia, jota voit tarkastella, ja sen koko tarkoitus tällä hetkellä on rajoitettu käyttöön Discord-palvelimessa. Mitä tulee siihen, miksi se on vain Discord-palvelin, Midjourneyn perustaja David Holz sanoi seuraavaa The Verge haastattelussa.

Aloitimme raakateknologian testaamisen viime vuoden syyskuussa ja löysimme heti todella erilaisia asioita. Huomasimme hyvin nopeasti, että useimmat ihmiset eivät tiedä mitä haluavat. Sanot: "Tässä on kone, jonka avulla voit kuvitella mitä tahansa - mitä haluat?" Ja he sanovat: "koira". Ja sinä menet "Todella?" ja heistä tulee "vaaleanpunainen koira". Joten annat heille kuvan koirasta, ja he menevät "okei" ja sitten tekevät jotain muu.

Jos taas laitat heidät ryhmään, heistä tulee "koira" ja joku muu "avaruuskoira" ja joku muu "atsteekkien avaruuskoira", ja sitten kaikki Yhtäkkiä ihmiset ymmärtävät mahdollisuudet, ja sinä luot tämän lisääntyneen mielikuvituksen – ympäristön, jossa ihmiset voivat oppia ja leikkiä tämän uuden kanssa. kapasiteettia. Joten huomasimme, että ihmiset todella pitävät kuvittelemisesta yhdessä, ja siksi teimme [Midjourneysta] sosiaalisen.

Silloin sinulla oli myös vaikeuksia ohjata sitä pois oletusarvoisesta "Midjourney" -tyylistä niin sanotusti. Se on kuitenkin Holzin mukaan samassa haastattelussa.

[Meillä on oletustyyli ja ulkonäkö, ja se on taiteellista ja kaunista, ja siitä on vaikea työntää [mallia] pois.

Siitä lähtien yritys on kuitenkin julkaissut kaksi uutta mallia - "test" ja "testp". "testi" on yleiskäyttöinen malli, ja "testp" keskittyy yksinomaan fotorealismiin. Tämän seurauksena voit päästä eroon siitä enemmän oletuksena katso ja luo useampia kuvia, jos haluat.

Tekoälyn luoman taiteen vaarat ja etiikka

Tekoälyn tuottama taide, vaikka se on siistiä, asettaa useita vaaroja koko yhteiskunnalle. Aikana, jolloin voi olla vaikea kertoa toisinaan, kun uutiset irrotetaan kontekstista tai suoraan valmistettu, on olemassa vaara, kun kuvia voidaan tehdä muutamassa minuutissa, jotka näyttävät ja tuntuvat todellinen. Katso esimerkiksi alla luomiani valokuvia. Toinen luotiin käyttämällä Stable Diffusionia, ja toinen luotiin Craiyonilla.

Kehotus: "törmäsi UFO Roswellissa, 1947, valaistus, armeijan kenraali tutkii, studion valaistus"

Yllä olevat kuvat kuvaavat törmänneen UFO: n Roswellissa ja ensimmäinen kuva näyttää miltä näyttää henkilö kävelevän törmänneen UFO: n päällä. Vaikka tässä oleva kuva luotiin väärennetyn valokuvan näyttämistä varten, näyttää siltä, että se voisi olla todellinen. Mahdolliset esineet voidaan selittää sillä, että vuoden 1947 valokuvat olisivat joka tapauksessa olleet huonolaatuisempia, ja molemmat kuvat saattoivat läpäistä silmäkokeen yhdellä silmäyksellä todellisuudesta. Et tarvitse edes yhtäkään niistä parhaat tietokoneet tehdä jotain tällaista, koska Craiyon on ilmainen sovellus.

Vielä hämärämpää on, että voit itse asiassa täsmentää taiteilija, jolta haluat algoritmin saavan inspiraatiota. Yleinen taiteilija on Greg Rutkowski, joka on ulkoisesti vastustanut nimensä käyttöä tekoälyn luomassa taiteessa. Hänen nimensä on yksi yleisimmistä kuvan luomisessa käytetyistä kehotteista. "A.I. pitäisi jättää elävät taiteilijat pois tietokannastaan”, Rutkowski kertonut artnet haastattelussa "keskittyy teoksiin, jotka ovat julkisia". Rutkowskin nimen haku palauttaa usein tekoälytaidetta, joka on luotu näyttämään hänen työstään, mutta ei sitä ole itse asiassa hänen työnsä.

Vielä pahempaa on, että tekoälyn tuottama taide voi usein korostaa ihmiskunnan ennakkoluuloja. Craiyonilla on jopa varoitus kotisivunsa alaosassa UKK: ssa, jossa todetaan, että "koska mallia on koulutettu suodattamattomien Internetin tietojen perusteella, se saattaa luoda kuvia, jotka sisältävät haitallisia stereotypioita." Tämän seurauksena kehotteiden, kuten "yrityksen johtaja", kirjoittaminen palauttaa useimmiten kuvia valkoisista miehistä puvut. Samoin sanan "opettaja" kirjoittaminen kehotteeseen palauttaa naiset lähes aina luokkahuoneisiin.

Tekoälyn luoman taiteen tulevaisuus

Ottaen huomioon, että teollisuus ei näytä olevan hidastumassa (ja sääntely ei ole kuromassa kiinni), odotamme näkevän vielä enemmän edistystä näillä alueilla. Se, että olemme siirtyneet Dall-E 2:n ominaisuuksista (vaikka se oli yksityinen) Stable Diffusioniin vain muutamassa kuukaudessa osoittaa, kuinka suuri ala tämä on ja kuinka suuri ala se mahdollisesti voi olla olla. Kuvia, jotka olisi voitu aiemmin tilata taiteilijatiimille, voidaan nyt luoda sekunneissa, jolloin yksi taiteilija osallistuu prosessiin korjaustarkoituksiin. Olemme jo nähneet, kuinka Midjourney voi auttaa sinua voittamaan esimerkiksi taidekilpailun, vaikka Yhdysvaltain tekijänoikeusvirasto tällä hetkellä sanoo että et voi edes suojata tekoälyn luomia kuvia.

Kuten Holz myös totesi haastattelussaan, kunkin mallin koulutuskustannukset ovat noin 50 000 dollaria tai enemmän. Kuvat maksavat myös rahaa, koska ne luodaan uskomattoman runsailla palvelimilla, varsinkin kun valtava määrä käyttäjiä tulee luomaan omia kuviaan. Se tulee olemaan valtavasti kustannuksia estävää kaikille uusille pelaajille, jotka tulevat tilaan, mikä puolestaan voi myös itse asiassa saada jotkut yritykset pois. Alkutyöt, kuten avoimen lähdekoodin Stable Diffusion, lupaavat kuitenkin hyvää.

Tämän seurauksena odotamme innolla näkevämme tekoälykuvien tulevaisuuden. Tila on kehittynyt niin nopeasti viimeisen vuoden aikana, ja näyttää siltä, että uusia edistysaskeleita tehdään päivittäin. Kuitenkin välähdyksiä tekoälypohjaisesta kuvankäsittelystä jopa älypuhelimillemme, seuraavan vuoden tai kahden aikana voi tapahtua paljon.