AI-bildegeneratorer har skapt mye buzz i det siste, men de kan være vanskelige å forstå. Her er alt du trenger å vite om dem.
I 2022 har vi sett fremveksten av noen utrolige tekst-til-bilde-generatorer. Den første som satte i gang den store bølgen var Dall-E 2, med Stable Diffusion som ankom kort tid senere. Siden den gang har vi sett andre verktøy komme også, inkludert Midjourney, Craiyon og til og med TikTok til en viss grad. Det er økende bekymringer når det gjelder AI-bildegenererende verktøy, hovedsakelig knyttet til etikken til slike verktøy når de kan generere bilder av virkelige mennesker på steder eller situasjoner som de faktisk ikke var i.
Det er imidlertid ikke bare etikk å vurdere, heller. AI-bildegeneratorer er trent på millioner og millioner av bilder og har lært seg å identifisere tingene ved hjelp av faktiske eksisterende bilder laget av ekte mennesker. Når blir det et brudd på opphavsretten? Hvis AI-en din ved et uhell genererer et bilde som ligner veldig på et annet design, og skaperen av det bildet fortsetter å dele det kommersielt, er noen ansvarlig for eventuelle skader? Hvis ja, hvem? Hvem er til og med "kunstneren" i dette tilfellet?
Det finnes en tonn av grunner til å være på vakt mot AI-bildegeneratorer, og disse etiske og sikkerhetsmessige bekymringene skraper bare i overflaten. Disse verktøyene kan brukes til å lage falske bilder som kan brukes til å presse en fortelling, og de vil bare bli verre med tiden også. Gitt de utrolige egenskapene til disse bildegenereringsverktøyene allerede, er det skummelt å tenke på hva de vil være i stand til å gjøre veldig snart. Men hvis du vil lage pene bilder og ha det gøy, er det absolutt ingen skade i det.
Stabil diffusjon
Stable Diffusion er inspirasjonen bak denne artikkelen og et verktøy som jeg har lekt rundt med en mye nylig. Det kjører lokalt på datamaskinen din (slik at du ikke kjemper om ressurser med andre brukere av et eller annet nettverktøy), og det er et av de kraftigste du kan bruke for øyeblikket. Ikke bare lar det deg finjustere massevis av parametere, men du kan også kontrollere hele generasjonsprosessen.
Stabil diffusjon lider av alle de samme AI-fallgruvene, med den ekstra "faren" for tilgjengelighet. Alle med en kraftig nok datamaskin kan sette den opp og få den til å kjøre raskt. Med en i7-12700KF, en RTX 3080, 32 GB RAM og gigabit internett, klarte jeg å sette opp Stable Diffusion og generere mine første bilder innen en time. PC-en min er definitivt på høyere ende, men du kan slippe unna med å kjøre den på svakere maskinvare (selv om du ikke kan generere like store bilder med lavere vRAM og det vil ta lengre tid).
Det beste med Stable Diffusion er at det er helt åpen kildekode. Du kan implementere støtte for det i alle prosjektene dine i dag hvis du vil, og det finnes allerede plugins som Alpaca som du kan bruke til å integrere med Photoshop. Det er ikke perfekt ennå, men det er ekstremt tidlig i utviklingen av disse programmene. Du kan bruke Drømmestudio enten hvis du vil, selv om det koster penger og er litt restriktivt i forhold til å sette det opp lokalt.
Dessuten, hvis du setter opp Stable Diffusion lokalt, finnes det gafler som f.eks AUTOMATIC1111s stabile diffusjonswebgrensesnitt som kommer med et innebygd oppskaleringsverktøy som kan øke oppløsningen opptil fire ganger høyere. Mens du kan generere bilder med høyere oppløsninger, er det ofte mye raskere å generere et bilde med lavere oppløsning og deretter oppskalere det. Alle bildene nedenfor er oppskalert fra mindre oppløsninger.
Stabil diffusjon ble trent på en klynge med 4000 Nvidia A100 GPUer som kjørte i AWS og fant sted over en måned. Den har muligheten til å generere bilder av kjendiser og har også et innebygd NSFW-filter. Du kan deaktivere dette NSFW-filteret på lokale installasjoner, siden det faktisk sparer ressurser ved å redusere VRAM-bruken. Når det gjelder hva "diffusjon" betyr, er det prosessen med å starte med ren støy og raffinering over tid. Det gjør bildet gradvis nærmere tekstmeldingen over tid til ingen støy er igjen. Dette er på samme måte som Dall-E 2 fungerer.
Til slutt, en annen morsom funksjon som Stable Diffusion har er "img2img". I dette gir du det et bilde som en melding, beskriver hva du vil at bildet skal være, og lar det deretter gi deg en ordentlig tegning.
Jeg ga den en mal å jobbe med og fikk tilbake et ganske anstendig bilde. Jeg er sikker på at du kan bli enda bedre med bedre meldinger (min er noe motstridende). Likevel, ikke dårlig i det hele tatt for noe som tok meg omtrent fem minutter å lage.
Kort sagt, Stable Diffusion er gratis, enkel å sette opp, og det største problemet er hvor tilgjengelig den er. Hvis du ikke har en kraftig nok PC, må du betale for å bruke denne gjennom slike som Dream Studio.
Craiyon
Craiyon var tidligere kjent som DALL·E Mini, men til tross for navnet, er det ikke noe forhold til Dall-E 2. Den ble opprettet for å reprodusere resultatene av OpenAIs DALL·E tekst-til-bilde-modell. Craiyon er tilgjengelig for publikum og kan brukes til å generere bilder som er overraskende anstendige, selv om bildene ikke er like nøyaktige, og de er heller ikke like høykvalitets. Bildeoppløsninger er maksimalt 256x256, og det er heller ingen oppskaleringsverktøy.
Craiyon er helt gratis å bruke og tilgjengelig via nettstedet. Du kan generere et hvilket som helst bilde via en hvilken som helst melding, og den eneste haken er at bildene er av lavere kvalitet og at du må vente to minutter eller så for hver gruppe bilder som genereres. Craiyon startet som en åpen kildekode-modell med sikte på å reprodusere resultatene fra den første DALL·E-modellen. Modellen som nå brukes er kjent som DALL·E Mega, og den inneholder flere forbedringer.
Craiyon, i motsetning til de andre alternativene her, støttes av annonseinntekter. Som et resultat vil du se betalte sponsorater og andre annonser på nettsiden deres når du besøker. Det finnes også en app for Android-smarttelefoner. Det er ikke det mest sofistikerte, men det er morsomt, enkelt å bruke og tilgjengelig.
Pris: Gratis.
3.9.
Dall-E 2
Dall-E 2 er et produkt fra OpenAI-forskningslaboratoriet og er den mest kjente AI-bildegeneratoren som folk tenker på. Det er et lukket verktøy med begrenset tilgang, men for de som har tilgang til det, er noen av resultatene det kan komme opp med utrolige. Det ble opprinnelig stengt på grunn av bekymringer rundt etikken og sikkerheten til et slikt verktøy, selv om det har utvidet seg gradvis over tid.
En av de største fordelene som Dall-E 2 har, er muligheten til å lage fotorealistiske bilder som på et øyeblikk ikke kan skjelnes fra ekte fotografier. Den kan generere malerier, bilder som ser ut til å ha blitt tatt på ekte kameraer, og helt oppdiktede scenarier. Det representerte et stort hopp i egenskapene til AI da det først ble annonsert, både i evnen til å lage bilder og i dens naturlige språkbehandling, kjent som NLP. Dette er takket være implementeringen av GPT-3, som er en av de mest avanserte språkmodellene der ute og også er skrevet av OpenAI.
Akkurat som med Stable Diffusion, har Dall-E 2 også sin egen evne til å ta eksisterende bilder og endre dem basert på en melding. Du kan redigere bilder gjennom den ved å be den legge til noe i et bilde, eller til og med be den om å fjerne noe eller endre belysningen. Mens den bare lager firkantede bilder, kunngjorde OpenAI Utmaling forrige måned som kan utvide bildene dine bredere, og ta hensyn til konteksten til det som allerede er tilgjengelig i det kvadratiske bildet ditt.
Dall-E 2 er tilgjengelig for alle å prøve.
Midjourney
Midjourney er interessant ettersom det er en offentlig plattform som kan generere bilder, selv om du gjør det gjennom en Discord-server. Ikke bare det, men etter at du har generert 25 bilder, må du abonnere på tjenesten for å fortsette å generere nye.
Samtidig som Midjourney er sannsynligvis den mest tilgjengelige plattformen her (gitt at du kan få tilgang til den fra hvilken som helst enhet med en Discord-konto), koster det deg også penger. Men du får kvalitet ut av det. En bruker av tjenesten, Jason Allen, laget et stykke som han kalte "Théâtre D'opéra Spatial". Han deltok i kunstkonkurransen i Colorado State Fair... og vant.
I motsetning til disse andre prosjektene, er Midjourney et proprietært kunstig intelligens-program. Det er ingen kildekode du kan se på, og hele formålet på dette tidspunktet er begrenset til bruk innenfor en Discord-server. Når det gjelder hvorfor det kun er en Discord-server, sa David Holz, grunnlegger av Midjourney, følgende til The Verge i et intervju.
Vi begynte å teste råteknologien i september i fjor, og vi fant umiddelbart virkelig forskjellige ting. Vi fant raskt ut at folk flest ikke vet hva de vil ha. Du sier: "Her er en maskin du kan forestille deg hva som helst med den - hva vil du?" Og de sier: «hund». Og du går "egentlig?" og de blir «rosa hund». Så du gir dem et bilde av en hund, og de går "ok" og gjør noe ellers.
Mens hvis du setter dem i en gruppe, vil de bli "hund" og noen andre vil bli "romhund" og noen andre vil bli "aztekisk romhund", og deretter alle plutselig forstår folk mulighetene, og du skaper denne utvidede fantasien – et miljø der folk kan lære og leke med denne nye kapasitet. Så vi fant ut at folk virkelig liker å forestille seg sammen, og derfor gjorde vi [Midjourney] sosial.
Den gang ville du også ha problemer med å styre den bort fra standard "Midjourney"-stil, for å si det sånn. Det er i alle fall ifølge Holz i det samme intervjuet.
[Vi har en standard stil og utseende, og det er kunstnerisk og vakkert, og det er vanskelig å skyve [modellen] bort fra det.
Siden den gang har selskapet imidlertid lansert to nye modeller - "test" og "testp". "test" er en generell modell, og "testp" fokuserer utelukkende på fotorealisme. Som et resultat vil du kunne komme deg bort fra det mer misligholde se og generer bilder av flere typer hvis du vil.
Farene og etikken ved AI-generert kunst
AI-generert kunst, selv om det er kult, medfører en rekke farer for samfunnet for øvrig. I en tid hvor det til tider kan være vanskelig å si når nyhetene er tatt ut av kontekst eller rett opp fabrikkert, er det en fare når bilder kan lages i løpet av få minutter som ser ut og føles ekte. Ta for eksempel en titt på bildene jeg genererte nedenfor. Den ene ble generert ved hjelp av Stable Diffusion, og den andre ble generert med Craiyon.
Melding: "krasjet UFO i Roswell, 1947, belysning, hærgeneral etterforskning, studiobelysning"
Bildene ovenfor viser en krasjet UFO ved Roswell, og det første bildet viser noe som ser ut som en person som går på toppen av den krasjet UFO. Mens bildet her ble generert med det formål å vise et falskt bilde, ser det ut som det kan være ekte. Eventuelle gjenstander kan bortforklares med at bilder i 1947 uansett ville ha vært av dårligere kvalitet, og begge bildene kunne bestått øyeprøven med et raskt blikk på at de var ekte. Du trenger ikke engang en av de beste datamaskiner å gjøre noe slikt, da Craiyon er en gratis applikasjon.
Der det blir enda skumlere er at du faktisk kan spesifisere en artist du vil at algoritmen skal hente inspirasjon fra. En vanlig kunstner er Greg Rutkowski, som har uttalt seg utad mot bruken av navnet hans i AI-generert kunst. Navnet hans rangerer som en av de vanligste spørsmålene som brukes i bildegenerering. «A.I. bør ekskludere levende kunstnere fra databasen sin," Rutkowski fortalte artnet i et intervju, "fokus på verk under det offentlige domene." Å søke på Rutkowskis navn vil ofte returnere AI-kunst som er generert for å se ut som hans verk, men som ikke er faktisk hans jobb.
Enda verre er at AI-generert kunst ofte kan fremheve skjevhetene til menneskeheten. Craiyon har til og med en advarsel nederst på hjemmesiden i FAQ, som sier at "fordi modellen ble trent på ufiltrerte data fra Internett, kan den generere bilder som inneholder skadelige stereotyper." Som et resultat vil det å skrive inn spørsmål som "selskapsleder" oftest returnere bilder av hvite menn i dresser. På samme måte vil det å skrive inn "lærer" som en oppfordring nesten alltid returnere kvinner i klasserommene.
Fremtiden til AI-generert kunst
Gitt at det ser ut til at industrien ikke bremser opp (og reguleringen kommer ikke etter), forventer vi å se enda mer fremgang på disse områdene. Det faktum at vi har gått fra mulighetene til Dall-E 2 (selv om den var privat) til Stable Diffusion på bare noen få måneder viser hvor stor bransje dette er, og hvor stor bransje det potensielt kan være være. Bilder som tidligere kunne vært kontrahert til et team av artister, kan nå genereres på sekunder, med en enkelt artist i stedet involvert i prosessen for korrigerende formål. Vi har allerede sett hvordan Midjourney kan hjelpe deg med å vinne en kunstkonkurranse, for eksempel, gjennom U.S. Copyright Office sier for tiden at du ikke engang kan opphavsrett AI-genererte bilder.
Som Holz også sa i intervjuet, er den nåværende kostnaden for å trene hver modell rundt $50 000 - eller mer. Bilder koster også penger ettersom de genereres på utrolig kraftige servere, spesielt når et stort antall brukere kommer for å generere sine egne bilder. Det kommer til å være enormt uoverkommelig for alle nye spillere som kommer inn i området, noe som i sin tur faktisk kan sette noen selskaper av også. Imidlertid lover innledende innsats som at Stable Diffusion er åpen kildekode godt.
Som et resultat vil vi vente spent på å se fremtiden til AI-bilder. Plassen har utviklet seg så raskt det siste året, og det ser ut til at det gjøres nye fremskritt daglig. Imidlertid med glimt av AI-basert bildemanipulering selv kommer til våre smarttelefoner, det er mye som kan skje i løpet av det neste året eller to.