AI-billedgeneratorer har skabt en masse buzz for nylig, men de kan være svære at forstå. Her er alt, hvad du behøver at vide om dem.
I 2022 har vi set fremkomsten af nogle utrolige tekst-til-billede-generatorer. Den første til at sætte gang i den store bølge var Dall-E 2, hvor Stable Diffusion ankom kort tid senere. Siden da har vi også set andre værktøjer ankomme, inklusive Midjourney, Craiyon og endda TikTok til en vis grad. Der er voksende bekymringer, når det kommer til AI-billedgenererende værktøjer, der primært vedrører etikken i sådanne værktøjer, når de kan generere billeder af rigtige mennesker på steder eller situationer, som de ikke var i.
Der er dog heller ikke kun etik at overveje. AI-billedgeneratorer er trænet på millioner og atter millioner af fotos og har lært at identificere ting ved hjælp af faktiske eksisterende fotos skabt af rigtige mennesker. Hvornår bliver det en krænkelse af ophavsretten? Hvis din AI ved et uheld genererer et billede, der ligner et andet design meget, og skaberen af det billede fortsætter med at dele det kommercielt, er nogen så ansvarlig for eventuelle skader? Hvis ja, hvem? Hvem er overhovedet "kunstneren" i dette tilfælde?
Der er en ton af grunde til at være på vagt over for AI-billedgeneratorer, og disse etiske og sikkerhedsmæssige bekymringer ridser blot overfladen. Disse værktøjer kan bruges til at skabe falske billeder, der kan bruges til at skubbe en fortælling, og de bliver også kun værre med tiden. I betragtning af de utrolige muligheder i disse billedgenereringsværktøjer allerede, er det skræmmende at tænke på, hvad de vil være i stand til meget snart. Men hvis du vil lave smukke billeder og have det sjovt, så er der absolut ingen skade i det.
Stabil diffusion
Stable Diffusion er inspirationen bag denne artikel og et værktøj, som jeg har leget med en masse for nylig. Det kører lokalt på din computer (så du kæmper ikke om ressourcer med andre brugere af et eller andet onlineværktøj), og det er et af de mest kraftfulde, du kan bruge i øjeblikket. Det giver dig ikke kun mulighed for at finjustere et væld af parametre, men du kan også kontrollere hele generationsprocessen.
Stabil diffusion lider af alle de samme AI-fælder, med den ekstra "fare" for tilgængelighed. Enhver med en kraftig nok computer kan konfigurere den og få den til at køre hurtigt. Med en i7-12700KF, en RTX 3080, 32 GB RAM og gigabit internet var jeg i stand til at opsætte stabil diffusion og generere mine første billeder inden for en time. Min pc er helt sikkert på højere ende, men du kan slippe afsted med at køre den på svagere hardware (selvom du ikke kan generere så store billeder med lavere vRAM, og det vil tage længere tid).
Det bedste ved Stable Diffusion er, at det er helt åben kildekode. Du kan implementere support til det i ethvert af dine projekter i dag, hvis du vil, og der findes allerede plugins såsom Alpaca, som du kan bruge til at integrere med Photoshop. Det er ikke perfekt endnu, men det er ekstremt tidligt i udviklingen af disse programmer. Du kan bruge Drømmestudie enten hvis du vil, selvom det koster penge og er lidt restriktivt i forhold til at sætte det op lokalt.
Hvad mere er, hvis du opsætter Stable Diffusion lokalt, er der gafler som f.eks AUTOMATIC1111's stabile diffusionswebUI der kommer med et indbygget opskaleringsværktøj, der kan øge opløsningen op til fire gange højere. Selvom du kan generere billeder i højere opløsninger, er det ofte meget hurtigere at generere et billede med en lavere opløsning og derefter opskalere det. Alle billederne nedenfor er opskaleret fra mindre opløsninger.
Stable Diffusion blev trænet på en klynge af 4.000 Nvidia A100 GPU'er, der kørte i AWS og fandt sted over en måned. Det har evnen til at generere billeder af berømtheder og har også et indbygget NSFW-filter. Du kan deaktivere dette NSFW-filter på lokale installationer, da det faktisk sparer ressourcer ved at reducere VRAM-brug. Med hensyn til, hvad "Diffusion" betyder, er det processen med at starte med ren støj og forfine over tid. Det gør billedet trinvist tættere på tekstprompten over tid, indtil der ikke er nogen støj tilbage. Det er på samme måde som Dall-E 2 fungerer.
Endelig er en anden sjov funktion, som Stable Diffusion har, "img2img". I dette giver du det et billede som en prompt, beskriver hvad du vil have billedet til at være, og lader det derefter give dig en passende tegning.
Jeg gav den en skabelon at arbejde med og fik et ret anstændigt billede tilbage. Jeg er sikker på, at med bedre prompter (min er noget modstridende), kan du blive endnu bedre. Alligevel slet ikke dårligt for noget, der tog mig omkring fem minutter at lave.
Kort sagt, Stable Diffusion er gratis, nem at sætte op, og det største problem er, hvor tilgængeligt det er. Hvis du ikke har en kraftig nok pc, skal du betale for at bruge denne gennem f.eks. Dream Studio.
Craiyon
Craiyon var tidligere kendt som DALL·E Mini, men på trods af navnet har han ingen relation til Dall-E 2. Det blev skabt for at gengive resultaterne af OpenAI's DALL·E tekst-til-billede-model. Craiyon er tilgængelig for offentligheden og kan bruges til at generere billeder, der er overraskende anstændige, selvom billederne ikke er så nøjagtige, og de er heller ikke af lige så høj kvalitet. Billedopløsninger er maksimalt 256x256, og der er heller ingen opskaleringsværktøjer.
Craiyon er helt gratis at bruge og tilgængelig via sin hjemmeside. Du kan generere et hvilket som helst billede via en hvilken som helst prompt, og den eneste fangst er, at billederne er af lavere kvalitet, og at du skal vente to minutter eller deromkring for hver batch af billeder, der genereres. Craiyon startede som en open source-model med det formål at reproducere resultaterne af den indledende DALL·E-model. Den model, der nu bruges, er kendt som DALL·E Mega, og den rummer adskillige forbedringer.
Craiyon, i modsætning til de andre muligheder her, understøttes af annonceindtægter. Som et resultat vil du se betalte sponsorater og andre annoncer på deres hjemmeside når du besøger. Der er også en app til Android-smartphones. Det er ikke det mest sofistikerede, men det er sjovt, nemt at bruge og tilgængeligt.
Pris: Gratis.
3.9.
Dall-E 2
Dall-E 2 er et produkt fra OpenAI-forskningslaboratoriet og er den mest kendte AI-billedgenerator, som folk tænker på. Det er et lukket værktøj med begrænset adgang, men for dem, der kan få adgang til det, er nogle af de resultater, det kan komme med, utrolige. Det blev oprindeligt lukket af på grund af bekymringer omkring etik og sikkerhed af et sådant værktøj, selvom det er blevet udvidet gradvist over tid.
En af de største fordele, som Dall-E 2 har, er evnen til at skabe fotorealistiske billeder, der på et øjeblik ikke kan skelnes fra rigtige fotografier. Det kan generere malerier, billeder, der ser ud til at være blevet taget på rigtige kameraer, og helt opdigtede scenarier. Det repræsenterede et stort spring i AI's muligheder, da det først blev annonceret, både i dets evner til at lave billeder og i dets naturlige sprogbehandling, kendt som NLP. Dette er takket være implementeringen af GPT-3, som er en af de mest avancerede sprogmodeller derude og også er forfattet af OpenAI.
Ligesom med Stable Diffusion har Dall-E 2 også sin egen evne til at tage eksisterende billeder og ændre dem baseret på en prompt. Du kan redigere billeder gennem det ved at bede det om at tilføje noget til et billede eller endda bede det om at fjerne noget eller ændre belysningen. Mens det kun skaber firkantede billeder, annoncerede OpenAI Udmaling sidste måned, der kan udvide dine billeder bredere under hensyntagen til konteksten af det, der allerede er tilgængeligt i dit firkantede billede.
Dall-E 2 er tilgængelig for alle at prøve.
Midjourney
Midjourney er interessant, da det er en offentlig platform, der kan generere billeder, selvom du gør det via en Discord-server. Ikke kun det, men efter at du har genereret 25 billeder, skal du abonnere på tjenesten for at fortsætte med at generere nye.
Mens Midjourney er nok den mest tilgængelige platform her (forudsat at du kan få adgang til den fra enhver enhed med en Discord-konto), koster det dig også penge. Du får dog kvalitet ud af det. En bruger af tjenesten, Jason Allen, skabte et stykke, som han kaldte "Théâtre D'opéra Spatial". Han deltog i kunstkonkurrencen i Colorado State Fair... og vandt.
I modsætning til disse andre projekter er Midjourney et proprietært kunstig intelligens-program. Der er ingen kildekode, du kan se på, og hele dens formål på dette tidspunkt er begrænset til brug inden for en Discord-server. Med hensyn til hvorfor det kun er en Discord-server, sagde David Holz, grundlægger af Midjourney, følgende til Randen i et interview.
Vi startede med at teste den rå teknologi i september sidste år, og vi fandt straks virkelig anderledes ting. Vi fandt meget hurtigt ud af, at de fleste mennesker ikke ved, hvad de vil have. Du siger: "Her er en maskine, du kan forestille dig hvad som helst med den - hvad vil du have?" Og de siger: "hund." Og du går "virkelig?" og de bliver "pink hund". Så du giver dem et billede af en hund, og de går "okay" og går så ud og laver noget andet.
Hvorimod hvis du sætter dem i en gruppe, vil de blive "hund", og en anden vil blive "rumhund", og en anden vil gå til "aztekisk rumhund", og derefter pludselig forstår folk mulighederne, og du skaber denne udvidede fantasi - et miljø, hvor folk kan lære og lege med dette nye kapacitet. Så vi fandt ud af, at folk virkelig godt kan lide at forestille sig sammen, og så vi gjorde [Midjourney] social.
Dengang ville du også have problemer med at styre den væk fra standardstilen "Midjourney", så at sige. Det er i hvert fald ifølge Holz i det samme interview.
[Vi har en standardstil og et standardudseende, og det er kunstnerisk og smukt, og det er svært at skubbe [modellen] væk fra det.
Men siden da har virksomheden udrullet to nye modeller - "test" og "testp". "test" er en generel model, og "testp" er udelukkende fokuseret på fotorealisme. Som et resultat vil du være i stand til at slippe mere væk fra det Standard se og generer billeder af flere typer, hvis du vil.
Farerne og etikken ved AI-genereret kunst
AI-genereret kunst, selv om den er cool, pålægger samfundet som helhed en række farer. I en tid, hvor det kan være svært at sige til tider, hvor nyheden er taget ud af kontekst eller ligefrem fremstillet, er der en fare, når billeder kan laves på få minutter, der ser ud og føles ægte. Tag for eksempel et kig på billederne, som jeg genererede nedenfor. Den ene blev genereret ved hjælp af stabil diffusion, og den anden blev genereret med Craiyon.
Prompt: "styrtede UFO i Roswell, 1947, belysning, hærgeneral efterforskning, studiebelysning"
Ovenstående billeder viser en styrtet UFO ved Roswell, og det første billede viser, hvad der ligner en person, der går oven på den styrtede UFO. Mens billedet her blev genereret med det formål at vise et falsk foto, ser det ud til, at det kunne være ægte. Eventuelle artefakter kan bortforklares med, at billeder i 1947 alligevel ville have været af dårligere kvalitet, og begge billeder kunne bestå øjenprøven med et hurtigt blik på at være ægte. Du behøver ikke engang en af dem bedste computere at gøre noget som dette, da Craiyon er et gratis program.
Hvor det bliver endnu mere skumlere er, at du faktisk kan specificere en kunstner, som du vil have algoritmen til at hente inspiration fra. En almindelig kunstner er Greg Rutkowski, som udadtil har talt imod brugen af hans navn i kunstig kunst. Hans navn rangerer som en af de mest almindelige prompter, der bruges i billedgenerering. "A.I. bør udelukke nulevende kunstnere fra sin database,” Rutkowski fortalte artnet i et interview, "fokus på værker under det offentlige domæne." Søgning efter Rutkowskis navn vil ofte returnere AI-kunst, der er blevet genereret til at ligne hans værk, men som ikke er rent faktisk hans arbejde.
Endnu værre er, at AI-genereret kunst ofte kan fremhæve menneskehedens forudindtagethed. Craiyon har endda en advarsel nederst på sin hjemmeside i FAQ'en, der siger, at "fordi modellen blev trænet på ufiltrerede data fra internettet, kan den muligvis generere billeder, der indeholder skadelige stereotyper." Som et resultat vil indtastning af prompter såsom "virksomhedsleder" oftest returnere billeder af hvide mænd i jakkesæt. Ligeledes vil det at indtaste "lærer" som en prompt næsten altid returnere kvinder i klasseværelserne.
Fremtiden for AI-genereret kunst
Da det ser ud til, at industrien ikke er ved at bremse (og reguleringen ikke indhenter det), forventer vi at se endnu flere fremskridt på disse områder. Det faktum, at vi er gået fra mulighederne i Dall-E 2 (selvom det var privat) til stabil diffusion på få måneder viser, hvor stor en branche dette er, og hvor stor en branche den potentielt kan være. Billeder, der tidligere kunne have været kontraheret til et team af kunstnere, kan nu genereres på få sekunder, med en enkelt kunstner i stedet involveret i processen til korrektionsformål. Vi har allerede set, hvordan Midjourney kan hjælpe med at vinde dig en kunstkonkurrence, f.eks. gennem U.S. Copyright Office siger i øjeblikket at du ikke engang kan copyright AI-genererede billeder.
Som Holz også sagde i sit interview, er de nuværende omkostninger ved at træne hver model omkring $50.000 - eller mere. Billeder koster også penge, da de genereres på utroligt kraftige servere, især når et stort antal brugere kommer for at generere deres egne billeder. Det vil være enormt uoverkommeligt for nye spillere, der kommer ind i rummet, hvilket faktisk også kan afskrække nogle virksomheder. Indledende bestræbelser, såsom at stabil diffusion er open source, lover dog godt.
Som et resultat vil vi vente spændt på at se fremtiden for AI-billeder. Rummet har udviklet sig så hurtigt i det sidste år, og det ser ud til, at der sker nye fremskridt dagligt. Dog med glimt af AI-baseret billedmanipulation selv kommer til vores smartphones, der er meget, der kan ske i det næste år eller to.