AI-bildgeneratorer har skapat mycket buzz den senaste tiden, men de kan vara svåra att förstå. Här är allt du behöver veta om dem.
Under 2022 har vi sett tillkomsten av några otroliga text-till-bild-generatorer. Den första att starta den stora vågen var Dall-E 2, med Stable Diffusion som anlände en kort stund senare. Sedan dess har vi sett andra verktyg komma också, inklusive Midjourney, Craiyon och till och med TikTok till en viss grad. Det finns en växande oro när det kommer till AI-bildgenererande verktyg, som främst hänför sig till etiken i sådana verktyg när de kan generera bilder av riktiga människor på platser eller situationer som de faktiskt inte var i.
Men det finns inte bara etik att ta hänsyn till. AI-bildgeneratorer är tränade på miljontals och åter miljoner foton och har lärt sig att identifiera saker genom faktiska befintliga foton skapade av riktiga människor. När blir det ett upphovsrättsbrott? Om din AI av misstag genererar en bild som liknar en annan design, och skaparen av den bilden fortsätter att dela den kommersiellt, är någon ansvarig för eventuella skador? Om så är fallet, vem? Vem är ens "konstnären" i det här fallet?
Det är en ton av skäl att vara försiktig med AI-bildgeneratorer, och dessa etiska och säkerhetsproblem skrapar bara på ytan. Dessa verktyg kan användas för att skapa falska bilder som kan användas för att driva en berättelse, och de kommer bara att bli värre med tiden också. Med tanke på de otroliga funktionerna hos dessa bildgenereringsverktyg redan är det skrämmande att tänka på vad de kommer att kunna göra mycket snart. Men om du vill göra vackra bilder och ha lite kul, så är det absolut ingen skada i det.
Stabil diffusion
Stable Diffusion är inspirationen bakom den här artikeln och ett verktyg som jag har lekt runt med en massa nyligen. Det körs lokalt på din dator (så att du inte slåss om resurser med andra användare av något onlineverktyg) och det är ett av de mest kraftfulla som du för närvarande kan använda. Det låter dig inte bara finjustera massor av parametrar, utan du kan också kontrollera hela genereringsprocessen.
Stabil Diffusion lider av alla samma AI-fallgropar, med den extra "faran" av tillgänglighet. Alla som har en tillräckligt kraftfull dator kan ställa in den och få den att fungera snabbt. Med en i7-12700KF, en RTX 3080, 32 GB RAM och gigabit internet kunde jag ställa in Stable Diffusion och generera mina första bilder inom en timme. Min dator är definitivt på högre ände, men du kan komma undan med att köra den på svagare hårdvara (även om du inte kan generera lika stora bilder med lägre vRAM och det kommer att ta längre tid).
Det bästa med Stable Diffusion är att det är helt öppen källkod. Du kan implementera stöd för det i alla dina projekt idag om du vill, och det finns redan plugins som Alpaca som du kan använda för att integrera med Photoshop. Det är inte perfekt ännu, men det är extremt tidigt i utvecklingen av dessa program. Du kan använda Drömstudio antingen om du vill, även om det kostar pengar och är lite restriktivt jämfört med att installera det lokalt.
Dessutom, om du ställer in Stable Diffusion lokalt så finns det gafflar som t.ex AUTOMATIC1111s stabila diffusionswebbgränssnitt som kommer med ett inbyggt exklusivt verktyg som kan öka upplösningen upp till fyra gånger högre. Även om du kan generera bilder med högre upplösning, går det ofta mycket snabbare att skapa en bild med lägre upplösning och sedan uppskala den. Alla bilderna nedan är uppskalade från mindre upplösningar.
Stable Diffusion tränades på ett kluster av 4 000 Nvidia A100 GPU: er som kördes i AWS och ägde rum under en månad. Den har förmågan att generera bilder av kändisar och har också ett inbyggt NSFW-filter. Du kan inaktivera detta NSFW-filter på lokala installationer, eftersom det faktiskt sparar på resurser genom att minska VRAM-användningen. När det gäller vad "Diffusion" betyder, det är processen att börja med rent brus och förfina över tiden. Det gör bilden stegvis närmare textuppmaningen med tiden tills inget brus finns kvar. Det är på samma sätt som Dall-E 2 fungerar.
Slutligen, en annan rolig funktion som Stable Diffusion har är "img2img". I detta ger du den en bild som en uppmaning, beskriver vad du vill att bilden ska vara och låter den sedan ge dig en rätt teckning.
Jag gav den en mall att arbeta med och fick tillbaka en ganska anständig bild. Jag är säker på att med bättre uppmaningar (min är något motsägelsefull) kan du bli ännu bättre. Ändå inte illa alls för något som tog mig ungefär fem minuter att göra.
Kort sagt, Stable Diffusion är gratis, lätt att konfigurera, och det största problemet är hur tillgängligt det är. Om du inte har en tillräckligt kraftfull dator måste du betala för att använda denna via Dream Studio.
Craiyon
Craiyon var tidigare känd som DALL·E Mini, men trots namnet har han ingen relation till Dall-E 2. Den skapades för att återskapa resultaten av OpenAI: s DALL·E text-till-bild-modell. Craiyon är tillgänglig för allmänheten och kan användas för att skapa bilder som är förvånansvärt anständiga, även om bilderna inte är lika exakta, och inte heller är de lika högkvalitativa. Bildupplösningar är max 256x256, och det finns inga uppskalningsverktyg heller.
Craiyon är helt gratis att använda och tillgänglig via sin webbplats. Du kan generera vilken bild som helst via vilken prompt som helst, och den enda haken är att bilderna är av lägre kvalitet och att du måste vänta två minuter eller så för varje bildserie som genereras. Craiyon började som en öppen källkodsmodell som syftade till att återskapa resultaten från den initiala DALL·E-modellen. Modellen som nu används är känd som DALL·E Mega, och den innehåller flera förbättringar.
Craiyon, till skillnad från de andra alternativen här, stöds av annonsintäkter. Som ett resultat kommer du att se betalda sponsringar och andra annonser på deras hemsida när du besöker. Det finns även en app för Android-smarttelefoner. Det är inte det mest sofistikerade, men det är roligt, lätt att använda och tillgängligt.
Pris: Gratis.
3.9.
Dall-E 2
Dall-E 2 är en produkt från OpenAI-forskningslabbet och är den mest välkända AI-bildgenerator som folk tänker på. Det är ett avstängt verktyg med begränsad åtkomst, men för de som kan komma åt det är några av resultaten som det kan komma med otroliga. Det stängdes till en början av på grund av oro kring etiken och säkerheten för ett sådant verktyg, även om det har expanderat gradvis över tiden.
En av de största fördelarna som Dall-E 2 har är förmågan att skapa fotorealistiska bilder som vid ett ögonkast inte går att urskilja från riktiga fotografier. Det kan generera målningar, bilder som ser ut att ha tagits på riktiga kameror och helt påhittade scenarier. Det representerade ett enormt hopp i förmågan hos AI när det först tillkännagavs, både i dess förmåga att göra bilder och i dess naturliga språkbehandling, känd som NLP. Detta tack vare dess implementering av GPT-3, som är en av de mest avancerade språkmodellerna där ute och som också är författad av OpenAI.
Precis som med Stable Diffusion har Dall-E 2 också sin egen förmåga att ta befintliga bilder och modifiera dem baserat på en prompt. Du kan redigera foton genom att be den lägga till något i en bild, eller till och med be den att ta bort något eller ändra belysningen. Även om det bara skapar fyrkantiga bilder, meddelade OpenAI Utmålning förra månaden som kan utöka dina bilder bredare, med hänsyn till sammanhanget för vad som redan finns i din kvadratiska bild.
Dall-E 2 är tillgänglig för alla att prova.
Midjourney
Midjourney är intressant eftersom det är en offentlig plattform som kan generera bilder, även om du gör det via en Discord-server. Inte bara det, men efter att du har genererat 25 bilder måste du prenumerera på tjänsten för att fortsätta generera nya.
Medan Midjourney är förmodligen den mest tillgängliga plattformen här (förutsatt att du kan komma åt den från vilken enhet som helst med ett Discord-konto), kostar det dig också pengar. Men du får kvalitet ut av det. En användare av tjänsten, Jason Allen, skapade ett stycke som han kallade "Théâtre D'opéra Spatial". Han deltog i konsttävlingen i Colorado State Fair... och vann.
Till skillnad från dessa andra projekt är Midjourney ett proprietärt program för artificiell intelligens. Det finns ingen källkod som du kan titta på, och hela dess syfte vid denna tidpunkt är begränsat till användning inom en Discord-server. När det gäller varför det bara är en Discord-server, sa David Holz, grundare av Midjourney, följande till Gränsen i en intervju.
Vi började testa den råa tekniken i september förra året, och vi hittade genast riktigt olika saker. Vi upptäckte väldigt snabbt att de flesta inte vet vad de vill ha. Du säger: "Här är en maskin som du kan föreställa dig vad som helst med den - vad vill du ha?" Och de säger: "hund." Och du går "verkligen?" och de blir "rosa hund". Så du ger dem en bild av en hund, och de går "okej" och går sedan och gör något annan.
Om du sätter dem i en grupp kommer de att bli "hund" och någon annan kommer att bli "rymdhund" och någon annan kommer att bli "aztekisk rymdhund", och sedan plötsligt förstår folk möjligheterna, och du skapar denna förstärkta fantasi – en miljö där människor kan lära sig och leka med detta nya kapacitet. Så vi upptäckte att folk verkligen gillar att föreställa sig tillsammans, och så vi gjorde [Midjourney] social.
Då skulle du också ha problem med att styra bort den från standardstilen "Midjourney", så att säga. Det säger Holz i alla fall i samma intervju.
[Vi har en standardstil och ett standardutseende, och det är konstnärligt och vackert, och det är svårt att skjuta [modellen] bort från det.
Men sedan dess har företaget rullat ut två nya modeller - "test" och "testp". "test" är en allmän modell, och "testp" fokuserar enbart på fotorealism. Som ett resultat kommer du att kunna komma bort från det mer standard titta och skapa bilder av fler typer om du vill.
Farorna och etiken med AI-genererad konst
AI-genererad konst, även om den är cool, innebär ett antal faror för samhället i stort. I en tid där det kan vara svårt att säga när nyheterna tas ur sitt sammanhang eller rakt av tillverkade, finns det en fara när bilder kan göras på några minuter som ser ut och känns verklig. Ta till exempel en titt på bilderna som jag genererade nedan. Den ena genererades med hjälp av Stable Diffusion, och den andra genererades med Craiyon.
Uppmaning: "kraschade UFO i Roswell, 1947, belysning, arméns generalutredning, studiobelysning"
Ovanstående bilder föreställer ett kraschat UFO vid Roswell och den första bilden visar vad som ser ut som en person som går ovanpå det kraschade UFO: t. Även om bilden här genererades i syfte att visa ett falskt foto, ser det ut som om det kan vara verkligt. Eventuella artefakter kan bortförklaras med det faktum att foton 1947 skulle ha varit av sämre kvalitet ändå, och båda bilderna kunde klara ögontestet vid en snabb blick på att de var verkliga. Du behöver inte ens en av dem bästa datorerna att göra något sånt här, eftersom Craiyon är en gratis applikation.
Där det blir ännu grumligare är att du faktiskt kan specificera en artist som du vill att algoritmen ska hämta inspiration från. En vanlig konstnär är Greg Rutkowski, som har uttalat sig utåt mot användningen av hans namn i AI-genererad konst. Hans namn rankas som en av de vanligaste uppmaningarna som används vid bildgenerering. "A.I. bör utesluta levande konstnärer från sin databas”, Rutkowski berättade artnet i en intervju, "fokusera på verk under det offentliga området." Att söka efter Rutkowskis namn kommer ofta att returnera AI-konst som har skapats för att se ut som hans verk men som inte är faktiskt hans arbete.
Ännu värre är att AI-genererad konst ofta kan belysa mänsklighetens fördomar. Craiyon har till och med en varning längst ner på sin hemsida i FAQ, som säger att "eftersom modellen tränades på ofiltrerad data från Internet, kan den generera bilder som innehåller skadliga stereotyper." Som ett resultat kommer att ange uppmaningar som "företagsledare" oftast returnera bilder av vita män i kostymer. På samma sätt kommer att ange "lärare" som en uppmaning nästan alltid att återvända kvinnor i klassrummen.
Framtiden för AI-genererad konst
Med tanke på att det verkar som att branschen inte saktar ner (och regleringen kommer inte ikapp) förväntar vi oss att se ännu mer framsteg inom dessa områden. Det faktum att vi har gått från funktionerna i Dall-E 2 (även om det var privat) till Stable Diffusion på bara några månader visar hur stor bransch det här är och hur stor bransch det potentiellt kan vara vara. Bilder som tidigare kunde ha kontrakterats till ett team av artister kan nu genereras på några sekunder, med en enda artist i stället involverad i processen i korrigeringssyfte. Vi har redan sett hur Midjourney kan hjälpa dig att vinna en konsttävling, till exempel genom U.S. Copyright Office säger för närvarande att du inte ens kan upphovsrättsskydda AI-genererade bilder.
Som Holz också sa i sin intervju är den nuvarande kostnaden för att träna varje modell runt $50 000 - eller mer. Bilder kostar också pengar eftersom de genereras på otroligt biffiga servrar, speciellt när ett stort antal användare kommer för att skapa sina egna bilder. Det kommer att bli enormt kostsamt för alla nya spelare som kommer in i utrymmet, vilket i sin tur faktiskt kan avskräcka vissa företag också. Inledande ansträngningar som att Stable Diffusion är öppen källkod bådar dock gott.
Som ett resultat kommer vi att vänta med spänning på att se framtiden för AI-bilder. Utrymmet har utvecklats så snabbt under det senaste året, och det verkar som om nya framsteg görs dagligen. Dock med glimtar av AI-baserad bildmanipulation även kommer till våra smartphones, det är mycket som kan hända under de kommande åren eller två.