Wat is een AI Image Generator en hoe werkt het?

AI-beeldgeneratoren hebben de laatste tijd voor veel opschudding gezorgd, maar ze zijn misschien moeilijk te begrijpen. Hier is alles wat u over hen moet weten.

In 2022 hebben we de komst gezien van een aantal ongelooflijke tekst-naar-beeld-generatoren. De eerste die de grote golf op gang bracht was Dall-E 2, met Stable Diffusion even later. Sindsdien hebben we ook andere tools zien aankomen, waaronder Midjourney, Craiyon en tot op zekere hoogte zelfs TikTok. Er zijn groeiende zorgen als het gaat om AI-tools voor het genereren van afbeeldingen, voornamelijk met betrekking tot de ethiek van dergelijke tools wanneer ze beelden kunnen genereren van echte mensen op plaatsen of situaties waar ze niet echt waren in.

Er zijn echter niet alleen ethiek om rekening mee te houden. AI-beeldgeneratoren zijn getraind op miljoenen en miljoenen foto's en hebben leren identificeren dingen door middel van daadwerkelijk bestaande foto's gemaakt door echte mensen. Wanneer wordt het een schending van het auteursrecht? Als uw AI per ongeluk een afbeelding genereert die sterk lijkt op een ander ontwerp, en de maker van die afbeelding deze vervolgens commercieel deelt, is iemand dan aansprakelijk voor eventuele schade? Zo ja, wie? Wie is in dit geval zelfs de "kunstenaar"?

Er zijn een ton redenen om op hun hoede te zijn voor AI-beeldgeneratoren, en deze ethische en veiligheidsoverwegingen zijn slechts aan de oppervlakte. Deze tools kunnen worden gebruikt om nepbeelden te maken die kunnen worden gebruikt om een verhaal te pushen, en ze zullen met de tijd ook alleen maar erger worden. Gezien de ongelooflijke mogelijkheden van deze hulpmiddelen voor het genereren van afbeeldingen, is het eng om te bedenken waartoe ze binnenkort in staat zullen zijn. Als je echter mooie beelden wilt maken en plezier wilt hebben, dan kan dat absoluut geen kwaad.

Stabiele verspreiding

Stable Diffusion is de inspiratie achter dit artikel en een tool waarmee ik heb gespeeld kavel onlangs. Het draait lokaal op je computer (dus je vecht niet om middelen met andere gebruikers van een of andere online tool) en het is een van de krachtigste die je momenteel kunt gebruiken. Hiermee kunt u niet alleen een groot aantal parameters verfijnen, maar kunt u ook het hele generatieproces besturen.

Stable Diffusion lijdt aan dezelfde AI-valkuilen, met het extra "gevaar" van toegankelijkheid. Iedereen met een krachtig genoeg computer kan het instellen en snel laten werken. Met een i7-12700KF, een RTX 3080, 32 GB RAM en gigabit internet kon ik Stable Diffusion opzetten en binnen een uur mijn eerste beelden genereren. Mijn pc staat er zeker op hoger einde, maar je kunt ermee wegkomen zwakkere hardware (hoewel u niet zo grote afbeeldingen kunt genereren met een lagere vRAM en het langer zal duren).

Het beste van Stable Diffusion is dat het volledig open source is. U kunt er tegenwoordig ondersteuning voor implementeren in al uw projecten als u dat wilt, en er zijn al plug-ins zoals Alpaca die u kunt gebruiken om te integreren met Photoshop. Het is nog niet perfect, maar het is extreem vroeg in de ontwikkeling van deze programma's. Je kunt gebruiken Droom Studio ofwel als je wilt, hoewel dat geld kost en een beetje beperkend is in vergelijking met het lokaal opzetten.

Wat meer is, als je Stable Diffusion lokaal instelt, zijn er vorken zoals AUTOMATIC1111's Stabiele Diffusion WebUI die worden geleverd met een ingebouwde upscale-tool die de resolutie tot vier keer hoger kan maken. Hoewel u afbeeldingen met hogere resoluties kunt genereren, is het vaak veel sneller om een afbeelding met een lagere resolutie te genereren en deze vervolgens op te schalen. Alle onderstaande afbeeldingen zijn opgeschaald vanuit kleinere resoluties.

Stable Diffusion is getraind op een cluster van 4.000 Nvidia A100 GPU's die in AWS draaien en vond gedurende een maand plaats. Het heeft de mogelijkheid om afbeeldingen van beroemdheden te genereren en heeft ook een ingebouwd NSFW-filter. U kunt dit NSFW-filter op lokale installaties uitschakelen, omdat het daadwerkelijk op bronnen bespaart door het VRAM-gebruik te verminderen. Wat betreft wat "diffusie" betekent, het is het proces van beginnen met pure ruis en na verloop van tijd verfijnen. Het maakt de afbeelding in de loop van de tijd stapsgewijs dichter bij de tekstprompt totdat er geen ruis meer over is. Dit is dezelfde manier waarop Dall-E 2 werkt.

Een andere leuke functie die Stable Diffusion tot slot heeft, is "img2img". Hierin geef je het een afbeelding als prompt, beschrijf je wat je wilt dat de afbeelding is en laat je het vervolgens een juist tekening.

Ik gaf het een sjabloon om mee te werken en kreeg een behoorlijk behoorlijk beeld terug. Ik weet zeker dat je met betere prompts (de mijne is enigszins tegenstrijdig) nog beter zou kunnen worden. Toch helemaal niet slecht voor iets dat me ongeveer vijf minuten kostte om te maken.

Kortom, Stable Diffusion is gratis, eenvoudig in te stellen en het grootste probleem is hoe toegankelijk het is. Als je geen pc hebt die krachtig genoeg is, moet je betalen om deze te gebruiken via bijvoorbeeld Dream Studio.

Craiyon

Craiyon was voorheen bekend als DALL·E Mini, maar heeft ondanks de naam geen relatie met Dall-E 2. Het is gemaakt om de resultaten van OpenAI's DALL·E tekst-naar-beeld-model te reproduceren. Craiyon is beschikbaar voor het publiek en kan worden gebruikt om afbeeldingen te genereren die verrassend goed zijn, hoewel de afbeeldingen niet zo nauwkeurig zijn en ook niet van hoge kwaliteit. Beeldresoluties zijn maximaal 256x256 en er zijn ook geen opschalingstools.

Craiyon is volledig gratis te gebruiken en toegankelijk via haar website. U kunt elke afbeelding genereren via elke prompt, en het enige probleem is dat de afbeeldingen van mindere kwaliteit zijn en dat u ongeveer twee minuten moet wachten voor elke gegenereerde batch afbeeldingen. Craiyon begon als een open-sourcemodel dat gericht was op het reproduceren van de resultaten van het oorspronkelijke DALL·E-model. Het model dat nu wordt gebruikt, staat bekend als DALL·E Mega, en bevat verschillende verbeteringen.

Craiyon wordt, in tegenstelling tot de andere opties hier, ondersteund door advertentie-inkomsten. Als gevolg hiervan zie je betaalde sponsoring en andere advertenties op hun website wanneer je op bezoek komt. Er is ook een app voor Android-smartphones. Het is niet de meest geavanceerde, maar het is leuk, gebruiksvriendelijk en toegankelijk.

Craiyon - AI-beeldgeneratorOntwikkelaar: Craiyon

Prijs: gratis.

3.9.

Downloaden

Dall-E 2

Dall-E 2 is een product van het OpenAI-onderzoekslaboratorium en is de meest bekende AI-beeldgenerator waar mensen aan denken. Het is een afgesloten tool met beperkte toegang, maar voor degenen die er toegang toe hebben, zijn sommige resultaten die het kan opleveren ongelooflijk. Het was aanvankelijk gesloten vanwege zorgen over de ethiek en veiligheid van een dergelijke tool, hoewel het in de loop van de tijd geleidelijk is uitgebreid.

Een van de grootste voordelen van Dall-E 2 is de mogelijkheid om fotorealistische afbeeldingen te maken die in één oogopslag niet te onderscheiden zijn van echte foto's. Het kan schilderijen genereren, afbeeldingen die lijken te zijn vastgelegd op echte camera's en volledig verzonnen scenario's. Het vertegenwoordigde een enorme sprong in de mogelijkheden van AI toen het voor het eerst werd aangekondigd, zowel in zijn mogelijkheden om afbeeldingen te maken als in zijn Natural Language Processing, bekend als NLP. Dit is te danken aan de implementatie van GPT-3, een van de meest geavanceerde taalmodellen die er zijn en ook geschreven door OpenAI.

Net als bij Stable Diffusion heeft Dall-E 2 ook zijn eigen mogelijkheid om bestaande afbeeldingen te maken en deze op basis van een prompt aan te passen. Je kunt er foto's mee bewerken door hem te vragen iets aan een afbeelding toe te voegen, of hem zelfs te vragen iets te verwijderen of de belichting te veranderen. Hoewel het alleen vierkante afbeeldingen maakt, kondigde OpenAI aan Overschilderen vorige maand die uw afbeeldingen breder kan maken, rekening houdend met de context van wat al beschikbaar is in uw vierkante afbeelding.

Dall-E 2 is voor iedereen beschikbaar om uit te proberen.

Halverwege de reis

Midjourney is interessant omdat het een openbaar platform is dat afbeeldingen kan genereren, hoewel je dit doet via een Discord-server. Niet alleen dat, maar nadat u 25 afbeeldingen heeft gegenereerd, moet u zich abonneren op de service om door te gaan met het genereren van nieuwe afbeeldingen.

Terwijl Halverwege de reis is waarschijnlijk het meest toegankelijke platform hier (aangezien je er toegang toe hebt vanaf elk apparaat met een Discord-account), het kost je ook geld. Je haalt er echter wel kwaliteit uit. Een gebruiker van de dienst, Jason Allen, creëerde een stuk dat hij "Théâtre D'opéra Spatial" noemde. Hij deed mee aan de Colorado State Fair kunstwedstrijd... en gewonnen.

In tegenstelling tot deze andere projecten is Midjourney een eigen programma voor kunstmatige intelligentie. Er is geen broncode die u kunt bekijken en het hele doel ervan is op dit moment beperkt tot gebruik binnen een Discord-server. Over waarom het alleen een Discord-server is, zei David Holz, oprichter van Midjourney, het volgende De rand in een interview.

We zijn in september vorig jaar begonnen met het testen van de ruwe technologie en we ontdekten meteen heel andere dingen. We ontdekten al snel dat de meeste mensen niet weten wat ze willen. Je zegt: "Hier is een machine waar je je alles mee kunt voorstellen - wat wil je?" En ze zeggen: "hond." En jij gaat "Echt?" en ze gaan "roze hond." Dus je geeft ze een foto van een hond, en ze zeggen "oké" en gaan dan iets doen anders.

Terwijl als je ze in een groep plaatst, ze "hond" zullen worden en iemand anders "ruimtehond" en iemand anders "Azteekse ruimtehond", en dan allemaal een Plotseling begrijpen mensen de mogelijkheden en creëer je deze vergrote verbeeldingskracht - een omgeving waar mensen kunnen leren en spelen met deze nieuwe capaciteit. Dus we ontdekten dat mensen het heel leuk vinden om samen te fantaseren, en daarom hebben we [Midjourney] sociaal gemaakt.

Destijds zou je het ook moeilijk hebben om het weg te sturen van de standaard "Midjourney" -stijl, om zo te zeggen. Dat zegt Holz in ieder geval in hetzelfde interview.

[We] hebben een standaardstijl en uiterlijk, en het is artistiek en mooi, en het is moeilijk om [het model] daar vanaf te duwen.

Sindsdien heeft het bedrijf echter twee nieuwe modellen uitgebracht: "test" en "testp". "test" is een model voor algemene doeleinden en "testp" is uitsluitend gericht op fotorealisme. Het resultaat is dat je daar meer afstand van kunt nemen standaard kijk en genereer afbeeldingen van meer typen als je wilt.

De gevaren en ethiek van door AI gegenereerde kunst

AI-gegenereerde kunst, hoewel cool, brengt een aantal gevaren met zich mee voor de samenleving als geheel. In een tijd waarin het soms moeilijk te zeggen is wanneer het nieuws uit zijn verband wordt gehaald of rechttoe rechtaan is gefabriceerd, ontstaat het gevaar wanneer er binnen enkele minuten afbeeldingen kunnen worden gemaakt die er uitzien en aanvoelen echt. Kijk bijvoorbeeld eens naar de foto's die ik hieronder heb gemaakt. De ene is gegenereerd met behulp van Stable Diffusion en de andere is gegenereerd met Craiyon.

Prompt: "gecrashte UFO in Roswell, 1947, belichting, legeronderzoek, studioverlichting"

De bovenstaande foto's tonen een neergestorte UFO bij Roswell en de eerste afbeelding laat zien wat lijkt op een persoon die bovenop de neergestorte UFO loopt. Hoewel de afbeelding hier is gegenereerd om een nepfoto te tonen, lijkt het erop dat deze echt kan zijn. Eventuele artefacten kunnen worden verklaard door het feit dat foto's in 1947 hoe dan ook van mindere kwaliteit zouden zijn geweest, en beide afbeeldingen zouden in een oogopslag de oogtest kunnen doorstaan om echt te zijn. Je hebt niet eens een van de nodig beste pc's om zoiets te doen, aangezien Craiyon een gratis applicatie is.

Waar het nog duisterder wordt, is dat je het eigenlijk kunt specificeren een artiest waarvan u wilt dat het algoritme inspiratie opdoet. Een veel voorkomende kunstenaar is Greg Rutkowski, die zich naar buiten heeft uitgesproken tegen het gebruik van zijn naam in door AI gegenereerde kunst. Zijn naam geldt als een van de meest voorkomende prompts die worden gebruikt bij het genereren van afbeeldingen. “A.I. zou levende kunstenaars moeten uitsluiten van zijn database,” Rutkowski verteld artnet in een interview, "focus op werken onder het publieke domein." Zoeken op Rutkowski's naam levert vaak AI-kunst op die is gegenereerd om op zijn werk te lijken, maar dat niet is Eigenlijk zijn werk.

Erger nog is dat door AI gegenereerde kunst vaak de vooroordelen van het menselijk ras kan benadrukken. Craiyon heeft zelfs een waarschuwing onderaan de homepage in de FAQ, waarin staat dat "omdat het model is getraind op ongefilterde gegevens van internet, het mogelijk genereer afbeeldingen die schadelijke stereotypen bevatten." Als gevolg hiervan zal het invoeren van prompts zoals "bedrijfsleider" meestal afbeeldingen opleveren van blanke mannen in pakken. Evenzo zal het invoeren van "leraar" als prompt bijna altijd vrouwen in klaslokalen opleveren.

De toekomst van door AI gegenereerde kunst

Aangezien het erop lijkt dat de industrie niet vertraagt (en de regelgeving geen achterstand oploopt), verwachten we nog meer vooruitgang op deze gebieden. Het feit dat we zijn overgestapt van de mogelijkheden van Dall-E 2 (zelfs als het privé was) naar Stable Diffusion in slechts een paar maanden laat zien hoe groot een industrie deze is en hoe groot een industrie in potentie kan zijn zijn. Afbeeldingen die voorheen konden worden uitbesteed aan een team van artiesten, kunnen nu in enkele seconden worden gegenereerd, waarbij in plaats daarvan een enkele artiest voor correctionele doeleinden bij het proces wordt betrokken. We hebben al gezien hoe Midjourney u kan helpen een kunstwedstrijd te winnen, bijvoorbeeld via het U.S. Copyright Office zegt momenteel dat je zelfs geen copyright kunt krijgen op door AI gegenereerde afbeeldingen.

Zoals Holz ook in zijn interview zei, bedragen de huidige kosten van het trainen van elk model ongeveer $ 50.000 -- of meer. Afbeeldingen kosten ook geld omdat ze worden gegenereerd op ongelooflijk krachtige servers, vooral wanneer grote aantallen gebruikers hun eigen afbeeldingen komen genereren. Het zal enorm onbetaalbaar zijn voor nieuwe spelers die de ruimte betreden, wat op zijn beurt ook sommige bedrijven kan afschrikken. De eerste inspanningen, zoals het feit dat Stable Diffusion open source is, voorspellen echter veel goeds.

Als gevolg hiervan zullen we opgewonden wachten om de toekomst van AI-afbeeldingen te zien. De ruimte is het afgelopen jaar zo snel geëvolueerd en het lijkt erop dat er dagelijks nieuwe vorderingen worden gemaakt. Wel met een glimp van op AI gebaseerde beeldmanipulatie zelfs op onze smartphones, er kan veel gebeuren in de komende twee jaar.