Čo je to AI Image Generator a ako funguje?

Generátory obrázkov AI v poslednej dobe vyvolali veľa rozruchu, ale môže byť ťažké ich pochopiť. Tu je všetko, čo o nich potrebujete vedieť.

V roku 2022 sme videli príchod niekoľkých neuveriteľných generátorov textu na obrázok. Prvý, kto spustil veľkú vlnu, bol Dall-E 2, o chvíľu neskôr dorazil Stable Diffusion. Odvtedy sme videli, že prichádzajú aj ďalšie nástroje, vrátane Midjourney, Craiyon a do určitej miery dokonca aj TikTok. Čo sa týka nástrojov na vytváranie obrázkov AI, ktoré sa týkajú predovšetkým etiky, narastajú obavy také nástroje, keď dokážu vytvárať obrazy skutočných ľudí na miestach alebo situáciách, ktorými v skutočnosti neboli v.

Nie je však potrebné zvážiť len etiku. Generátori obrázkov AI sú vyškolení na miliónoch a miliónoch fotografií a naučili sa ich identifikovať veci prostredníctvom skutočne existujúcich fotografií vytvorených skutočnými ľuďmi. Kedy sa to stane porušením autorských práv? Ak vaša AI náhodne vygeneruje obrázok, ktorý vyzerá veľmi podobne ako iný dizajn, a tvorca tohto obrázka ho ďalej komerčne zdieľa, je niekto zodpovedný za prípadné škody? Ak áno, kto? Kto je v tomto prípade vôbec „umelcom“?

Tam sú ton z dôvodov, aby ste sa mali na pozore pred generátormi obrázkov AI, a tieto etické a bezpečnostné obavy sú len škrabance na povrchu. Tieto nástroje možno použiť na vytvorenie falošných obrázkov, ktoré možno použiť na pretlačenie príbehu, a časom sa budú len zhoršovať. Vzhľadom na neuveriteľné schopnosti týchto nástrojov na generovanie obrázkov je desivé pomyslieť si, čoho budú čoskoro schopné. Ak však chcete robiť pekné obrázky a zabaviť sa, nie je na tom nič zlé.

Stabilná difúzia

Stabilná difúzia je inšpiráciou za týmto článkom a nástrojom, s ktorým som sa pohrával veľa nedávno. Beží lokálne na vašom počítači (takže nebojujete o zdroje s ostatnými používateľmi nejakého online nástroja) a je to jeden z najvýkonnejších, ktorý môžete aktuálne používať. Nielenže vám umožňuje doladiť množstvo parametrov, ale môžete tiež riadiť celý proces generovania.

Stable Diffusion trpí všetkými rovnakými úskaliami AI, s pridaným „nebezpečenstvom“ dostupnosti. Každý, kto má dostatočne výkonný počítač, ho môže nastaviť a spustiť rýchlo. S i7-12700KF, RTX 3080, 32 GB RAM a gigabitovým internetom som bol schopný nastaviť Stable Diffusion a vygenerovať svoje prvé obrázky do hodiny. Môj počítač je určite zapnutý vyšší koniec, ale môžete sa zbaviť toho, že ho spustíte slabší hardvér (hoci nemôžete generovať také veľké obrázky s nižšou vRAM a bude to trvať dlhšie).

Najlepšie na Stable Diffusion je, že je to úplne otvorený zdroj. Ak chcete, môžete už dnes implementovať jeho podporu v ktoromkoľvek zo svojich projektov a už existujú doplnky ako Alpaca, ktoré môžete použiť na integráciu s Photoshopom. Zatiaľ to nie je dokonalé, ale vo vývoji týchto programov je veľmi skoro. Môžeš použiť Štúdio snov buď ak by ste chceli, hoci to stojí peniaze a je to trochu obmedzujúce v porovnaní s lokálnym nastavením.

Ba čo viac, ak si lokálne nastavíte Stable Diffusion, existujú vidlice ako napr WebUI stabilnej difúzie AUTOMATIC1111 ktoré sa dodávajú so vstavaným upscale nástrojom, ktorý dokáže zvýšiť rozlíšenie až štyrikrát vyššie. Aj keď môžete generovať obrázky vo vyššom rozlíšení, často je oveľa rýchlejšie vygenerovať obrázok s nižším rozlíšením a potom ho zväčšiť. Všetky obrázky nižšie sú vylepšené z menších rozlíšení.

Stabilná difúzia bola trénovaná na klastri 4 000 GPU Nvidia A100 bežiacich v AWS a prebiehala viac ako mesiac. Má schopnosť vytvárať obrázky celebrít a má tiež vstavaný filter NSFW. Tento filter NSFW môžete vypnúť na miestnych inštaláciách, pretože v skutočnosti šetrí zdroje znížením využitia VRAM. Pokiaľ ide o to, čo znamená "Diffusion", je to proces, ktorý začína čistým šumom a časom sa zdokonaľuje. Postupom času sa obrázok postupne približuje k textovej výzve, až kým nezostane žiadny šum. Toto je rovnaký spôsob, ako funguje Dall-E 2.

Nakoniec ďalšou zábavnou funkciou, ktorú má Stable Diffusion, je „img2img“. V tomto prípade mu dáte obrázok ako výzvu, opíšete, aký obrázok chcete, a potom ho necháte riadne kreslenie.

Dal som tomu šablónu na prácu a dostal som späť celkom slušný obrázok. Som si istý, že s lepšími pokynmi (moje sú trochu protichodné) by ste mohli byť ešte lepší. Napriek tomu to vôbec nie je zlé na niečo, čo mi trvalo vyrobiť asi päť minút.

Stručne povedané, Stable Diffusion je zadarmo, ľahko sa nastavuje a najväčším problémom je dostupnosť. Ak nemáte dostatočne výkonný počítač, budete musieť zaplatiť za jeho používanie prostredníctvom Dream Studio.

Crayon

Craiyon bol predtým známy ako DALL·E Mini, hoci napriek tomuto názvu nemá nič spoločné s Dall-E 2. Bol vytvorený s cieľom reprodukovať výsledky modelu OpenAI DALL·E text-to-image. Craiyon je k dispozícii verejnosti a dá sa použiť na generovanie obrázkov, ktoré sú prekvapivo slušné, hoci obrázky nie sú také presné a ani tak kvalitné. Rozlíšenie obrazu je maximálne 256 x 256 a neexistujú žiadne nástroje na zvýšenie rozlíšenia.

Craiyon je úplne zadarmo na používanie a je prístupný prostredníctvom jeho webovej stránky. Môžete vygenerovať ľubovoľný obrázok pomocou ľubovoľnej výzvy a jediný háčik je v tom, že obrázky majú nižšiu kvalitu a že na každú vygenerovanú dávku obrázkov budete musieť počkať približne dve minúty. Craiyon začal ako model s otvoreným zdrojovým kódom zameraný na reprodukciu výsledkov pôvodného modelu DALL·E. Model, ktorý sa teraz používa, je známy ako DALL·E Mega a obsahuje niekoľko vylepšení.

Craiyon, na rozdiel od ostatných možností, je podporovaný príjmami z reklamy. V dôsledku toho uvidíte platené sponzorstvá a iné reklamy ich webovú stránku keď navštívite. K dispozícii je aj aplikácia pre smartfóny so systémom Android. Nie je to najsofistikovanejšie, ale je zábavné, ľahko sa používa a je dostupné.

Craiyon - AI Image GeneratorVývojár: Crayon

Cena: zadarmo.

3.9.

Stiahnuť ▼

Dall-E 2

Dall-E 2 je produktom výskumného laboratória OpenAI a je najznámejším generátorom obrázkov AI, o ktorom si ľudia myslia. Je to uzavretý nástroj s obmedzeným prístupom, ale pre tých, ktorí k nemu majú prístup, sú niektoré výsledky, s ktorými môže prísť, neuveriteľné. Pôvodne bol zatvorený kvôli obavám súvisiacim s etikou a bezpečnosťou takéhoto nástroja, aj keď sa postupne rozširoval.

Jednou z najväčších výhod Dall-E 2 je schopnosť vytvárať fotorealistické obrázky, ktoré sú na prvý pohľad nerozoznateľné od skutočných fotografií. Dokáže vytvárať maľby, obrázky, ktoré vyzerajú, že boli zachytené skutočnými kamerami, a úplne vymyslené scenáre. Predstavovala obrovský skok v schopnostiach AI, keď bola prvýkrát ohlásená, a to tak v jej schopnostiach vytvárať obrázky, ako aj v procese spracovania prirodzeného jazyka, známeho ako NLP. Je to vďaka implementácii GPT-3, ktorá je jedným z najpokročilejších jazykových modelov a je tiež autorom OpenAI.

Rovnako ako v prípade Stable Diffusion, aj Dall-E 2 má svoju vlastnú schopnosť snímať existujúce obrázky a upravovať ich na základe výzvy. Môžete prostredníctvom neho upravovať fotografie tak, že ho požiadate, aby k obrázku niečo pridal, alebo ho dokonca požiadate, aby niečo odstránil alebo zmenil osvetlenie. Aj keď vytvára iba štvorcové obrázky, OpenAI oznámila Výmaľba minulý mesiac, ktorý môže rozšíriť vaše obrázky, berúc do úvahy kontext toho, čo je už dostupné na vašom štvorcovom obrázku.

Dall-E 2 je k dispozícii všetkým na vyskúšanie.

Stredná cesta

Midjourney je zaujímavá platforma, pretože je to verejná platforma, ktorá dokáže generovať obrázky, aj keď to robíte cez Discord server. Nielen to, ale po vygenerovaní 25 obrázkov sa budete musieť prihlásiť na odber služby, aby ste mohli pokračovať vo vytváraní nových.

Zatiaľ čo Stredná cesta je tu pravdepodobne najdostupnejšia platforma (keďže k nej máte prístup z akéhokoľvek zariadenia s účtom Discord), stojí vás to aj peniaze. Získate z toho však kvalitu. Používateľ služby Jason Allen vytvoril dielo, ktoré nazval „Théâtre D'opéra Spatial“. Prihlásil ho do umeleckej súťaže Colorado State Fair... a vyhral.

Na rozdiel od týchto iných projektov je Midjourney proprietárny program umelej inteligencie. Neexistuje žiadny zdrojový kód, ktorý by ste si mohli pozrieť, a celý jeho účel je v tomto okamihu obmedzený na použitie v rámci servera Discord. Čo sa týka toho, prečo je to len Discord server, David Holz, zakladateľ Midjourney, povedal nasledovné The Verge v rozhovore.

S testovaním surovej technológie sme začali v septembri minulého roka a okamžite sme našli skutočne odlišné veci. Veľmi rýchlo sme zistili, že väčšina ľudí nevie, čo chcú. Poviete: "Tu je stroj, s ktorým si dokážete predstaviť čokoľvek - čo chcete?" A oni hovoria: "pes." A ideš "naozaj?" a stanú sa „ružovým psom“. Takže im dáte fotku psa a oni povedia „dobre“ a potom idú niečo robiť inak.

Zatiaľ čo ak ich dáte do skupiny, stanú sa „psom“ a niekto iný sa stane „vesmírnym psom“ a niekto iný sa stane „aztéckym vesmírnym psom“ a potom všetci zrazu ľudia pochopia možnosti a vy vytvárate túto rozšírenú predstavivosť – prostredie, kde sa ľudia môžu učiť a hrať sa s týmto novým kapacita. Takže sme zistili, že ľudia si naozaj radi vymýšľajú spolu, a tak sme urobili [Midjourney] sociálne.

Vtedy by ste tiež mali problém odvrátiť ho od predvoleného štýlu „Midjourney“, takpovediac. To je aj tak podľa Holza v tom istom rozhovore.

[Máme] predvolený štýl a vzhľad, je to umelecké a krásne a je ťažké od toho odtlačiť [modelku].

Odvtedy však spoločnosť uviedla na trh dva nové modely – „test“ a „testp“. „test“ je všeobecný model a „testp“ je zameraný výlučne na fotorealizmus. V dôsledku toho sa od toho budete môcť viac dostať predvolená pozrite si a vytvorte obrázky viacerých typov, ak chcete.

Nebezpečenstvá a etika umenia generovaného AI

Umenie generované AI, aj keď je cool, predstavuje pre spoločnosť ako celok množstvo nebezpečenstiev. Vo veku, kedy môže byť ťažké povedať, kedy sú správy vytrhnuté z kontextu alebo priamočiare vymyslené, existuje nebezpečenstvo, keď je možné v priebehu niekoľkých minút vytvoriť obrázky, ktoré vyzerajú a pôsobia na dotyk reálny. Pozrite sa napríklad na fotografie, ktoré som vygeneroval nižšie. Jeden bol vytvorený pomocou stabilnej difúzie a druhý bol vytvorený pomocou Craiyon.

Výzva: "havarované UFO v Roswelli, 1947, osvetlenie, armádne generálne vyšetrovanie, štúdiové osvetlenie"

Vyššie uvedené fotografie zobrazujú havarované UFO v Roswelli a prvý obrázok ukazuje to, čo vyzerá ako osoba kráčajúca na vrchole havarovaného UFO. Aj keď bol obrázok vytvorený za účelom zobrazenia falošnej fotografie, zdá sa, že by mohol byť skutočný. Akékoľvek artefakty sa dajú vysvetliť skutočnosťou, že fotografie v roku 1947 by aj tak mali horšiu kvalitu a oba obrázky mohli prejsť očným testom pri rýchlom pohľade na skutočnosť. Nepotrebujete ani jeden z nich najlepšie počítače urobiť niečo také, pretože Craiyon je bezplatná aplikácia.

Ešte temnejšie je, že v skutočnosti môžete špecifikovať umelca, od ktorého chcete, aby sa algoritmus inšpiroval. Bežným umelcom je Greg Rutkowski, ktorý sa navonok vyjadril proti používaniu svojho mena v umení generovanom AI. Jeho meno je jednou z najbežnejších výziev používaných pri vytváraní obrázkov. „A.I. by mala zo svojej databázy vylúčiť žijúcich umelcov,“ Rutkowski povedal artnet v rozhovore „zamerajte sa na diela pod verejnou doménou“. Vyhľadávanie Rutkowského mena často vráti umenie AI, ktoré bolo vytvorené tak, aby vyzeralo ako jeho dielo, ale nie je vlastne jeho práca.

Ešte horšie je, že umenie generované AI môže často zdôrazniť predsudky ľudskej rasy. Craiyon má dokonca varovanie v spodnej časti svojej domovskej stránky v FAQ, v ktorom sa uvádza, že „keďže bol model trénovaný na nefiltrovaných údajoch z internetu, môže generovať obrázky, ktoré obsahujú škodlivé stereotypy." Výsledkom je, že zadávanie výziev, ako napríklad „riaditeľ spoločnosti“, najčastejšie vráti obrázky bielych mužov v obleky. Podobne zadanie „učiteľ“ ako výzvu takmer vždy vráti ženy do tried.

Budúcnosť umenia generovaného AI

Vzhľadom na to, že sa zdá, že priemysel nespomaľuje (a regulácia nestíha), očakávame, že v týchto oblastiach uvidíme ešte väčší pokrok. Skutočnosť, že sme prešli od schopností Dall-E 2 (aj keď to bolo súkromné) k Stable Diffusion už za pár mesiacov ukazuje, aké veľké je toto odvetvie a aké veľké môže potenciálne byť byť. Obrázky, ktoré mohli byť predtým zmluvne dohodnuté s tímom umelcov, je teraz možné generovať v priebehu niekoľkých sekúnd, pričom namiesto toho je do procesu zapojený jeden umelec na účely nápravy. Už sme videli, ako vám Midjourney môže pomôcť vyhrať napríklad umeleckú súťaž, hoci americký úrad pre autorské práva v súčasnosti hovorí že nemôžete chrániť autorské práva ani na obrázky vygenerované AI.

Ako Holz tiež uviedol vo svojom rozhovore, súčasné náklady na školenie každého modelu sú okolo 50 000 dolárov - alebo viac. Obrázky tiež stoja peniaze, pretože sa generujú na neuveriteľne silných serveroch, najmä keď veľké množstvo používateľov prichádza generovať svoje vlastné obrázky. Pre všetkých nových hráčov, ktorí vstúpia do tohto priestoru, bude masívne cenovo nedostupný, čo môže v skutočnosti odradiť aj niektoré spoločnosti. Počiatočné snahy, ako napríklad to, že Stable Diffusion je otvorený zdroj, však veštia dobre.

V dôsledku toho budeme s napätím čakať na budúcnosť obrázkov AI. Priestor sa za posledný rok vyvinul tak rýchlo a zdá sa, že každý deň sa robia nové pokroky. Avšak s náznakmi manipulácie s obrázkami založenej na AI dokonca prichádza do našich smartfónov, je toho veľa, čo sa môže stať v priebehu budúceho roka alebo dvoch.