Co je to AI Image Generator a jak funguje?

Generátory obrázků AI v poslední době vyvolaly mnoho rozruchu, ale může být těžké jim porozumět. Zde je vše, co o nich potřebujete vědět.

V roce 2022 jsme byli svědky nástupu některých neuvěřitelných generátorů textu na obrázek. První, kdo spustil velkou vlnu, byl Dall-E 2, o chvíli později dorazil Stable Diffusion. Od té doby jsme viděli přicházet i další nástroje, včetně Midjourney, Craiyon a do určité míry dokonce i TikTok. Existují rostoucí obavy, pokud jde o nástroje pro generování obrázků AI, které se týkají především etiky takové nástroje, kdy mohou vytvářet obrazy skutečných lidí v místech nebo situacích, kterými ve skutečnosti nebyli v.

Není však třeba brát v úvahu pouze etiku. Generátory obrázků AI jsou vycvičené na milionech a milionech fotografií a naučili se je identifikovat věci prostřednictvím skutečně existujících fotografií vytvořených skutečnými lidmi. Kdy se to stane porušením autorských práv? Pokud vaše AI omylem vygeneruje obrázek, který vypadá velmi podobně jako jiný návrh, a tvůrce tohoto obrázku jej dále komerčně sdílí, je někdo odpovědný za případné škody? Pokud ano, kdo? Kdo je v tomto případě vůbec „umělcem“?

Existují a tón Důvodů, proč se mít na pozoru před generátory obrázků AI, a tyto etické a bezpečnostní obavy pouze škrábou na povrch. Tyto nástroje lze použít k vytvoření falešných obrázků, které lze použít k prosazení příběhu, a časem se to bude jen zhoršovat. Vzhledem k neuvěřitelným schopnostem těchto nástrojů pro generování obrázků je děsivé pomyslet na to, čeho budou brzy schopny. Pokud však chcete dělat hezké obrázky a užít si zábavu, pak na tom není nic špatného.

Stabilní difúze

Stable Diffusion je inspirací za tímto článkem a nástrojem, se kterým jsem si hrál hodně nedávno. Běží lokálně na vašem počítači (takže nebojujete o zdroje s ostatními uživateli nějakého online nástroje) a je to jeden z nejvýkonnějších, který můžete aktuálně používat. Nejen, že vám umožní doladit spoustu parametrů, ale můžete také řídit celý proces generování.

Stable Diffusion trpí všemi stejnými úskalími umělé inteligence, navíc s „nebezpečím“ dostupnosti. Každý, kdo má dostatečně výkonný počítač, jej může nastavit a rychle spustit. S i7-12700KF, RTX 3080, 32 GB RAM a gigabitovým internetem jsem byl schopen nastavit Stable Diffusion a vygenerovat své první obrázky během hodiny. Můj PC je určitě na vyšší konec, ale můžete se dostat pryč s jeho spuštěním slabší hardware (ačkoli nemůžete generovat tak velké obrázky s nižší vRAM a bude to trvat déle).

Nejlepší na Stable Diffusion je, že je to zcela otevřený zdroj. Pokud chcete, můžete dnes implementovat jeho podporu do jakéhokoli svého projektu a již existují pluginy, jako je Alpaca, které můžete použít k integraci s Photoshopem. Ještě to není dokonalé, ale ve vývoji těchto programů je extrémně brzy. Můžeš použít Studio snů buď pokud chcete, i když to stojí peníze a je to trochu omezující oproti místnímu nastavení.

Navíc pokud si lokálně nastavíte Stable Diffusion, existují forky jako např WebUI pro stabilní difúzi AUTOMATIC1111 které přicházejí s vestavěným upscale nástrojem, který dokáže zvýšit rozlišení až čtyřikrát. I když můžete generovat obrázky s vyšším rozlišením, je často mnohem rychlejší vygenerovat obrázek s nižším rozlišením a poté jej převzorkovat. Všechny obrázky níže jsou převedeny na menší rozlišení.

Stable Diffusion bylo trénováno na clusteru 4 000 GPU Nvidia A100 běžících v AWS a probíhalo více než měsíc. Má schopnost generovat obrázky celebrit a má také vestavěný filtr NSFW. Tento filtr NSFW můžete deaktivovat na místních instalacích, protože ve skutečnosti šetří zdroje snížením využití VRAM. Pokud jde o to, co znamená "Diffusion", je to proces, který začíná s čistým šumem a postupem času se zdokonaluje. Postupem času se obrázek postupně přibližuje k textové výzvě, dokud nezůstane žádný šum. Je to stejný způsob, jakým funguje Dall-E 2.

Konečně další zábavná funkce, kterou má Stable Diffusion, je „img2img“. V tomto případě mu dáte obrázek jako výzvu, popíšete, jaký obrázek chcete, a necháte jej, aby vám správné výkres.

Dal jsem tomu šablonu, se kterou jsem pracoval, a dostal jsem zpět docela slušný obrázek. Jsem si jistý, že s lepšími pokyny (moje jsou poněkud rozporuplné) byste mohli být ještě lepší. Přesto to není vůbec špatné na něco, co mi trvalo vyrobit asi pět minut.

Stručně řečeno, Stable Diffusion je zdarma, snadno se nastavuje a největším problémem je, jak je přístupný. Pokud nemáte dostatečně výkonný počítač, budete muset za jeho používání zaplatit prostřednictvím Dream Studio.

Craiyon

Craiyon byl dříve známý jako DALL·E Mini, i když navzdory názvu nemá nic společného s Dall-E 2. Byl vytvořen za účelem reprodukce výsledků modelu DALL·E od OpenAI pro převod textu na obrázek. Craiyon je k dispozici veřejnosti a lze jej použít ke generování obrázků, které jsou překvapivě slušné, i když obrázky nejsou tak přesné a ani tak kvalitní. Maximální rozlišení obrazu je 256 x 256 a neexistují žádné nástroje pro upscaling.

Craiyon je zcela zdarma k použití a je přístupný prostřednictvím jeho webových stránek. Jakýkoli obrázek můžete vygenerovat pomocí libovolné výzvy a jediný háček je v tom, že obrázky mají nižší kvalitu a že na každou vygenerovanou dávku obrázků budete muset čekat asi dvě minuty. Craiyon začal jako model s otevřeným zdrojovým kódem zaměřený na reprodukci výsledků původního modelu DALL·E. Nyní používaný model je známý jako DALL·E Mega a obsahuje několik vylepšení.

Craiyon, na rozdíl od ostatních možností zde, je podporován příjmy z reklamy. V důsledku toho uvidíte placené sponzorství a další reklamy na jejich webové stránky když navštívíte. K dispozici je také aplikace pro smartphony Android. Není to nejpropracovanější, ale je zábavné, snadno se používá a je přístupné.

Craiyon - AI Image GeneratorVývojář: Craiyon

Cena: Zdarma.

3.9.

Stažení

Dall-E 2

Dall-E 2 je produktem výzkumné laboratoře OpenAI a je nejznámějším generátorem obrázků AI, o kterém si lidé myslí. Je to uzavřený nástroj s omezeným přístupem, ale pro ty, kteří k němu mají přístup, jsou některé výsledky, se kterými může přijít, neuvěřitelné. Původně byl uzavřen kvůli obavám z etiky a bezpečnosti takového nástroje, i když se postupem času postupně rozšiřoval.

Jednou z největších výhod, kterou Dall-E 2 má, je schopnost vytvářet fotorealistické snímky, které jsou na první pohled nerozeznatelné od skutečných fotografií. Dokáže vytvářet malby, obrázky, které vypadají, jako by byly zachyceny skutečnými kamerami, a zcela vymyšlené scénáře. Představovala obrovský skok ve schopnostech umělé inteligence, když byla poprvé oznámena, a to jak ve svých schopnostech vytvářet obrázky, tak ve svém přirozeném zpracování jazyka, známém jako NLP. Je to díky implementaci GPT-3, která je jedním z nejpokročilejších jazykových modelů a je také autorem OpenAI.

Stejně jako u Stable Diffusion má Dall-E 2 také svou vlastní schopnost pořizovat existující obrázky a upravovat je na základě výzvy. Můžete přes něj upravovat fotografie tak, že ho požádáte, aby k obrázku něco přidal, nebo ho dokonce požádáte, aby něco odstranil nebo změnil osvětlení. I když vytváří pouze čtvercové obrázky, oznámila OpenAI Malba minulý měsíc, která může rozšířit vaše obrázky s přihlédnutím ke kontextu toho, co je již ve vašem čtvercovém obrázku k dispozici.

Dall-E 2 je k dispozici všem k vyzkoušení.

Střední cesta

Midjourney je zajímavý, protože je to veřejná platforma, která může generovat obrázky, i když to děláte přes Discord server. Nejen to, ale po vygenerování 25 obrázků se budete muset přihlásit k odběru služby, abyste mohli pokračovat ve generování nových.

Zatímco Střední cesta je zde pravděpodobně nejdostupnější platforma (vzhledem k tomu, že k ní můžete přistupovat z jakéhokoli zařízení s účtem Discord), také vás stojí peníze. Získáte z toho však kvalitu. Uživatel služby, Jason Allen, vytvořil kus, který nazval „Théâtre D'opéra Spatial“. Přihlásil ho do umělecké soutěže Colorado State Fair... a vyhrál.

Na rozdíl od těchto jiných projektů je Midjourney proprietární program umělé inteligence. Neexistuje žádný zdrojový kód, na který byste se mohli podívat, a celý jeho účel je v tomto okamžiku omezen na použití v rámci serveru Discord. Pokud jde o to, proč je to pouze Discord server, David Holz, zakladatel Midjourney, řekl následující The Verge v rozhovoru.

Surovou technologii jsme začali testovat v září minulého roku a okamžitě jsme nacházeli opravdu různé věci. Velmi rychle jsme zjistili, že většina lidí neví, co chtějí. Říkáte: "Tady je stroj, na kterém si dokážete představit cokoli - co chcete?" A oni řeknou: "pes." A jdeš "opravdu?" a jdou „růžový pes“. Takže jim dáte fotku psa a oni jdou „dobře“ a pak jdou něco dělat jiný.

Zatímco když je dáte do skupiny, stanou se „psem“ a někdo jiný se stane „vesmírným psem“ a někdo dalším „aztéckým vesmírným psem“ a pak všichni najednou lidé chápou možnosti a vy vytváříte tuto rozšířenou představivost – prostředí, kde se lidé mohou učit a hrát si s tímto novým kapacita. Zjistili jsme, že si lidé opravdu rádi společně představují, a tak jsme udělali [Midjourney] sociální.

Tehdy byste také měli problémy s tím, že byste jej mohli odvrátit od výchozího stylu „Midjourney“, abych tak řekl. To je podle Holze každopádně ve stejném rozhovoru.

[Máme] výchozí styl a vzhled, je to umělecké a krásné a je těžké od toho [modelku] odstrčit.

Od té doby však společnost uvedla na trh dva nové modely – „test“ a „testp“. „test“ je obecný model a „testp“ je zaměřen výhradně na fotorealismus. V důsledku toho budete moci uniknout tomu více výchozí podívejte se a vygenerujte obrázky více typů, pokud chcete.

Nebezpečí a etika umění generovaného umělou inteligencí

Umění generované umělou inteligencí je sice skvělé, ale představuje pro společnost jako celek řadu nebezpečí. V době, kdy může být těžké určit, kdy jsou zprávy vytrženy z kontextu nebo přímo vymyšlené, existuje nebezpečí, když lze během několika minut vytvořit obrázky, které vypadají a působí na dotek nemovitý. Podívejte se například na fotografie, které jsem vygeneroval níže. Jeden byl vytvořen pomocí Stable Diffusion a druhý byl vytvořen pomocí Craiyon.

Výzva: „havarované UFO v Roswellu, 1947, osvětlení, armádní generální vyšetřování, studiové osvětlení“

Výše uvedené fotografie zobrazují havarované UFO v Roswellu a první obrázek ukazuje to, co vypadá jako osoba, která kráčí po zříceném UFO. Zatímco obrázek zde byl vytvořen za účelem zobrazení falešné fotografie, zdá se, že by mohl být skutečný. Jakékoli artefakty lze vysvětlit tím, že fotografie v roce 1947 by stejně byly horší kvality a oba snímky by při rychlém pohledu mohly projít očním testem, zda jsou skutečné. Nepotřebujete ani jeden z nich nejlepší počítače udělat něco takového, protože Craiyon je bezplatná aplikace.

Ještě temnější je, že můžete specifikovat umělce, od kterého chcete, aby se algoritmus inspiroval. Běžným umělcem je Greg Rutkowski, který se navenek vyslovil proti používání svého jména v umění generovaném umělou inteligencí. Jeho jméno patří mezi nejčastější výzvy používané při generování obrázků. "A.I. by měla ze své databáze vyloučit žijící umělce,“ Rutkowski řekl artnet v rozhovoru se „zaměřte na díla ve veřejném vlastnictví“. Hledání Rutkowského jména často vrátí umění AI, které bylo vytvořeno tak, aby vypadalo jako jeho dílo, ale není vlastně jeho práce.

Ještě horší je, že umění generované umělou inteligencí může často upozornit na předsudky lidské rasy. Craiyon má dokonce v dolní části své domovské stránky ve FAQ varování, že „protože byl model trénován na nefiltrovaných datech z internetu, může generovat obrázky, které obsahují škodlivé stereotypy." Výsledkem je, že zadávání výzev jako „vedoucí společnosti" nejčastěji vrátí obrázky bílých mužů v obleky. Stejně tak zadání „učitel“ jako výzva téměř vždy vrátí ženy do tříd.

Budoucnost umění generovaného umělou inteligencí

Vzhledem k tomu, že se zdá, že průmysl nezpomaluje (a regulace nestíhá), očekáváme, že v těchto oblastech uvidíme ještě větší pokrok. Skutečnost, že jsme přešli od schopností Dall-E 2 (i když to bylo soukromé) ke Stable Diffusion během několika měsíců ukazuje, jak velké odvětví to je a jak velké odvětví potenciálně může být. Snímky, které mohly být dříve smluvně zadávány týmu umělců, lze nyní generovat během několika sekund, přičemž místo toho je do procesu zapojen jediný umělec pro účely nápravy. Už jsme viděli, jak vám Midjourney může pomoci vyhrát například uměleckou soutěž, ačkoli americký úřad pro autorská práva aktuálně říká že ani obrázky vytvořené AI nemůžete chránit autorským právem.

Jak Holz také uvedl ve svém rozhovoru, současné náklady na školení každého modelu se pohybují kolem 50 000 $ - nebo více. Obrázky také stojí peníze, protože jsou generovány na neuvěřitelně robustních serverech, zvláště když velké množství uživatelů přichází generovat své vlastní obrázky. Pro všechny nové hráče, kteří vstoupí do tohoto prostoru, to bude značně nákladné, což může ve skutečnosti odradit i některé společnosti. Počáteční snahy, jako je Stable Diffusion jako open source, však věští dobře.

V důsledku toho budeme nadšeně čekat, až uvidíme budoucnost obrázků AI. Prostor se za poslední rok vyvíjel tak rychle a zdá se, že každým dnem dochází k novým pokrokům. Nicméně s náznaky manipulace s obrázky na bázi AI dokonce i na naše smartphony, je toho hodně, co se může stát během příštího roku nebo dvou.