Mi az AI képgenerátor és hogyan működik?

Az AI képgenerátorok sok felhajtást keltettek az utóbbi időben, de nehéz lehet megérteni őket. Itt van minden, amit róluk tudni kell.

2022-ben láthattuk néhány hihetetlen szöveg-kép generátor megjelenését. Elsőként a Dall-E 2 indította el a nagy hullámot, a Stable Diffusion pedig nem sokkal később érkezett meg. Azóta más eszközöket is láthattunk, köztük a Midjourney-t, a Craiyon-t és bizonyos mértékig a TikTok-ot is. Egyre nagyobb aggodalomra ad okot a mesterséges intelligencia képgeneráló eszközei, elsősorban az etikát illetően ilyen eszközök, amikor valós emberekről tudnak képeket létrehozni olyan helyeken vagy helyzetekben, amelyekben valójában nem voltak ban ben.

Azonban nem csak az etikát kell figyelembe venni. Az AI képgenerátorok millió és millió fényképre vannak kiképezve, és megtanultak azonosítani dolgokat valódi emberek által készített, ténylegesen létező fényképekkel. Mikor válik szerzői jogsértéssé? Ha a mesterséges intelligencia véletlenül olyan képet generál, amely nagyon hasonlít egy másik tervhez, és a kép készítője tovább osztja azt kereskedelmi forgalomban, felelősséggel tartozik valaki bármilyen kárért? Ha igen, ki? Ki a "művész" ebben az esetben?

Vannak a tonna A mesterséges intelligencia képgenerátorokkal szembeni óvatosság miatt ezek az etikai és biztonsági aggályok csak a felszínt kaparják. Ezekkel az eszközökkel hamis képeket lehet létrehozni, amelyek segítségével el lehet tolni a narratívát, és ezek idővel csak rosszabbodnak. Tekintettel ezeknek a képgeneráló eszközöknek a hihetetlen képességeire, ijesztő belegondolni, mire lesznek képesek hamarosan. Ha azonban szép képeket szeretne készíteni, és szórakozni szeretne, akkor ez egyáltalán nem árt.

Stabil diffúzió

A Stable Diffusion a cikk inspirációja, és egy olyan eszköz, amellyel a sok mostanában. Helyben fut a számítógépén (így nem kell az erőforrásokért küzdenie valamilyen online eszköz más felhasználóival), és ez az egyik legerősebb, amit jelenleg használhat. Nemcsak rengeteg paraméter finomhangolását teszi lehetővé, hanem a teljes generálási folyamatot is vezérelheti.

A Stable Diffusion ugyanazon mesterséges intelligencia buktatóitól szenved, a hozzáférhetõség további „veszélyével”. Bárki, aki elég erős számítógéppel rendelkezik, beállíthatja, és gyorsan futhat. Egy i7-12700KF, egy RTX 3080, 32 GB RAM és gigabites internet segítségével be tudtam állítani a Stable Diffusion-t, és egy órán belül elkészítettem az első képeimet. A számítógépem határozottan rajta van magasabb vég, de megúszhatod a futtatást gyengébb hardver (bár kisebb vRAM-mal nem lehet ekkora képeket generálni, és tovább tart).

A legjobb dolog a Stable Diffusion-ban, hogy teljesen nyílt forráskódú. Bármelyik projektjébe ma már bevezetheti a támogatást, ha akarja, és már léteznek olyan beépülő modulok, mint például az Alpaca, amelyek segítségével integrálhatja a Photoshopot. Még nem tökéletes, de ezeknek a programoknak a fejlesztése még nagyon korai szakaszban van. Te tudod használni Álom Stúdió akár ha szeretné, bár ez pénzbe kerül, és kissé korlátozza a helyi beállítással szemben.

Sőt, ha helyben állítja be a Stable Diffusion-t, ott vannak olyan villák, mint pl AUTOMATIC1111 Stable Diffusion WebUI amelyekhez egy beépített előkelő eszköz tartozik, amely akár négyszeresére növelheti a felbontást. Míg nagyobb felbontásban is készíthet képeket, gyakran sokkal gyorsabb, ha kisebb felbontású képet állít elő, majd felskálázza. Az alábbi képek mindegyike kisebb felbontásból van felskálázva.

A Stable Diffusion egy 4000 AWS-ben futó Nvidia A100 GPU-ból álló klaszteren tanult, és egy hónapon keresztül zajlott. Képes hírességekről képeket generálni, és beépített NSFW szűrővel is rendelkezik. Ezt az NSFW-szűrőt letilthatja a helyi telepítéseken, mivel valójában erőforrásokat takarít meg a VRAM-használat csökkentésével. Ami azt illeti, hogy mit jelent a „diffúzió”, ez a tiszta zajjal való kezdés és az idő múlásával történő finomítás folyamata. Idővel fokozatosan közelíti a képet a szöveges üzenethez, amíg nem marad zaj. Ez ugyanúgy működik, mint a Dall-E 2.

Végül egy másik szórakoztató funkció, amellyel a Stable Diffusion rendelkezik, az "img2img". Ebben adsz neki egy képet felszólításként, leírod, hogy milyennek szeretnéd a képet, majd hagyod, hogy megfelelő rajz.

Adtam neki egy sablont a munkához, és elég tisztességes képet kaptam. Biztos vagyok benne, hogy jobb promptokkal (az enyém némileg ellentmondásos) még jobb is lehetne. Ennek ellenére egyáltalán nem rossz valamiért, aminek elkészítése körülbelül öt percig tartott.

Röviden, a Stable Diffusion ingyenes, könnyen beállítható, és a legnagyobb probléma az, hogy mennyire hozzáférhető. Ha nincs elég erős számítógépe, fizetnie kell annak használatáért, például a Dream Studio segítségével.

Craiyon

A Craiyon korábban DALL·E Mini néven volt ismert, bár a név ellenére semmi köze a Dall-E 2-höz. Azért hozták létre, hogy reprodukálják az OpenAI DALL·E text-to-image modelljének eredményeit. A Craiyon a nyilvánosság számára elérhető, és meglepően tisztességes képek készítésére használható, bár a képek nem olyan pontosak, és nem is olyan jó minőségűek. A képfelbontás max. 256x256, és nincsenek felskálázó eszközök sem.

A Craiyon teljesen ingyenesen használható és elérhető a webhelyén keresztül. Bármelyik prompton keresztül bármilyen képet generálhat, és az egyetlen bökkenő az, hogy a képek gyengébb minőségűek, és körülbelül két percet kell várnia minden egyes képkötegre. A Craiyon nyílt forráskódú modellként indult, amelynek célja a kezdeti DALL·E modell eredményeinek reprodukálása. A most használt modell DALL·E Mega néven ismert, és számos fejlesztést tartalmaz.

A Craiyon – a többi itteni lehetőséggel ellentétben – hirdetési bevételekből áll. Ennek eredményeként fizetett szponzorációkat és egyéb hirdetéseket fog látni a webhelyen a honlapjukat amikor meglátogatod. Androidos okostelefonokhoz is van alkalmazás. Nem a legkifinomultabb, de szórakoztató, könnyen használható és hozzáférhető.

Craiyon - AI képgenerátorFejlesztő: Craiyon

Ár: Ingyenes.

3.9.

Letöltés

Dall-E 2

A Dall-E 2 az OpenAI kutatólaboratóriumának terméke, és a legismertebb mesterséges intelligencia képgenerátor, amelyre az emberek gondolnak. Ez egy zárt eszköz, korlátozott hozzáféréssel, de azok számára, akik hozzáférhetnek, néhány eredmény hihetetlen. Eredetileg bezárták az ilyen eszközök etikájával és biztonságával kapcsolatos aggályok miatt, bár az idő múlásával fokozatosan bővült.

A Dall-E 2 egyik legnagyobb előnye az, hogy képes olyan fotorealisztikus képeket készíteni, amelyek első pillantásra megkülönböztethetetlenek a valódi fényképektől. Képes festményeket, valódi kamerákkal rögzített képeket és teljesen kitalált forgatókönyveket generálni. Hatalmas ugrást jelentett a mesterséges intelligencia képességeiben, amikor először bejelentették, mind képalkotási képességében, mind a természetes nyelvi feldolgozásban, az NLP-ben. Ez a GPT-3 megvalósításának köszönhető, amely az egyik legfejlettebb nyelvi modell, és szintén az OpenAI szerzője.

Csakúgy, mint a Stable Diffusion esetében, a Dall-E 2-nek is megvan a maga képessége, hogy meglévő képeket készítsen, és azokat egy felszólítás alapján módosítsa. Szerkesztheti rajta a fényképeket, ha megkéri, hogy adjon hozzá valamit a képhez, vagy akár távolítson el valamit, vagy módosítsa a világítást. Bár csak négyzet alakú képeket hoz létre, jelentette be az OpenAI Kifestés a múlt hónapban, amely szélesebbre terjesztheti a képeket, figyelembe véve a négyzet alakú képen már elérhető szövegkörnyezetet.

Dall-E 2 mindenki számára kipróbálható.

Midjourney

A Midjourney érdekes, mivel egy nyilvános platform, amely képes képeket generálni, bár ezt egy Discord szerveren keresztül teszi. Nem csak ez, hanem 25 kép létrehozása után elő kell fizetnie a szolgáltatásra, hogy folytathassa az újak generálását.

Míg Midjourney valószínűleg a legelérhetőbb platform itt (feltéve, hogy bármilyen eszközről elérheti Discord fiókkal), ez is pénzbe kerül. Azonban minőséget hoz ki belőle. A szolgáltatás egyik felhasználója, Jason Allen készített egy darabot, amelyet "Théâtre D'opéra Spatial"-nak nevezett el. Benevezte a Colorado State Fair művészeti versenyre... és nyert.

Ezekkel a többi projekttel ellentétben a Midjourney egy szabadalmaztatott mesterséges intelligencia program. Nincs megtekinthető forráskód, és a teljes célja jelenleg a Discord-kiszolgálón belüli használatra korlátozódik. Arról, hogy miért csak Discord szerverről van szó, David Holz, a Midjourney alapítója a következőket mondta: A perem egy interjúban.

Tavaly szeptemberben kezdtük el tesztelni a nyers technológiát, és rögtön egészen más dolgokat találtunk. Nagyon hamar rájöttünk, hogy a legtöbb ember nem tudja, mit akar. Azt mondod: „Itt van egy gép, amit bármit el tudsz képzelni vele – mit akarsz?” És azt mondják: „kutya”. És te mész "igazán?" és „rózsaszín kutyának” mennek. Tehát adsz nekik egy képet egy kutyáról, és ők "rendben" mennek, majd csinálnak valamit más.

Míg ha egy csoportba helyezi őket, akkor ők „kutyának”, valaki másnak „űrkutyának”, valaki másnak pedig „azték űrkutyának” fog válni, majd az összes Hirtelen az emberek megértik a lehetőségeket, és Ön létrehozza ezt a kibővített képzeletet – egy olyan környezetet, ahol az emberek tanulhatnak és játszhatnak ezzel az új kapacitás. Úgyhogy rájöttünk, hogy az emberek nagyon szeretnek együtt képzelődni, ezért a [Midjourney]-t közösségivé tesszük.

Akkoriban az is gondot okozott, hogy eltérítse az alapértelmezett „Midjourney” stílustól. Ez egyébként Holz szerint ugyanabban az interjúban.

[Alapértelmezett stílusunk és megjelenésünk van, művészi és gyönyörű, és nehéz ettől eltántorítani [a modellt].

Azóta azonban a cég két új modellt dobott piacra – a "test" és a "testp". A "test" egy általános célú modell, a "testp" pedig kizárólag a fotorealizmusra összpontosít. Ennek eredményeként jobban megúszhatja ezt alapértelmezett nézzen meg és készítsen több típusú képet, ha szeretné.

A mesterséges intelligencia által generált művészet veszélyei és etikája

A mesterséges intelligencia által generált művészet, bár hűvös, számos veszélyt jelent a társadalom egészére nézve. Egy olyan korban, amikor néha nehéz megmondani, amikor a híreket kiragadják a kontextusból vagy egyenesen felfelé legyártott, fennáll a veszély, ha percek alatt olyan képeket lehet készíteni, amelyek látszólag és tapinthatóak igazi. Például vessen egy pillantást az alábbi fényképekre, amelyeket generáltam. Az egyiket a Stable Diffusion, a másikat a Craiyon segítségével hozták létre.

Prompt: "lezuhant UFO Roswellben, 1947, világítás, katonai tábornok nyomozás, stúdió világítás"

A fenti képek egy lezuhant UFO-t ábrázolnak Roswellben, az első kép pedig azt mutatja, hogy úgy néz ki, mint egy személy, aki a lezuhant UFO tetején sétálna. Bár az itt látható kép hamis fénykép megjelenítése céljából készült, úgy tűnik, hogy valódi lehet. Az esetleges műtermékek azzal magyarázhatók, hogy az 1947-es fotók amúgy is gyengébb minőségűek lettek volna, és mindkét kép egy gyors pillantással át tudta menni a szemvizsgálaton, hogy valódi-e. Nincs is szüksége egyikre sem legjobb számítógépek ilyesmit csinálni, mivel a Craiyon egy ingyenes alkalmazás.

A helyzet még homályosabb, hogy valóban megteheti adja meg egy művész, akitől ihletet szeretne meríteni az algoritmushoz. Közös művész Greg Rutkowski, aki külsőleg ellenezte nevének a mesterséges intelligencia által generált művészetben való használatát. Az ő neve a képalkotás során használt egyik leggyakoribb felszólítás. „A.I. ki kell zárnia az élő művészeket az adatbázisából” – Rutkowski mondta artnet egy interjúban „a közkincs alatt álló művekre összpontosítson”. Rutkowski nevére való keresés gyakran olyan mesterséges intelligencia művészetet ad vissza, amelyet úgy hoztak létre, hogy úgy nézzen ki, mint az ő munkája, de nem az tulajdonképpen munkája.

Még rosszabb, hogy a mesterséges intelligencia által generált művészet gyakran kiemeli az emberi faj elfogultságait. A Craiyon a GYIK főoldalának alján még egy figyelmeztetést is tartalmaz, amely szerint "mivel a modellt az internetről származó szűretlen adatokra képezték ki, előfordulhat, hogy ártalmas sztereotípiákat tartalmazó képeket generál." Ennek eredményeként a "cégvezető"-hez hasonló promptok megadása leggyakrabban fehér férfiak képét adja vissza ruhák. Hasonlóképpen, a „tanár” szó beírása szinte mindig visszaadja a nőket az osztálytermekben.

A mesterséges intelligencia által generált művészet jövője

Tekintettel arra, hogy úgy tűnik, az ipar nem lassul (és a szabályozás nem éri fel a felzárkózást), arra számítunk, hogy ezeken a területeken még nagyobb előrelépés várható. Az a tény, hogy a Dall-E 2 képességeitől (még ha privát is volt) áttértünk a Stable Diffusionre néhány hónap alatt megmutatja, mekkora iparágról van szó, és mekkora iparág is lehet lenni. Azok a képek, amelyeket korábban szerződtettek volna egy művészcsapattal, most másodpercek alatt generálhatók, és a folyamatban korrekciós célból egyetlen művész vesz részt. Már láttuk, hogy a Midjourney hogyan segíthet megnyerni például egy művészeti versenyt, bár az Egyesült Államok Szerzői Jogi Hivatala jelenleg azt mondja hogy a mesterséges intelligencia által generált képeket sem lehet szerzői jog alá helyezni.

Ahogy Holz is elmondta az interjújában, az egyes modellek képzésének jelenlegi költsége körülbelül 50 000 dollár – vagy több. A képek pénzbe is kerülnek, mivel hihetetlenül masszív szervereken készülnek, különösen akkor, ha nagyszámú felhasználó érkezik, hogy saját képeket készítsen. Ez rendkívül költséges lesz minden új játékos számára, aki belép a térbe, ami viszont bizonyos cégeket is elriaszthat. Azonban az olyan kezdeti erőfeszítések, mint például a Stable Diffusion, hogy nyílt forráskódú, jót ígérnek.

Ennek eredményeként izgatottan várjuk az AI-képek jövőjét. A tér olyan gyorsan fejlődött az elmúlt évben, és úgy tűnik, hogy naponta új fejlesztések történnek. Azonban a mesterséges intelligencia alapú képmanipuláció bepillantásaival akár az okostelefonjainkra is, sok minden történhet a következő egy-két évben.