Kas yra AI vaizdo generatorius ir kaip jis veikia?

AI vaizdo generatoriai pastaruoju metu sukėlė daug triukšmo, tačiau juos gali būti sunku suprasti. Štai viskas, ką reikia žinoti apie juos.

2022 m. matėme neįtikėtinų teksto į vaizdą generatorių atsiradimą. Pirmasis, kuris sukėlė didžiąją bangą, buvo Dall-E 2, o „Stable Diffusion“ pasirodė netrukus. Nuo to laiko matėme, kad atsirado ir kitų įrankių, įskaitant „Midjourney“, „Craiyon“ ir tam tikru mastu net „TikTok“. Didėja susirūpinimas, kai kalbama apie AI vaizdų kūrimo įrankius, pirmiausia susijusius su etika tokius įrankius, kai jie gali sukurti tikrų žmonių atvaizdus vietose ar situacijose, kurių jie iš tikrųjų nebuvo in.

Tačiau reikia atsižvelgti ne tik į etiką. Dirbtinio intelekto vaizdų generatoriai yra išmokyti sukurti milijonus nuotraukų ir išmokti atpažinti dalykų naudojant faktines esamas nuotraukas, sukurtas tikrų žmonių. Kada tai tampa autorių teisių pažeidimu? Jei jūsų dirbtinis intelektas netyčia sukuria vaizdą, kuris atrodo labai panašus į kitą dizainą, o to vaizdo kūrėjas bendrina jį komerciškai, ar kas nors yra atsakingas už žalą? Jei taip, kas? Kas šiuo atveju yra net „menininkas“?

Čia yra tonų yra priežasčių saugotis dirbtinio intelekto vaizdų generatorių, o šie etiniai ir saugos klausimai tik subraižo paviršių. Šiuos įrankius galima naudoti kuriant netikrus vaizdus, kurie gali būti naudojami pasakojimui stumti, ir jie laikui bėgant tik blogės. Atsižvelgiant į neįtikėtinas šių vaizdų generavimo įrankių galimybes jau dabar, baisu pagalvoti, ką jie galės padaryti labai greitai. Tačiau, jei norite padaryti gražius vaizdus ir smagiai praleisti laiką, tai tikrai nepakenks.

Stabili difuzija

„Stable Diffusion“ yra šio straipsnio įkvėpėjas ir įrankis, su kuriuo aš žaidžiau daug neseniai. Jis veikia lokaliai jūsų kompiuteryje (todėl jūs nekovojate dėl išteklių su kitais tam tikro internetinio įrankio naudotojais) ir yra vienas galingiausių, kurį šiuo metu galite naudoti. Tai ne tik leidžia tiksliai sureguliuoti daugybę parametrų, bet ir valdyti visą generavimo procesą.

„Stable Diffusion“ kenčia nuo visų tų pačių AI spąstų, o kartu su papildomu prieinamumo „pavojumi“. Kiekvienas, turintis pakankamai galingą kompiuterį, gali jį nustatyti ir greitai paleisti. Turėdamas i7-12700KF, RTX 3080, 32 GB RAM ir gigabitinį internetą, galėjau nustatyti stabilų difuziją ir sugeneruoti pirmuosius vaizdus per valandą. Mano kompiuteris tikrai yra aukštesnis galas, bet jūs galite išsisukti nuo jo vykdymo silpnesnė aparatūra (nors negalite generuoti tokių didelių vaizdų su mažesne vRAM ir tai užtruks ilgiau).

Geriausias „Stable Diffusion“ dalykas yra tai, kad jis yra visiškai atviro kodo. Jei norite, šiandien galite įdiegti jo palaikymą bet kuriame savo projekte, o jau yra įskiepių, tokių kaip „Alpaca“, kuriuos galite naudoti norėdami integruoti su „Photoshop“. Tai dar nėra tobula, bet labai anksti kuriant šias programas. Tu gali naudoti Svajonių studija arba jei norite, nors tai kainuoja pinigus ir yra šiek tiek ribojanti, palyginti su nustatymu vietoje.

Be to, jei nustatote „Stable Diffusion“ vietoje, yra šakės, pvz AUTOMATIC1111 stabili difuzijos žiniatinklio sąsaja kurie pateikiami su įmontuotu aukštesnio lygio įrankiu, galinčiu padidinti skiriamąją gebą iki keturių kartų. Nors galite generuoti vaizdus didesne raiška, dažnai daug greičiau sugeneruoti vaizdą su mažesne raiška ir padidinti jo mastelį. Visi toliau pateikti vaizdai yra padidinti nuo mažesnės raiškos.

„Stable Diffusion“ buvo apmokytas 4000 „Nvidia A100“ GPU, veikiančių AWS, grupėje ir vyko per mėnesį. Jis turi galimybę generuoti įžymybių vaizdus ir turi įmontuotą NSFW filtrą. Galite išjungti šį NSFW filtrą vietiniuose įrenginiuose, nes jis iš tikrųjų taupo išteklius, nes sumažina VRAM naudojimą. Kalbant apie tai, ką reiškia „difuzija“, tai procesas, kai pradedama nuo gryno triukšmo ir laikui bėgant tobulėja. Laikui bėgant vaizdas palaipsniui priartėja prie teksto, kol nebelieka triukšmo. Taip veikia ir Dall-E 2.

Galiausiai, dar viena smagi funkcija, kurią turi „Stable Diffusion“, yra „img2img“. Čia jūs pateikiate jam vaizdą kaip raginimą, aprašote, kokio norite, kad vaizdas būtų, ir tada leiskite jam pateikti tinkamas piešimas.

Daviau jai šabloną dirbti ir grįžau gana neblogą vaizdą. Esu tikras, kad su geresniais raginimais (manoji yra šiek tiek prieštaringa), galėtumėte gauti dar geresnių. Vis dėlto visai neblogai už tai, ką pagaminti užtrukau apie penkias minutes.

Trumpai tariant, „Stable Diffusion“ yra nemokama, ją lengva nustatyti, o didžiausia problema yra tai, kaip ji pasiekiama. Jei neturite pakankamai galingo kompiuterio, turėsite sumokėti, kad galėtumėte juo naudotis, pavyzdžiui, Dream Studio.

Craiyon

Craiyon anksčiau buvo žinomas kaip DALL·E Mini, nors nepaisant pavadinimo, jis nėra susijęs su Dall-E 2. Jis buvo sukurtas siekiant atkurti OpenAI DALL·E teksto į vaizdą modelio rezultatus. „Craiyon“ yra prieinama visuomenei ir gali būti naudojama stebėtinai padoriems vaizdams generuoti, nors vaizdai nėra tokie tikslūs ir nėra tokie aukštos kokybės. Maksimali vaizdo skiriamoji geba yra 256 x 256, taip pat nėra jokių padidinimo įrankių.

„Craiyon“ yra visiškai nemokama naudoti ir pasiekiama per savo svetainę. Galite sugeneruoti bet kokį vaizdą naudodami bet kurį raginimą, o vienintelis dalykas yra tas, kad vaizdai yra prastesnės kokybės ir kad turėsite palaukti maždaug dvi minutes, kol bus sukurta kiekviena vaizdų partija. „Craiyon“ pradėjo veikti kaip atvirojo kodo modelis, skirtas atkurti pradinio DALL·E modelio rezultatus. Dabar naudojamas modelis žinomas kaip DALL·E Mega ir jame yra keletas patobulinimų.

„Craiyon“, skirtingai nuo kitų čia esančių variantų, palaikomas iš reklamos pajamų. Dėl to matysite mokamą rėmimą ir kitus skelbimus savo svetainę kai lankysitės. Taip pat yra programėlė, skirta Android išmaniesiems telefonams. Tai nėra pats įmantriausias, bet smagus, paprastas naudoti ir prieinamas.

Craiyon – AI vaizdų generatoriusProgramuotojas: Craiyon

Kaina: Nemokama.

3.9.

parsisiųsti

Dall-E 2

Dall-E 2 yra OpenAI tyrimų laboratorijos produktas ir yra labiausiai žinomas dirbtinio intelekto vaizdų generatorius, apie kurį žmonės galvoja. Tai uždaras įrankis su ribota prieiga, bet tiems, kurie gali jį pasiekti, kai kurie rezultatai, kuriuos jis gali pasiekti, yra neįtikėtini. Iš pradžių jis buvo uždarytas dėl susirūpinimo dėl tokio įrankio etikos ir saugos, nors laikui bėgant jis palaipsniui plėtėsi.

Vienas didžiausių „Dall-E 2“ privalumų yra galimybė sukurti fotorealistiškus vaizdus, kurie iš pirmo žvilgsnio yra neatskiriami nuo tikrų nuotraukų. Jis gali generuoti paveikslus, vaizdus, kurie, atrodo, buvo užfiksuoti tikromis kameromis, ir visiškai sugalvotus scenarijus. Kai pirmą kartą buvo paskelbta, tai buvo didžiulis AI galimybių šuolis, tiek gebėjimas kurti vaizdus, tiek natūralios kalbos apdorojimas, žinomas kaip NLP. Taip yra dėl GPT-3 įdiegimo, kuris yra vienas iš pažangiausių kalbų modelių ir kurio autorius taip pat yra OpenAI.

Kaip ir naudojant stabilią difuziją, „Dall-E 2“ taip pat turi galimybę fotografuoti esamus vaizdus ir juos modifikuoti pagal raginimą. Per jį galite redaguoti nuotraukas prašydami ką nors pridėti prie vaizdo arba net paprašyti ką nors pašalinti arba pakeisti apšvietimą. „OpenAI“ paskelbė, kad sukuria tik kvadratinius vaizdus Perdažymas praėjusį mėnesį, kuris gali išplėsti jūsų vaizdus, atsižvelgiant į kontekstą, kas jau yra jūsų kvadratiniame vaizde.

Dall-E 2 yra prieinama visiems išbandyti.

Vidurinė kelionė

„Midjourney“ yra įdomi, nes tai vieša platforma, kuri gali generuoti vaizdus, nors tai darote per „Discord“ serverį. Negana to, sugeneravę 25 vaizdus, turėsite užsiprenumeruoti paslaugą, kad galėtumėte toliau kurti naujus.

Nors Vidurinė kelionė tikriausiai yra labiausiai prieinama platforma (jei galite ją pasiekti iš bet kurio įrenginio, turinčio „Discord“ paskyrą), tai taip pat kainuoja. Tačiau jūs gaunate kokybę. Paslaugos vartotojas Jasonas Allenas sukūrė kūrinį, kurį pavadino „Théâtre D'opéra Spatial“. Jis pateko į Kolorado valstijos mugės meno konkursą... ir laimėjo.

Skirtingai nuo šių kitų projektų, „Midjourney“ yra patentuota dirbtinio intelekto programa. Nėra šaltinio kodo, kurį galėtumėte peržiūrėti, o jo paskirtis šiuo metu apsiriboja naudojimu „Discord“ serveryje. Kalbant apie tai, kodėl tai tik „Discord“ serveris, „Midjourney“ įkūrėjas Davidas Holzas pasakė: The Verge interviu.

Pradėjome bandyti neapdorotą technologiją praėjusių metų rugsėjį ir iškart radome tikrai skirtingų dalykų. Labai greitai pastebėjome, kad dauguma žmonių nežino, ko nori. Jūs sakote: „Štai mašina, su kuria galite įsivaizduoti bet ką – ko tu nori? Ir jie sako: „šuo“. Ir tu eik "tikrai?" ir jie tampa „rožiniu šunimi“. Taigi jūs pateikiate jiems šuns nuotrauką, ir jie sako „gerai“, o tada eina ką nors daryti Kitas.

Tuo tarpu jei suskirstysite juos į grupę, jie taps „šuo“, o kažkas taps „kosminiu šunimi“, o kažkas kitas taps „actekų kosminiu šunimi“, ir tada visi staiga žmonės supranta galimybes, o jūs kuriate šią išplėstinę vaizduotę – aplinką, kurioje žmonės gali mokytis ir žaisti su šiuo nauju talpa. Taigi pastebėjome, kad žmonėms labai patinka įsivaizduoti kartu, todėl [Midjourney] tapome socialūs.

Tada jums taip pat būtų sunku nukreipti jį nuo numatytojo „Midjourney“ stiliaus, taip sakant. Vis dėlto tai pasak Holzo tame pačiame interviu.

[Mes] turime numatytąjį stilių ir išvaizdą, tai meniška ir graži, ir sunku nuo to atstumti [modelį].

Tačiau nuo to laiko bendrovė išleido du naujus modelius – „test“ ir „testp“. „testas“ yra bendros paskirties modelis, o „testp“ yra orientuotas tik į fotorealizmą. Dėl to galėsite nuo to labiau pabėgti numatytas Peržiūrėkite ir generuokite daugiau tipų vaizdus, jei norite.

AI sukurto meno pavojai ir etika

Dirbtinio intelekto sukurtas menas, nors ir kietas, kelia nemažai pavojų visai visuomenei. Amžius, kai kartais gali būti sunku pasakyti, kai naujienos ištraukiamos iš konteksto arba tiesiog ištraukiamos Pagamintas, kyla pavojus, kai per kelias minutes galima padaryti vaizdus, kurie atrodo ir jaučiasi tikras. Pavyzdžiui, pažiūrėkite į nuotraukas, kurias sugeneravau žemiau. Vienas buvo sukurtas naudojant „Stable Diffusion“, o kitas buvo sukurtas naudojant „Craiyon“.

Raginimas: „NSO sudužus Rosvele, 1947 m., apšvietimas, armijos generolas, tyrimas, studijos apšvietimas“

Aukščiau pateiktose nuotraukose pavaizduotas sudužęs NSO Rosvele, o pirmame paveikslėlyje parodyta, kaip žmogus, einantis ant sudužusio NSO. Nors vaizdas čia buvo sukurtas siekiant parodyti netikrą nuotrauką, atrodo, kad jis gali būti tikras. Bet kokius artefaktus galima paaiškinti tuo, kad 1947 m. nuotraukos bet kuriuo atveju būtų buvusios prastesnės kokybės, o abu vaizdai gali greitai išlaikyti akių patikrinimą, kad būtų tikri. Jums net nereikia nė vieno iš geriausi kompiuteriai padaryti kažką panašaus, nes Craiyon yra nemokama programa.

Dar niūriau tai, kad iš tikrųjų galite nurodyti menininkas, iš kurio norite, kad algoritmas pasisemtų įkvėpimo. Dažnas menininkas yra Gregas Rutkowskis, kuris išoriškai pasisakė prieš jo vardo naudojimą dirbtinio intelekto sukurtame mene. Jo vardas yra vienas iš dažniausiai naudojamų raginimų kuriant įvaizdį. „A.I. turėtų neįtraukti gyvų menininkų iš savo duomenų bazės“, – sakė Rutkowskis pasakojo artnet interviu, „susitelkite į viešosios nuosavybės kūrinius“. Ieškant Rutkowskio vardo dažnai bus rodomas dirbtinio intelekto menas, kuris buvo sukurtas taip, kad atrodytų kaip jo darbas, bet nėra iš tikrųjų jo darbas.

Dar blogiau yra tai, kad dirbtinio intelekto sukurtas menas dažnai gali pabrėžti žmonių rasės šališkumą. „Craiyon“ netgi turi įspėjimą savo pagrindinio puslapio DUK apačioje, kuriame teigiama, kad „kadangi modelis buvo apmokytas naudoti nefiltruotus duomenis iš interneto, jis gali sukurti vaizdus, kuriuose yra žalingų stereotipų. kostiumai. Panašiai, įvedus žodį „mokytojas“, moterys beveik visada sugrįš į klases.

Dirbtinio intelekto sukurto meno ateitis

Atsižvelgiant į tai, kad pramonė nelėtėja (ir reguliavimas nesiveja), tikimės, kad šiose srityse bus dar daugiau pažangos. Tai, kad mes perėjome nuo Dall-E 2 galimybių (net jei jis buvo privatus) prie stabilios difuzijos vos keli mėnesiai parodo, kokia didelė tai pramonės šaka ir kokia ji gali būti būti. Vaizdai, kurie anksčiau galėjo būti sudaryti su menininkų komanda, dabar gali būti sukurti per kelias sekundes, o į procesą pataisos tikslais įtraukiamas vienas menininkas. Jau matėme, kaip, pavyzdžiui, „Midjourney“ gali padėti jums laimėti meno konkursą, nors JAV autorių teisių biuras šiuo metu sako kad net negalite apsaugoti dirbtinio intelekto sukurtų vaizdų.

Kaip Holzas taip pat teigė savo interviu, dabartinės kiekvieno modelio mokymo išlaidos yra apie 50 000 USD ar daugiau. Vaizdai taip pat kainuoja, nes jie generuojami neįtikėtinai galinguose serveriuose, ypač kai daug vartotojų ateina kurti savo vaizdų. Tai bus labai brangi visiems naujiems žaidėjams, atvykstantiems į erdvę, o tai savo ruožtu iš tikrųjų gali atbaidyti kai kurias įmones. Tačiau pradinės pastangos, pvz., „Stable Diffusion“ yra atvirojo kodo, duoda gerų rezultatų.

Todėl su nekantrumu lauksime, kol pamatysime AI vaizdų ateitį. Erdvė per pastaruosius metus taip greitai vystėsi, ir atrodo, kad kasdien daroma vis naujų pažangų. Tačiau su žvilgsniais į AI pagrįstą vaizdo manipuliavimą net ateina į mūsų išmaniuosius telefonus, per ateinančius metus ar dvejus gali daug kas nutikti.