Mis on AI-pildigeneraator ja kuidas see töötab?

Tehisintellekti kujutise generaatorid on viimasel ajal palju kõmu tekitanud, kuid neid võib olla raske mõista. Siin on kõik, mida peate nende kohta teadma.

2022. aastal oleme näinud uskumatute tekstist pildiks generaatorite tulekut. Esimesena asus suurele lainele Dall-E 2, mõne aja pärast saabus Stable Diffusion. Sellest ajast alates oleme näinud ka muid tööriistu, sealhulgas Midjourney, Craiyon ja teatud määral isegi TikTok. Kasvab muret tehisintellekti kujutise loomise tööriistade osas, mis on seotud peamiselt eetikaga selliseid tööriistu, kui nad saavad luua pilte reaalsetest inimestest kohtades või olukordades, mida nad tegelikult ei olnud sisse.

Siiski ei pea arvestama ka ainult eetikaga. Tehisintellekti kujutise generaatorid on koolitatud miljonite ja miljonite fotode jaoks ning on õppinud tuvastama asju tegelike inimeste loodud olemasolevate fotode abil. Millal muutub see autoriõiguste rikkumiseks? Kui teie tehisintellekt loob kogemata pildi, mis näeb välja väga sarnane mõne muu kujundusega, ja selle pildi looja jagab seda äriliselt, kas keegi vastutab kahjude eest? Kui jah, siis kes? Kes on sel juhul isegi "kunstnik"?

Seal on a tonn põhjustel olla ettevaatlik tehisintellekti kujutise generaatorite suhtes ning need eetilised ja ohutusprobleemid on vaid pinda kriibivad. Neid tööriistu saab kasutada võltspiltide loomiseks, mida saab kasutada narratiivi edasilükkamiseks, ja need lähevad aja jooksul ainult hullemaks. Arvestades nende piltide loomise tööriistade uskumatuid võimalusi juba praegu, on hirmutav mõelda, mida nad varsti teha suudavad. Kui aga soovite teha ilusaid pilte ja lõbutseda, pole sellest mingit kahju.

Stabiilne difusioon

Stable Diffusion on selle artikli inspiratsiooniallikaks ja tööriist, millega olen mänginud a palju hiljuti. See töötab teie arvutis kohapeal (nii et te ei võitle ressursside pärast mõne võrgutööriista teiste kasutajatega) ja see on üks võimsamaid, mida praegu kasutada saate. See mitte ainult ei võimalda teil palju parameetreid peenhäälestada, vaid saate juhtida ka kogu genereerimisprotsessi.

Stabiilne difusioon kannatab kõigi samade tehisintellekti lõksude all, millele lisandub juurdepääsetavusega kaasnev "oht". Igaüks, kellel on piisavalt võimas arvuti, saab selle seadistada ja kiiresti tööle panna. i7-12700KF, RTX 3080, 32 GB muutmälu ja gigabitise Internetiga suutsin seadistada stabiilse hajutuse ja luua oma esimesed pildid tunni jooksul. Minu arvuti on kindlasti sees kõrgem ots, kuid saate sellega hakkama saada nõrgem riistvara (kuigi väiksema vRAM-iga ei saa nii suuri pilte luua ja see võtab kauem aega).

Parim asi Stable Diffusioni juures on see, et see on täielikult avatud lähtekoodiga. Soovi korral saate seda juba täna kõigis oma projektides rakendada ja juba on olemas pluginad, nagu Alpaca, mida saate kasutada Photoshopiga integreerimiseks. See pole veel täiuslik, kuid see on nende programmide arendamise alguses. Sa võid kasutada Unistuste stuudio kas soovite, kuigi see maksab raha ja on kohaliku seadistamisega võrreldes pisut piirav.

Veelgi enam, kui seadistate Stable Diffusion kohapeal, on kahvlid nagu AUTOMATIC1111 stabiilne difusioon WebUI mis on varustatud sisseehitatud kõrgetasemelise tööriistaga, mis võib eraldusvõimet kuni neli korda suurendada. Kuigi saate luua pilte kõrgema eraldusvõimega, on sageli palju kiirem luua pilt madalama eraldusvõimega ja seejärel suurendada seda. Kõik allpool olevad pildid on väiksema eraldusvõimega võrreldes üles skaleeritud.

Stable Diffusion koolitati 4000 Nvidia A100 GPU klastris, mis töötab AWS-is ja see toimus üle kuu. Sellel on võimalus luua pilte kuulsustest ja sellel on ka sisseehitatud NSFW-filter. Saate selle NSFW-filtri kohalikel installidel keelata, kuna see säästab tegelikult ressursse, vähendades VRAM-i kasutamist. Mis puudutab seda, mida "Diffusion" tähendab, siis see on puhas müraga alustamise ja aja jooksul viimistlemise protsess. See muudab pildi aja jooksul tekstiviipale järk-järgult lähemale, kuni müra ei kao. See on samamoodi nagu Dall-E 2.

Lõpuks veel üks lõbus funktsioon, mis Stable Diffusionil on, on "img2img". Selle käigus annate sellele viipana pildi, kirjeldate, mida soovite, ja lasete sellel kuvada korralik joonistamine.

Andsin sellele töötamiseks malli ja sain tagasi päris korraliku pildi. Olen kindel, et paremate viipade korral (minu oma on mõnevõrra vastuoluline) saaksite veelgi paremaks minna. Sellegipoolest pole see üldse halb millegi jaoks, mille valmistamine võttis mul umbes viis minutit.

Lühidalt öeldes on Stable Diffusion tasuta, seda on lihtne seadistada ja suurim probleem on selle ligipääsetavus. Kui teil pole piisavalt võimsat arvutit, peate selle kasutamise eest maksma, näiteks Dream Studio kaudu.

Craiyon

Craiyon oli varem tuntud kui DALL·E Mini, kuigi vaatamata nimele ei ole see Dall-E 2-ga seotud. See loodi OpenAI DALL·E tekstist pildiks mudeli tulemuste reprodutseerimiseks. Craiyon on avalikkusele kättesaadav ja seda saab kasutada üllatavalt korralike piltide genereerimiseks, kuigi pildid pole nii täpsed ega ka kvaliteetsed. Pildi eraldusvõime on maksimaalselt 256 x 256 ja pole ka ülesskaleerimise tööriistu.

Craiyon on täiesti tasuta kasutatav ja juurdepääsetav oma veebisaidi kaudu. Saate luua mis tahes pildi mis tahes viipa kaudu ja ainus konks on see, et piltide kvaliteet on madalam ja iga loodud pildipartii jaoks peate ootama umbes kaks minutit. Craiyon alustas avatud lähtekoodiga mudelina, mille eesmärk oli reprodutseerida esialgse DALL·E mudeli tulemusi. Praegu kasutatav mudel on tuntud kui DALL·E Mega ja see sisaldab mitmeid täiustusi.

Erinevalt teistest siinsetest võimalustest toetab Craiyoni reklaamitulu. Selle tulemusena näete tasulisi sponsorlusi ja muid reklaame nende veebisait kui külastate. Androidi nutitelefonidele on ka rakendus. See ei ole kõige keerukam, kuid see on lõbus, hõlpsasti kasutatav ja juurdepääsetav.

Craiyon – AI pildigeneraatorArendaja: Craiyon

Hind: tasuta.

3.9.

Lae alla

Dall-E 2

Dall-E 2 on OpenAI uurimislabori toode ja kõige tuntum tehisintellekti pildigeneraator, millele inimesed mõtlevad. See on suletud tööriist, millel on piiratud juurdepääs, kuid neile, kes sellele juurde pääsevad, on mõned tulemused uskumatud. Algselt suleti see sellise tööriista eetika ja ohutusega seotud probleemide tõttu, kuigi see on aja jooksul järk-järgult laienenud.

Üks Dall-E 2 suurimaid eeliseid on võime luua fotorealistlikke pilte, mis on ühe pilguga eristamatud tõelistest fotodest. See võib luua maale, pilte, mis näivad olevat jäädvustatud päris kaameratega, ja täiesti väljamõeldud stsenaariume. See kujutas endast esmakordsel väljakuulutamisel tohutut hüpet tehisintellekti võimekuses nii piltide tegemise võimes kui ka loomuliku keele töötlemises, mida tuntakse NLP-na. Seda tänu GPT-3 juurutamisele, mis on üks arenenumaid keelemudeleid ja mille autor on ka OpenAI.

Nii nagu stabiilse difusiooni puhul, on ka Dall-E 2-l võimalus olemasolevaid pilte teha ja neid käsu alusel muuta. Saate selle kaudu fotosid redigeerida, paludes sellel pildile midagi lisada või isegi paluda tal midagi eemaldada või valgustust muuta. Kuigi see loob ainult ruudukujulisi pilte, teatas OpenAI Väljamaaling eelmisel kuul, mis võib teie pilte laiendada, võttes arvesse teie ruudukujulisel pildil juba saadaoleva konteksti.

Dall-E 2 on kõigile proovimiseks saadaval.

Keskteekond

Midjourney on huvitav, kuna see on avalik platvorm, mis suudab pilte genereerida, kuigi teete seda Discordi serveri kaudu. Mitte ainult seda, vaid pärast 25 pildi loomist peate teenuse tellima, et jätkata uute piltide loomist.

Kuigi Keskteekond on siin ilmselt kõige ligipääsetavam platvorm (arvestades, et pääsete sellele juurde mis tahes seadmest, millel on Discordi konto), maksab see teile ka raha. Siiski saate sellest kvaliteetset kasu. Teenuse kasutaja Jason Allen lõi teose, mille ta nimetas "Théâtre D'opéra Spatial". Ta osales Colorado State Fairi kunstikonkursil... ja võitis.

Erinevalt nendest teistest projektidest on Midjourney patenteeritud tehisintellekti programm. Puudub lähtekood, mida saaksite vaadata, ja selle kogu eesmärk on praegusel hetkel piiratud Discordi serveris kasutamisega. Mis puudutab seda, miks see on ainult Discordi server, siis Midjourney asutaja David Holz ütles järgmist. The Verge intervjuus.

Alustasime toortehnoloogia testimist eelmise aasta septembris ja leidsime kohe väga erinevaid asju. Avastasime väga kiiresti, et enamik inimesi ei tea, mida nad tahavad. Sa ütled: "Siin on masin, millega saate kõike ette kujutada – mida sa tahad?" Ja nad ütlevad: "koer". Ja sa lähed "tõesti?" ja nad lähevad "roosa koeraks". Nii et annate neile koera pildi ja nad lähevad "okei" ja lähevad siis midagi tegema muidu.

Kui aga panna nad rühma, saavad nad "koeraks" ja kellestki teisest "kosmosekoeraks" ja kellestki teisest "asteekide kosmosekoeraks" ja siis kõik äkki mõistavad inimesed võimalusi ja te loote selle täiustatud kujutlusvõime – keskkonna, kus inimesed saavad selle uuega õppida ja mängida mahutavus. Nii leidsime, et inimestele meeldib väga koos kujutleda, ja muutsime [Midjourney] sotsiaalseks.

Sel ajal oli teil ka probleeme selle nii-öelda vaikestiilist "Midjourney" eemale juhtimisega. See on igatahes Holzi sõnul samas intervjuus.

[Meil on vaikimisi stiil ja välimus ning see on kunstiline ja ilus ning sellest on raske [modelli] eemale tõrjuda.

Sellest ajast alates on ettevõte aga välja toonud kaks uut mudelit - "test" ja "testp". "test" on üldotstarbeline mudel ja "testp" on keskendunud ainult fotorealismile. Selle tulemusena saate sellest rohkem eemale vaikimisi otsige ja genereerige soovi korral mitut tüüpi pilte.

AI-ga loodud kunsti ohud ja eetika

AI-ga loodud kunst, kuigi lahe, seab ühiskonnale laiemalt kaasa mitmeid ohte. Ajastul, kus võib olla raske öelda, kui uudised on kontekstist välja võetud või otse üles võetud väljamõeldud, tekib oht, kui mõne minutiga saab teha pilte, mis näevad välja ja tunduvad päris. Näiteks vaadake fotosid, mille genereerisin allpool. Üks loodi stabiilse difusiooni abil ja teine Craiyoniga.

Viip: "kukkunud UFO Roswellis, 1947, valgustus, armee kindral uurib, stuudio valgustus"

Ülaltoodud fotodel on kujutatud allakukkunud UFO-d Roswellis ja esimesel pildil on näha, kuidas inimene kõnnib alla kukkunud UFO otsas. Kuigi siinne pilt loodi võltsfoto näitamiseks, tundub, et see võib olla päris. Artefaktid on seletatavad sellega, et 1947. aasta fotod oleksid niikuinii olnud kehvema kvaliteediga ja mõlemad pildid võisid kiire pilguga silmaproovi läbida, et olla tõelised. Teil pole isegi ühte neist vaja parimad arvutid midagi sellist teha, kuna Craiyon on tasuta rakendus.

Veelgi häguseks läheb see, et tegelikult saate täpsustada kunstnik, kellelt soovite algoritmi inspiratsiooni ammutada. Tavaline kunstnik on Greg Rutkowski, kes on väliselt sõna võtnud oma nime kasutamise vastu tehisintellekti loodud kunstis. Tema nimi on üks levinumaid viipeid, mida piltide genereerimisel kasutatakse. "A.I. peaks elusad kunstnikud oma andmebaasist välja jätma,” Rutkowski rääkis artnet ühes intervjuus "keskenduge avalikus omandis olevatele teostele". Rutkowski nime otsimine toob sageli tagasi AI-kunsti, mis on loodud nii, et see näeks välja nagu tema töö, kuid ei ole seda tegelikult tema töö.

Veelgi hullem on see, et tehisintellekti loodud kunst võib sageli esile tuua inimrassi eelarvamusi. Craiyonil on isegi oma kodulehe KKK allosas hoiatus, milles öeldakse, et "kuna mudelit õpetati Internetist pärit filtreerimata andmetele, võib see luua pilte, mis sisaldavad kahjulikke stereotüüpe." Selle tulemusena tagastab viipade (nt "ettevõtte juht") sisestamine enamasti valgete meeste kujutised ülikonnad. Samuti toob sõna "õpetaja" sisestamine peaaegu alati klassiruumidesse tagasi.

AI-ga loodud kunsti tulevik

Arvestades, et näib, et tööstus ei aeglustu (ja regulatsioon ei jõua järele), ootame nendes valdkondades veelgi rohkem edusamme. Asjaolu, et oleme Dall-E 2 võimalustelt (isegi kui see oli privaatne) läinud stabiilse difusiooni juurde vaid mõne kuuga näitab, kui suur tööstusharu see on ja kui suur tööstus see potentsiaalselt võib olla olla. Pilte, millega võis varem sõlmida lepingu kunstnike meeskonnaga, saab nüüd luua sekunditega, kusjuures protsessi kaasatakse paranduslikel eesmärkidel üks kunstnik. Oleme juba näinud, kuidas Midjourney võib aidata teil näiteks kunstikonkursi võita, kuigi USA autoriõiguse amet praegu ütleb et te ei saa isegi AI-ga loodud pilte autoriõigusega kaitsta.

Nagu Holz ka oma intervjuus märkis, on iga mudeli koolituse praegune maksumus umbes 50 000 dollarit või rohkem. Pildid maksavad ka raha, kuna neid luuakse uskumatult võimsates serverites, eriti kui tohutul hulgal kasutajaid tuleb oma pilte looma. See muutub ruumi sisenevate uute mängijate jaoks tohutult kulukaks, mis võib omakorda mõne ettevõtte ka tegelikult ära panna. Esialgsed jõupingutused, nagu avatud lähtekoodiga Stable Diffusion, tõotavad aga head.

Selle tulemusena ootame põnevusega AI-piltide tulevikku. Ruum on viimase aasta jooksul nii kiiresti arenenud ja tundub, et iga päev tehakse uusi edusamme. Kuid pilguheitega AI-põhisele pilditöötlusele isegi meie nutitelefonidesse, järgmise aasta või paari jooksul võib palju juhtuda.