Kas ir AI attēlu ģenerators un kā tas darbojas?

AI attēlu ģeneratori pēdējā laikā ir radījuši daudz rezonanses, taču tos var būt grūti saprast. Šeit ir viss, kas jums par tiem jāzina.

2022. gadā mēs esam redzējuši, ka parādījās daži neticami teksta pārveides attēla ģeneratori. Pirmais, kas uzsāka lielo vilni, bija Dall-E 2, un Stable Diffusion ieradās neilgi vēlāk. Kopš tā laika mēs esam redzējuši arī citus rīkus, tostarp Midjourney, Craiyon un zināmā mērā pat TikTok. Pieaug bažas, kad runa ir par AI attēlu ģenerēšanas rīkiem, kas galvenokārt attiecas uz ētiku šādus rīkus, ja tie var ģenerēt reālu cilvēku attēlus vietās vai situācijās, kurās viņi patiesībā nebija iekšā.

Tomēr jāņem vērā arī ne tikai ētika. AI attēlu ģeneratori ir apmācīti miljoniem un miljoniem fotoattēlu un ir iemācījušies identificēt lietas izmantojot esošās fotogrāfijas, ko radījuši reāli cilvēki. Kad tas kļūst par autortiesību pārkāpumu? Ja jūsu AI nejauši ģenerē attēlu, kas izskatās ļoti līdzīgs citam dizainam, un šī attēla veidotājs turpina to kopīgot komerciāli, vai kāds ir atbildīgs par jebkādiem zaudējumiem? Ja jā, tad kurš? Kas šajā gadījumā vispār ir "mākslinieks"?

Ir a tonnu iemeslu dēļ jāuzmanās no AI attēlu ģeneratoriem, un šīs ētiskās un drošības problēmas tikai skrāpē virsmu. Šos rīkus var izmantot, lai izveidotu viltotus attēlus, ko var izmantot, lai virzītu stāstījumu, un laika gaitā tie arī tikai pasliktināsies. Ņemot vērā jau tagad šo attēlu ģenerēšanas rīku neticamās iespējas, ir biedējoši domāt, ko tie spēs paveikt pavisam drīz. Tomēr, ja vēlaties izveidot skaistus attēlus un izklaidēties, tas nekaitēs.

Stabila difūzija

Stabila difūzija ir šī raksta iedvesmas avots un rīks, ar kuru es spēlēju daudz nesen. Tas darbojas lokāli jūsu datorā (lai jūs necīnītos par resursiem ar citiem tiešsaistes rīka lietotājiem), un tas ir viens no jaudīgākajiem, ko pašlaik varat izmantot. Tas ne tikai ļauj precīzi noregulēt daudz parametru, bet arī kontrolēt visu ģenerēšanas procesu.

Stabilā difūzija cieš no visām tām pašām AI kļūmēm, kā arī papildu pieejamības "bīstamība". Ikviens, kam ir pietiekami jaudīgs dators, var to iestatīt un ātri darboties. Izmantojot i7-12700KF, RTX 3080, 32 GB RAM un gigabitu internetu, es varēju iestatīt stabilu difūziju un ģenerēt savus pirmos attēlus stundas laikā. Mans dators noteikti ir ieslēgts augstāks gals, bet jūs varat izvairīties no tā palaišanas vājāka aparatūra (lai gan jūs nevarat ģenerēt tik lielus attēlus ar mazāku VRAM, un tas prasīs ilgāku laiku).

Pats labākais Stable Diffusion ir tas, ka tas ir pilnībā atvērts avots. Ja vēlaties, šodien varat ieviest tam atbalstu jebkurā no saviem projektiem, un jau ir tādi spraudņi kā Alpaca, ko varat izmantot, lai integrētu ar Photoshop. Tas vēl nav ideāls, taču šo programmu izstrāde ir ļoti agrīna. Tu vari izmantot Sapņu studija vai nu, ja vēlaties, lai gan tas maksā naudu un ir nedaudz ierobežojošs salīdzinājumā ar tā iestatīšanu lokāli.

Turklāt, ja iestatāt Stable Diffusion lokāli, ir tādas dakšas kā AUTOMATIC1111 Stable Diffusion WebUI kuriem ir iebūvēts augstvērtīgs rīks, kas var palielināt izšķirtspēju līdz pat četrām reizēm. Lai gan attēlus var ģenerēt ar augstāku izšķirtspēju, bieži vien ir daudz ātrāk ģenerēt attēlu ar zemāku izšķirtspēju un pēc tam to palielināt. Visi tālāk redzamie attēli ir palielināti no mazākas izšķirtspējas.

Stabilā difūzija tika apmācīta 4000 Nvidia A100 GPU, kas darbojas AWS, un notika vairāk nekā mēnesi. Tam ir iespēja ģenerēt slavenību attēlus, un tajā ir arī iebūvēts NSFW filtrs. Šo NSFW filtru varat atspējot vietējās instalācijās, jo tas faktiski ietaupa resursus, samazinot VRAM lietojumu. Runājot par to, ko nozīmē “difūzija”, tas ir process, kas sākas ar tīru troksni un laika gaitā tiek uzlabots. Tas laika gaitā padara attēlu pakāpeniski tuvāku teksta uzvednei, līdz nepaliek nekāds troksnis. Tas ir tāds pats veids, kā Dall-E 2 darbojas.

Visbeidzot, vēl viena interesanta funkcija, kas ir Stable Diffusion, ir "img2img". Šajā gadījumā jūs piešķirat tam attēlu kā uzvedni, aprakstiet, kādu attēlu vēlaties, un pēc tam ļaujiet tam parādīt pareizi zīmējums.

Es iedevu tai veidni, ar ko strādāt, un ieguvu diezgan pienācīgu attēlu. Esmu pārliecināts, ka ar labākām uzvednēm (manējā ir nedaudz pretrunīga), jūs varētu iegūt vēl labāk. Tomēr nepavisam nav slikti par kaut ko, kura pagatavošana man prasīja apmēram piecas minūtes.

Īsāk sakot, Stable Diffusion ir bezmaksas, viegli iestatāma, un lielākā problēma ir tā, cik tā ir pieejama. Ja jums nav pietiekami jaudīga datora, jums būs jāmaksā, lai to izmantotu, piemēram, Dream Studio.

Craiyon

Craiyon iepriekš bija pazīstams kā DALL·E Mini, lai gan, neskatoties uz nosaukumu, tas nav saistīts ar Dall-E 2. Tas tika izveidots, lai reproducētu OpenAI DALL·E teksta-attēla modeļa rezultātus. Craiyon ir pieejams sabiedrībai, un to var izmantot, lai ģenerētu pārsteidzoši pienācīgus attēlus, lai gan attēli nav ne tik precīzi, ne arī tik augstas kvalitātes. Maksimālā attēla izšķirtspēja ir 256x256, un nav arī mērogošanas rīku.

Craiyon ir pilnīgi bez maksas lietojams un pieejams savā vietnē. Varat ģenerēt jebkuru attēlu, izmantojot jebkuru uzvedni, un vienīgā problēma ir tāda, ka attēli ir zemākas kvalitātes un ka jums būs jāgaida apmēram divas minūtes līdz katrai ģenerētajai attēlu grupai. Craiyon sākās kā atvērtā pirmkoda modelis, kura mērķis bija reproducēt sākotnējā DALL·E modeļa rezultātus. Tagad izmantotais modelis ir pazīstams kā DALL·E Mega, un tajā ir vairāki uzlabojumi.

Craiyon, atšķirībā no citām šeit esošajām iespējām, atbalsta ieņēmumi no reklāmām. Rezultātā jūs redzēsit apmaksātu sponsorēšanu un citas reklāmas viņu vietne kad jūs apmeklējat. Ir arī lietotne Android viedtālruņiem. Tas nav vismodernākais, taču tas ir jautrs, viegli lietojams un pieejams.

Craiyon — AI attēlu ģeneratorsIzstrādātājs: Craiyon

Cena: bezmaksas.

3.9.

Lejupielādēt

Dall-E 2

Dall-E 2 ir OpenAI pētniecības laboratorijas produkts un ir vispazīstamākais AI attēlu ģenerators, par ko cilvēki domā. Tas ir slēgts rīks ar ierobežotu piekļuvi, taču tiem, kas tam var piekļūt, daži rezultāti, ko tas var sniegt, ir neticami. Sākotnēji tas tika slēgts, jo bija bažas par šāda rīka ētiku un drošību, lai gan laika gaitā tas ir pakāpeniski paplašinājies.

Viena no lielākajām Dall-E 2 priekšrocībām ir iespēja radīt fotoreālistiskus attēlus, kas vienā mirklī nav atšķirami no īstām fotogrāfijām. Tas var radīt gleznas, attēlus, kas, šķiet, ir uzņemti ar īstām kamerām, un pilnībā izdomātus scenārijus. Kad tas pirmo reizi tika paziņots, tas atspoguļoja milzīgu MI iespēju pieaugumu gan attēlu veidošanas spējās, gan dabiskās valodas apstrādē, kas pazīstama kā NLP. Tas ir saistīts ar GPT-3 ieviešanu, kas ir viens no vismodernākajiem valodu modeļiem un kura autors ir arī OpenAI.

Tāpat kā ar stabilu difūziju, Dall-E 2 ir arī sava iespēja uzņemt esošos attēlus un modificēt tos, pamatojoties uz uzvedni. Izmantojot to, varat rediģēt fotoattēlus, lūdzot tam kaut ko pievienot attēlam vai pat lūgt kaut ko noņemt vai mainīt apgaismojumu. Lai gan tas rada tikai kvadrātveida attēlus, paziņoja OpenAI Izkrāsošana pagājušajā mēnesī, kas var paplašināt jūsu attēlus, ņemot vērā kontekstu ar to, kas jau ir pieejams jūsu kvadrātveida attēlā.

Dall-E 2 ir pieejams ikvienam izmēģināt.

Pusceļš

Midjourney ir interesants, jo tā ir publiska platforma, kas var ģenerēt attēlus, lai gan jūs to darāt, izmantojot Discord serveri. Ne tikai tas, bet arī pēc 25 attēlu ģenerēšanas jums būs jāabonē pakalpojums, lai turpinātu jaunu attēlu ģenerēšanu.

Kamēr Pusceļš iespējams, šeit ir vispieejamākā platforma (ņemot vērā, ka varat tai piekļūt no jebkuras ierīces ar Discord kontu), tas arī maksā naudu. Tomēr jūs no tā iegūstat kvalitāti. Pakalpojuma lietotājs Džeisons Alens izveidoja skaņdarbu, ko nosauca par "Théâtre D'opera Spatial". Viņš to pieteica Colorado State Fair mākslas konkursā... un uzvarēja.

Atšķirībā no šiem citiem projektiem, Midjourney ir patentēta mākslīgā intelekta programma. Nav avota koda, ko varat apskatīt, un viss tā mērķis šobrīd ir ierobežots ar izmantošanu Discord serverī. Runājot par to, kāpēc tas ir tikai Discord serveris, Deivids Holcs, Midjourney dibinātājs, sacīja: The Verge kādā intervijā.

Mēs sākām testēt neapstrādāto tehnoloģiju pagājušā gada septembrī, un mēs uzreiz atradām patiešām dažādas lietas. Mēs ļoti ātri atklājām, ka lielākā daļa cilvēku nezina, ko viņi vēlas. Jūs sakāt: "Šeit ir mašīna, ar kuru jūs varat iedomāties jebko — ko jūs vēlaties?" Un viņi saka: "suns". Un tu ej "tiešām?" un viņi kļūst par "rozā suni". Tātad jūs viņiem iedodat suņa attēlu, un viņi iet “labi” un tad iet kaut ko darīt cits.

Savukārt, ja jūs tos ievietosit grupā, viņi kļūs par “suni”, kāds cits kļūs par “kosmosa suni”, bet kāds cits kļūs par “acteku kosmosa suni”, un tad viss pēkšņi cilvēki saprot iespējas, un jūs veidojat šo paplašināto iztēli — vidi, kurā cilvēki var mācīties un spēlēt ar šo jauno. jaudu. Tātad mēs atklājām, ka cilvēkiem ļoti patīk iztēloties kopā, un tāpēc mēs [Midjourney] padarījām sabiedrisku.

Toreiz jums bija arī grūtības novirzīt to no noklusējuma “vidusceļa” stila, tā teikt. Jebkurā gadījumā tas ir saskaņā ar Holca teikto tajā pašā intervijā.

[Mums] ir noklusējuma stils un izskats, un tas ir māksliniecisks un skaists, un [modeli] ir grūti no tā atstumt.

Tomēr kopš tā laika uzņēmums ir izlaidis divus jaunus modeļus - "test" un "testp". "tests" ir vispārējas nozīmes modelis, un "testp" ir vērsts tikai uz fotoreālismu. Tā rezultātā jūs varēsit vairāk atbrīvoties no tā noklusējuma Ja vēlaties, skatiet un ģenerējiet vairāku veidu attēlus.

AI radītās mākslas briesmas un ētika

AI radītā māksla, lai arī tā ir forša, rada vairākas briesmas sabiedrībai kopumā. Laikmetā, kad var būt grūti pateikt, kad ziņas tiek izņemtas no konteksta vai tiešā veidā izdomāts, pastāv briesmas, ja dažu minūšu laikā var izveidot attēlus, kas izskatās un jūtas īsts. Piemēram, apskatiet zemāk esošos fotoattēlus. Viens tika ģenerēts, izmantojot Stable Diffusion, bet otrs tika ģenerēts ar Craiyon.

Uzvedne: "Avarējis NLO Rosvelā, 1947, apgaismojums, armijas ģenerālis izmeklēšana, studijas apgaismojums"

Iepriekš redzamajās fotogrāfijās ir attēlots avarējis NLO Rosvelā, un pirmajā attēlā redzams, kā cilvēks staigā virsū avarējušajam NLO. Lai gan šeit esošais attēls tika ģenerēts, lai parādītu viltotu fotoattēlu, šķiet, ka tas varētu būt īsts. Jebkurus artefaktus var izskaidrot ar to, ka 1947. gadā uzņemtajām fotogrāfijām tik un tā būtu bijusi sliktāka kvalitāte, un abi attēli varētu izturēt redzes pārbaudi, īsi uzmetot skatienu, vai tie ir īsti. Jums pat nevajag vienu no labākie datori lai darītu kaut ko līdzīgu šim, jo Craiyon ir bezmaksas lietojumprogramma.

Tas kļūst vēl drūmāks, ka jūs faktiski varat norādīt mākslinieks, no kura vēlaties, lai algoritms smeltos iedvesmu. Izplatīts mākslinieks ir Gregs Rutkovskis, kurš ārēji ir iebildis pret sava vārda izmantošanu mākslīgā intelekta radītajā mākslā. Viņa vārds ir viens no visizplatītākajiem pamudinājumiem, ko izmanto attēlu veidošanā. “A.I. vajadzētu izslēgt no savas datu bāzes dzīvos māksliniekus,” Rutkovskis stāstīja Artnet intervijā "koncentrējieties uz darbiem, kas ir publiski pieejami". Meklējot pēc Rutkovska vārda, bieži tiek atgriezta mākslīgā intelekta māksla, kas ir ģenerēta, lai izskatītos pēc viņa darba, bet tā nav patiesībā viņa darbs.

Vēl sliktāk ir tas, ka mākslīgā intelekta radītā māksla bieži var izcelt cilvēku rases aizspriedumus. Kreijonam pat ir brīdinājums FAQ sākumlapas apakšā, norādot, ka "tā kā modelis tika apmācīts par nefiltrētiem datiem no interneta, tas var ģenerēt attēlus, kas satur kaitīgus stereotipus." Rezultātā, ievadot uzvednes, piemēram, "uzņēmuma vadītājs", visbiežāk tiks atgriezti balto vīriešu attēli uzvalki. Tāpat, ievadot vārdu "skolotājs" kā uzvedni, sievietes gandrīz vienmēr atgriezīsies klasēs.

AI radītās mākslas nākotne

Ņemot vērā to, ka šķiet, ka nozare nepalēninās (un regulējums netuvojas), mēs sagaidām, ka šajās jomās būs vēl lielāka attīstība. Fakts, ka mēs esam pārgājuši no Dall-E 2 iespējām (pat ja tas bija privāts) uz Stable Diffusion tikai dažos mēnešos parāda, cik liela šī nozare ir un cik liela nozare tā var būt būt. Attēlus, par kuriem iepriekš varēja noslēgt līgums ar mākslinieku komandu, tagad var ģenerēt dažu sekunžu laikā, un korekcijas nolūkos procesā tiek iesaistīts viens mākslinieks. Mēs jau esam redzējuši, kā Midjourney var palīdzēt jums uzvarēt mākslas konkursā, piemēram, lai gan ASV Autortiesību birojs šobrīd saka ka jūs pat nevarat aizsargāt AI radītos attēlus.

Kā Holcs arī norādīja savā intervijā, pašreizējās katra modeļa apmācības izmaksas ir aptuveni 50 000 USD vai vairāk. Attēli arī maksā naudu, jo tie tiek ģenerēti uz neticami ietilpīgiem serveriem, it īpaši, ja liels skaits lietotāju nāk, lai ģenerētu savus attēlus. Tas būs ļoti dārgs visiem jauniem spēlētājiem, kas ienāks telpā, kas savukārt var atbaidīt arī dažus uzņēmumus. Tomēr sākotnējie centieni, piemēram, Stable Diffusion ir atvērtā koda izmantošana, liecina par labu.

Tā rezultātā mēs ar nepacietību gaidīsim, lai redzētu AI attēlu nākotni. Pēdējā gada laikā telpa ir tik ātri attīstījusies, un šķiet, ka katru dienu tiek veikti jauni sasniegumi. Tomēr, ņemot vērā uz AI balstītas attēlu manipulācijas pat nonākot mūsu viedtālruņos, daudz kas varētu notikt tuvākā gada vai divu laikā.