Ce este un generator de imagini AI și cum funcționează?

Generatoarele de imagini AI au creat o mulțime de zgomot recent, dar pot fi greu de înțeles. Iată tot ce trebuie să știi despre ei.

În 2022, am văzut apariția unor generatoare incredibile de text în imagine. Primul care a declanșat valul mare a fost Dall-E 2, cu Stable Diffusion sosind puțin mai târziu. De atunci, am văzut că au sosit și alte instrumente, inclusiv Midjourney, Craiyon și chiar și TikTok într-o anumită măsură. Există preocupări din ce în ce mai mari când vine vorba de instrumentele de generare de imagini AI, legate în primul rând de etica astfel de instrumente atunci când pot genera imagini cu oameni reali în locuri sau situații în care nu erau de fapt în.

Cu toate acestea, nu trebuie luate în considerare doar etica. Generatorii de imagini AI sunt instruiți pe milioane și milioane de fotografii și au învățat să identifice lucruri prin intermediul fotografiilor existente reale create de oameni reali. Când devine o încălcare a drepturilor de autor? Dacă AI-ul dvs. generează accidental o imagine care arată foarte asemănătoare cu un alt design, iar creatorul acelei imagini continuă să o distribuie comercial, este cineva răspunzător pentru orice daune? Dacă da, cine? Cine este chiar „artistul” în acest caz?

Există o tonă de motive pentru a fi atenți la generatorii de imagini AI, iar aceste preocupări etice și de siguranță nu fac decât să zgârie suprafața. Aceste instrumente pot fi folosite pentru a crea imagini false care pot fi folosite pentru a împinge o narațiune și se vor înrăutăți și cu timpul. Având în vedere capabilitățile incredibile ale acestor instrumente de generare de imagini deja, este înfricoșător să ne gândim la ce vor fi capabili să facă foarte curând. Cu toate acestea, dacă doriți să faceți imagini frumoase și să vă distrați, atunci nu este absolut nimic rău în asta.

Difuzie stabilă

Stable Diffusion este inspirația din spatele acestui articol și un instrument cu care m-am jucat a lot recent. Se rulează local pe computerul dvs. (deci nu vă luptați pentru resurse cu alți utilizatori ai unor instrumente online) și este unul dintre cele mai puternice pe care le puteți utiliza în prezent. Nu numai că vă permite să reglați o mulțime de parametri, dar puteți și controla întregul proces de generare.

Stable Diffusion suferă de toate aceleași capcane ale AI, cu „pericolul” adăugat al accesibilității. Oricine are un computer suficient de puternic îl poate configura și îl poate rula rapid. Cu un i7-12700KF, un RTX 3080, 32 GB de RAM și internet gigabit, am reușit să configurez Stable Diffusion și să generez primele mele imagini într-o oră. PC-ul meu este cu siguranță pe capăt superior, dar poți scăpa cu el rulând hardware mai slab (deși nu puteți genera imagini la fel de mari cu vRAM mai scăzută și va dura mai mult).

Cel mai bun lucru despre Stable Diffusion este că este în întregime open source. Puteți implementa suport pentru acesta în oricare dintre proiectele dvs. astăzi, dacă doriți, și există deja pluginuri precum Alpaca pe care le puteți utiliza pentru a integra cu Photoshop. Nu este încă perfect, dar este extrem de devreme în dezvoltarea acestor programe. Poți să folosești Studioul de vis fie dacă doriți, deși costă bani și este puțin restrictiv față de configurarea locală.

În plus, dacă configurați Stable Diffusion local, există furci precum Interfața WebUI de difuzie stabilă a lui AUTOMATIC1111 care vin cu un instrument de lux încorporat care poate crește rezoluția de până la patru ori mai mare. Deși puteți genera imagini la rezoluții mai mari, este adesea mult mai rapid să generați o imagine la o rezoluție mai mică și apoi să o măriți. Toate imaginile de mai jos sunt mărite de la rezoluții mai mici.

Stable Diffusion a fost antrenat pe un cluster de 4.000 de GPU-uri Nvidia A100 care rulează în AWS și a avut loc peste o lună. Are capacitatea de a genera imagini cu celebrități și are, de asemenea, un filtru NSFW încorporat. Puteți dezactiva acest filtru NSFW pe instalările locale, deoarece economisește resurse prin scăderea utilizării VRAM. Cât despre ce înseamnă „difuziune”, este procesul de a începe cu zgomot pur și de a rafina în timp. De-a lungul timpului, imaginea se apropie treptat de mesajul text, până când nu mai rămâne niciun zgomot. Acesta este același mod în care funcționează Dall-E 2.

În cele din urmă, o altă caracteristică distractivă pe care Stable Diffusion o are este „img2img”. În aceasta, îi oferiți o imagine ca un prompt, descrieți ceea ce doriți să fie imaginea și apoi lăsați-o să vă ofere o potrivit desen.

I-am dat un șablon cu care să lucrez și am obținut o imagine destul de decentă. Sunt sigur că cu îndemnuri mai bune (al meu este oarecum contradictoriu), ai putea deveni și mai buni. Totuși, nu e deloc rău pentru ceva care mi-a luat aproximativ cinci minute să-l fac.

Pe scurt, Stable Diffusion este gratuit, ușor de configurat, iar cea mai mare problemă este cât de accesibilă este. Dacă nu aveți un computer suficient de puternic, va trebui să plătiți pentru a-l folosi prin Dream Studio.

creion

Craiyon era cunoscut anterior ca DALL·E Mini, deși, în ciuda numelui, nu are nicio legătură cu Dall-E 2. A fost creat pentru a reproduce rezultatele modelului DALL·E text-to-image de la OpenAI. Craiyon este disponibil publicului și poate fi folosit pentru a genera imagini surprinzător de decente, deși imaginile nu sunt la fel de precise și nici la fel de înalte. Rezoluțiile imaginii sunt maxime la 256x256 și nu există nici instrumente de upscaling.

Craiyon este complet gratuit de utilizat și accesibil prin intermediul site-ului său web. Puteți genera orice imagine prin orice prompt, iar singura problemă este că imaginile sunt de calitate inferioară și că va trebui să așteptați aproximativ două minute pentru fiecare lot de imagini generat. Craiyon a început ca un model open-source menit să reproducă rezultatele modelului inițial DALL·E. Modelul utilizat acum este cunoscut sub numele de DALL·E Mega și are câteva îmbunătățiri.

Craiyon, spre deosebire de celelalte opțiuni de aici, este susținut de veniturile din reclamă. Drept urmare, veți vedea sponsorizări plătite și alte reclame pe site-ul lor când vizitezi. Există și o aplicație pentru smartphone-uri Android. Nu este cel mai sofisticat, dar este distractiv, ușor de utilizat și accesibil.

Craiyon - Generator de imagini AIDezvoltator: creion

Pret: Gratuit.

3.9.

Descarca

Dall-E 2

Dall-E 2 este un produs al laboratorului de cercetare OpenAI și este cel mai cunoscut generator de imagini AI la care se gândesc oamenii. Este un instrument închis, cu acces limitat, dar pentru cei care îl pot accesa, unele dintre rezultatele pe care le poate obține sunt incredibile. A fost inițial închisă din cauza preocupărilor legate de etica și siguranța unui astfel de instrument, deși s-a extins treptat în timp.

Unul dintre cele mai mari avantaje pe care le are Dall-E 2 este capacitatea de a crea imagini fotorealiste care, dintr-o privire, nu se disting din fotografiile reale. Poate genera picturi, imagini care par să fi fost surprinse pe camere reale și scenarii complet inventate. A reprezentat un salt uriaș în capacitățile AI atunci când a fost anunțat pentru prima dată, atât în abilitățile sale de a face imagini, cât și în procesarea limbajului natural, cunoscut sub numele de NLP. Acest lucru se datorează implementării GPT-3, care este unul dintre cele mai avansate modele de limbaj și este, de asemenea, creat de OpenAI.

La fel ca în cazul Stable Diffusion, Dall-E 2 are, de asemenea, propria capacitate de a prelua imagini existente și de a le modifica pe baza unui prompt. Puteți edita fotografii prin intermediul acestuia, cerându-i să adauge ceva la o imagine sau chiar să îi cereți să elimine ceva sau să schimbe iluminarea. Deși creează doar imagini pătrate, a anunțat OpenAI Outpictura luna trecută, care vă poate extinde imaginile mai larg, ținând cont de contextul a ceea ce este deja disponibil în imaginea dvs. pătrată.

Dall-E 2 este disponibil pentru încercarea tuturor.

Mijlocul călătoriei

Midjourney este una interesantă, deoarece este o platformă publică care poate genera imagini, deși o faci printr-un server Discord. Nu numai atât, dar după ce generați 25 de imagini, va trebui să vă abonați la serviciu pentru a continua să generați altele noi.

In timp ce Mijlocul călătoriei este probabil cea mai accesibilă platformă de aici (având în vedere că o poți accesa de pe orice dispozitiv cu cont Discord), te costă și bani. Cu toate acestea, obțineți calitate din ea. Un utilizator al serviciului, Jason Allen, a creat o piesă pe care a numit-o „Théâtre D'opéra Spatial”. El a participat la concursul de artă din Colorado State Fair... si a castigat.

Spre deosebire de aceste alte proiecte, Midjourney este un program proprietar de inteligență artificială. Nu există niciun cod sursă la care să vă puteți uita și întregul său scop în acest moment este limitat la utilizarea pe un server Discord. În ceea ce privește motivul pentru care este doar un server Discord, David Holz, fondatorul Midjourney, a spus următoarele The Verge într-un interviu.

Am început să testăm tehnologia brută în septembrie anul trecut și am găsit imediat lucruri cu adevărat diferite. Am descoperit foarte repede că majoritatea oamenilor nu știu ce vor. Spuneți: „Iată o mașină pe care îți poți imagina orice cu ea – ce vrei?” Și ei spun: „câine”. Și tu du-te "într-adevăr?" și se numesc „câine roz”. Așa că le dai o poză cu un câine și ei merg „bine” și apoi merg să facă ceva altfel.

În timp ce, dacă îi puneți într-un grup, ei vor deveni „câine”, iar altcineva va deveni „câine spațial”, iar altcineva va deveni „câine spațial aztec”, apoi toți. dintr-o dată, oamenii înțeleg posibilitățile, iar tu creezi această imaginație sporită - un mediu în care oamenii pot învăța și se pot juca cu acest nou capacitate. Așa că am descoperit că oamenilor le place foarte mult să-și imagineze împreună și așa am făcut [Midjourney] social.

Pe atunci, ați avea, de asemenea, probleme în a-l îndepărta de stilul implicit „Midjourney”, ca să spunem așa. Asta e în opinia Holz, oricum, în același interviu.

[Avem un stil și un aspect implicit, și este artistic și frumos, și este greu să împingi [modelul] de la asta.

Cu toate acestea, de atunci, compania a lansat două modele noi -- „test” și „testp”. „test” este un model de uz general, iar „testp” se concentrează exclusiv pe fotorealism. Drept urmare, vei putea scăpa mai mult de asta Mod implicit căutați și generați imagini de mai multe tipuri, dacă doriți.

Pericolele și etica artei generate de AI

Arta generată de AI, deși cool, impune o serie de pericole asupra societății în general. Într-o epocă în care poate fi greu de spus uneori când știrile sunt scoase din context sau direct fabricate, există pericolul când imaginile pot fi realizate în câteva minute, care arată și simt real. De exemplu, aruncați o privire la fotografiile pe care le-am generat mai jos. Unul a fost generat folosind Stable Diffusion, iar celălalt a fost generat cu Craiyon.

Solicitare: „OZN prăbușit la Roswell, 1947, iluminat, investigație generală de armată, iluminat studio”

Fotografiile de mai sus înfățișează un OZN prăbușit la Roswell, iar prima imagine arată ceea ce arată ca o persoană mergând deasupra OZN-ului prăbușit. În timp ce imaginea de aici a fost generată cu scopul de a afișa o fotografie falsă, se pare că ar putea fi reală. Orice artefacte poate fi explicată prin faptul că fotografiile din 1947 ar fi fost oricum de o calitate mai slabă și ambele imagini ar putea trece testul ochilor dintr-o privire rapidă pentru a fi reale. Nici măcar nu ai nevoie de unul dintre cele mai bune calculatoare pentru a face așa ceva, deoarece Craiyon este o aplicație gratuită.

Unde devine și mai tulbure este că poți de fapt specifica un artist de la care vrei să se inspire algoritmul. Un artist obișnuit este Greg Rutkowski, care a vorbit în mod exterior împotriva folosirii numelui său în arta generată de AI. Numele său este unul dintre cele mai frecvente indicații utilizate în generarea de imagini. „A.I. ar trebui să excludă artiștii în viață din baza sa de date”, Rutkowski spuse artnet într-un interviu, „concentrați-vă pe lucrări din domeniul public”. Căutarea numelui lui Rutkowski va returna adesea artă AI care a fost generată pentru a arăta ca opera lui, dar nu este de fapt Munca lui.

Și mai rău este că arta generată de AI poate evidenția adesea părtinirile rasei umane. Craiyon are chiar și un avertisment în partea de jos a paginii sale de pornire în Întrebări frecvente, care afirmă că „deoarece modelul a fost antrenat pe date nefiltrate de pe Internet, poate generați imagini care conțin stereotipuri dăunătoare.” Ca rezultat, introducerea unor solicitări precum „directorul companiei” va returna cel mai adesea imagini cu bărbați albi în costume. De asemenea, introducerea „profesorului” ca promptă va aduce aproape întotdeauna femeile în sălile de clasă.

Viitorul artei generate de IA

Având în vedere că se pare că industria nu încetinește (și reglementările nu ajung din urmă), ne așteptăm să vedem și mai multe progrese în aceste domenii. Faptul că am trecut de la capacitățile lui Dall-E 2 (chiar dacă era privat) la Stable Diffusion în doar câteva luni arată cât de mare este aceasta industrie și cât de mare poate fi o industrie fi. Imaginile care ar fi putut fi contractate anterior unei echipe de artiști pot fi acum generate în câteva secunde, un singur artist fiind implicat în proces în scopuri corective. Am văzut deja cum Midjourney vă poate ajuta să câștigați un concurs de artă, de exemplu, deși Biroul pentru Drepturi de Autor din S.U.A. spune in prezent că nici măcar nu poți drepturi de autor asupra imaginilor generate de AI.

După cum a afirmat și Holz în interviul său, costul actual al antrenării fiecărui model este de aproximativ 50.000 USD -- sau mai mult. Imaginile costă, de asemenea, bani, deoarece sunt generate pe servere incredibil de robuste, mai ales când un număr mare de utilizatori vin să-și genereze propriile imagini. Va fi extrem de prohibitiv din punct de vedere al costurilor pentru orice jucător nou care intră în spațiu, ceea ce poate, la rândul său, să îndepărteze și unele companii. Cu toate acestea, eforturile inițiale, cum ar fi Stable Diffusion, ca sursă deschisă, sunt de bun augur.

Drept urmare, vom aștepta cu entuziasm să vedem viitorul imaginilor AI. Spațiul a evoluat atât de repede în ultimul an și se pare că zilnic se fac noi progrese. Cu toate acestea, cu scărcări ale manipulării imaginilor bazate pe AI chiar venind pe smartphone-urile noastre, sunt multe care s-ar putea întâmpla în următorul an sau doi.