Cos'è un generatore di immagini AI e come funziona?

I generatori di immagini AI hanno creato molto clamore di recente, ma potrebbero essere difficili da capire. Ecco tutto ciò che devi sapere su di loro.

Nel 2022 abbiamo visto l'avvento di alcuni incredibili generatori di testo in immagini. Il primo a scatenare la grande ondata è stato Dall-E 2, con Stable Diffusion che è arrivato poco dopo. Da allora, abbiamo visto arrivare anche altri strumenti, tra cui Midjourney, Craiyon e persino TikTok in una certa misura. Ci sono crescenti preoccupazioni quando si tratta di strumenti di generazione di immagini AI, che riguardano principalmente l'etica di tali strumenti quando possono generare immagini di persone reali in luoghi o situazioni che in realtà non erano In.

Tuttavia, non c'è solo l'etica da considerare. I generatori di immagini AI sono addestrati su milioni e milioni di foto e hanno imparato a identificare cose tramite foto reali esistenti create da persone reali. Quando diventa una violazione del copyright? Se la tua intelligenza artificiale genera accidentalmente un'immagine che sembra molto simile a un altro design e il creatore di quell'immagine continua a condividerla commercialmente, qualcuno è responsabile di eventuali danni? Se sì, chi? Chi è anche l '"artista" in questo caso?

Ci sono tonnellata di motivi per diffidare dei generatori di immagini AI, e queste preoccupazioni etiche e di sicurezza stanno solo grattando la superficie. Questi strumenti possono essere utilizzati per creare immagini false che possono essere utilizzate per spingere una narrazione e peggioreranno anche con il tempo. Date già le incredibili capacità di questi strumenti di generazione di immagini, è spaventoso pensare a cosa saranno in grado di fare molto presto. Tuttavia, se vuoi creare belle immagini e divertirti, non c'è assolutamente nulla di male in questo.

Diffusione stabile

Stable Diffusion è l'ispirazione alla base di questo articolo e uno strumento con cui ho giocato a quantità recentemente. Funziona localmente sul tuo computer (quindi non stai combattendo per le risorse con altri utenti di qualche strumento online) ed è uno dei più potenti che puoi attualmente utilizzare. Non solo ti consente di mettere a punto un sacco di parametri, ma puoi anche controllare l'intero processo di generazione.

Stable Diffusion soffre di tutte le stesse insidie dell'IA, con l'ulteriore "pericolo" dell'accessibilità. Chiunque disponga di un computer abbastanza potente può configurarlo e farlo funzionare rapidamente. Con un i7-12700KF, un RTX 3080, 32 GB di RAM e Internet gigabit, sono stato in grado di configurare Stable Diffusion e generare le mie prime immagini in un'ora. Il mio PC è sicuramente sul fascia più alta, ma puoi cavartela con l'esecuzione hardware più debole (anche se non puoi generare immagini di grandi dimensioni con vRAM inferiore e ci vorrà più tempo).

La cosa migliore di Stable Diffusion è che è interamente open source. Puoi implementare il supporto per esso in qualsiasi tuo progetto oggi, se lo desideri, e ci sono già plug-in come Alpaca che puoi utilizzare per l'integrazione con Photoshop. Non è ancora perfetto, ma è all'inizio dello sviluppo di questi programmi. Puoi usare Atelier dei sogni o se lo desideri, anche se questo costa denaro ed è un po 'restrittivo rispetto all'impostazione locale.

Inoltre, se imposti Stable Diffusion localmente, ci sono fork come WebUI a diffusione stabile di AUTOMATIC1111 che vengono forniti con uno strumento di alto livello integrato che può aumentare la risoluzione fino a quattro volte superiore. Sebbene sia possibile generare immagini a risoluzioni più elevate, spesso è molto più rapido generare un'immagine a una risoluzione inferiore e quindi eseguirne l'upscaling. Tutte le immagini sottostanti sono ingrandite da risoluzioni inferiori.

Stable Diffusion è stato addestrato su un cluster di 4.000 GPU Nvidia A100 in esecuzione in AWS e si è svolto nell'arco di un mese. Ha la capacità di generare immagini di celebrità e ha anche un filtro NSFW integrato. È possibile disabilitare questo filtro NSFW sulle installazioni locali, poiché in realtà consente di risparmiare risorse diminuendo l'utilizzo della VRAM. Per quanto riguarda il significato di "Diffusione", è il processo che parte dal rumore puro e si affina nel tempo. Rende l'immagine sempre più vicina al messaggio di testo nel tempo fino a quando non viene lasciato alcun rumore. Questo è lo stesso modo in cui funziona Dall-E 2.

Infine, un'altra caratteristica divertente di Stable Diffusion è "img2img". In questo, gli dai un'immagine come suggerimento, descrivi cosa vuoi che sia l'immagine e poi lascia che ti dia un corretto disegno.

Gli ho dato un modello con cui lavorare e ho ottenuto un'immagine abbastanza decente. Sono sicuro che con suggerimenti migliori (il mio è in qualche modo contraddittorio), potresti migliorare ancora. Comunque, niente male per qualcosa che mi ci sono voluti circa cinque minuti per fare.

In breve, Stable Diffusion è gratuito, facile da configurare e il problema più grande è quanto sia accessibile. Se non disponi di un PC abbastanza potente, dovrai pagare per utilizzarlo tramite strumenti come Dream Studio.

Crayon

Craiyon era precedentemente noto come DALL·E Mini, anche se, nonostante il nome, non ha alcuna relazione con Dall-E 2. È stato creato per riprodurre i risultati del modello testo-immagine DALL·E di OpenAI. Craiyon è disponibile al pubblico e può essere utilizzato per generare immagini sorprendentemente decenti, sebbene le immagini non siano così accurate, né di alta qualità. Le risoluzioni delle immagini arrivano al massimo a 256x256 e non ci sono nemmeno strumenti di upscaling.

Craiyon è completamente gratuito e accessibile attraverso il suo sito web. Puoi generare qualsiasi immagine tramite qualsiasi prompt e l'unico problema è che le immagini sono di qualità inferiore e che dovrai attendere circa due minuti per ogni batch di immagini generate. Craiyon è nato come modello open-source volto a riprodurre i risultati del modello DALL·E iniziale. Il modello attualmente in uso è noto come DALL·E Mega e presenta diversi miglioramenti.

Craiyon, a differenza delle altre opzioni qui, è supportato dalle entrate pubblicitarie. Di conseguenza, vedrai sponsorizzazioni a pagamento e altri annunci pubblicitari il loro sito web quando visiti. C'è anche un'app per smartphone Android. Non è il più sofisticato, ma è divertente, facile da usare e accessibile.

Craiyon - Generatore di immagini AISviluppatore: Crayon

Prezzo: gratuito.

3.9.

Scaricamento

Dall-Mi 2

Dall-E 2 è un prodotto del laboratorio di ricerca OpenAI ed è il generatore di immagini AI più noto a cui la gente pensa. È uno strumento chiuso con accesso limitato, ma per coloro che possono accedervi, alcuni dei risultati che può ottenere sono incredibili. Inizialmente è stato chiuso a causa delle preoccupazioni relative all'etica e alla sicurezza di tale strumento, sebbene si sia ampliato gradualmente nel tempo.

Uno dei maggiori vantaggi di Dall-E 2 è la capacità di creare immagini fotorealistiche che, a prima vista, sono indistinguibili dalle fotografie reali. Può generare dipinti, immagini che sembrano essere state catturate da vere telecamere e scenari interamente inventati. Ha rappresentato un enorme salto nelle capacità dell'IA quando è stato annunciato per la prima volta, sia nelle sue capacità di creare immagini che nella sua elaborazione del linguaggio naturale, nota come PNL. Questo grazie alla sua implementazione di GPT-3, che è uno dei modelli linguistici più avanzati là fuori ed è anche creato da OpenAI.

Proprio come con Stable Diffusion, anche Dall-E 2 ha la sua capacità di prendere immagini esistenti e modificarle in base a un prompt. Puoi modificare le foto attraverso di esso chiedendogli di aggiungere qualcosa a un'immagine o persino chiedergli di rimuovere qualcosa o di cambiare l'illuminazione. Sebbene crei solo immagini quadrate, ha annunciato OpenAI Verniciatura il mese scorso che può espandere ulteriormente le tue immagini, tenendo conto del contesto di ciò che è già disponibile nella tua immagine quadrata.

Dall-Mi 2 è disponibile per tutti da provare.

A metà viaggio

Midjourney è interessante in quanto è una piattaforma pubblica in grado di generare immagini, anche se lo fai tramite un server Discord. Non solo, ma dopo aver generato 25 immagini, dovrai iscriverti al servizio per continuare a generarne di nuove.

Mentre A metà viaggio è probabilmente la piattaforma più accessibile qui (dato che puoi accedervi da qualsiasi dispositivo con un account Discord), ti costa anche denaro. Tuttavia, ottieni qualità da esso. Un utente del servizio, Jason Allen, ha creato un pezzo che ha soprannominato "Théâtre D'opéra Spatial". L'ha iscritto al concorso artistico della Colorado State Fair... e vinto.

A differenza di questi altri progetti, Midjourney è un programma di intelligenza artificiale proprietario. Non esiste un codice sorgente che puoi esaminare e il suo intero scopo in questo momento è limitato all'utilizzo all'interno di un server Discord. Per quanto riguarda il motivo per cui è solo un server Discord, David Holz, fondatore di Midjourney, ha dichiarato quanto segue a Il limite in un colloquio.

Abbiamo iniziato a testare la tecnologia grezza a settembre dello scorso anno e abbiamo subito trovato cose davvero diverse. Abbiamo scoperto molto rapidamente che la maggior parte delle persone non sa cosa vuole. Dici: "Ecco una macchina con cui puoi immaginare qualsiasi cosa - cosa vuoi?" E dicono: "cane". E tu vai "Veramente?" e loro fanno "cane rosa". Quindi dai loro la foto di un cane, e loro dicono "okay" e poi vanno a fare qualcosa altro.

Considerando che se li metti in un gruppo, diranno "cane" e qualcun altro "cane spaziale" e qualcun altro diventerà "cane spaziale azteco", e poi tutto a all'improvviso, le persone comprendono le possibilità e tu stai creando questa immaginazione aumentata, un ambiente in cui le persone possono imparare e giocare con questo nuovo capacità. Quindi abbiamo scoperto che alle persone piace davvero immaginare insieme, e così abbiamo reso [Midjourney] social.

A quel tempo, avresti anche avuto problemi a deviarlo dallo stile predefinito "Midjourney", per così dire. Questo è secondo Holz, comunque, nella stessa intervista.

[Abbiamo] uno stile e un aspetto predefiniti, ed è artistico e bello, ed è difficile allontanare [il modello] da quello.

Tuttavia, da allora, l'azienda ha lanciato due nuovi modelli: "test" e "testp". "test" è un modello generico e "testp" si concentra esclusivamente sul fotorealismo. Di conseguenza, sarai in grado di allontanarti di più da quello predefinito guarda e genera immagini di più tipi, se lo desideri.

I pericoli e l'etica dell'arte generata dall'intelligenza artificiale

L'arte generata dall'intelligenza artificiale, sebbene interessante, impone una serie di pericoli alla società in generale. In un'epoca in cui può essere difficile dire a volte quando le notizie vengono estrapolate dal contesto o direttamente fabbricato, c'è un pericolo quando le immagini possono essere realizzate in pochi minuti che sembrano e si sentono vero. Ad esempio, dai un'occhiata alle foto che ho generato di seguito. Uno è stato generato utilizzando Stable Diffusion e l'altro è stato generato con Craiyon.

Prompt: "UFO precipitato a Roswell, 1947, illuminazione, generale dell'esercito che indaga, illuminazione dello studio"

Le foto sopra raffigurano un UFO precipitato a Roswell e la prima immagine mostra quella che sembra una persona che cammina sopra l'UFO precipitato. Mentre l'immagine qui è stata generata allo scopo di mostrare una foto falsa, sembra che potrebbe essere reale. Eventuali artefatti possono essere spiegati dal fatto che le foto nel 1947 sarebbero state comunque di qualità inferiore, ed entrambe le immagini potrebbero superare il test della vista a una rapida occhiata per essere reali. Non hai nemmeno bisogno di uno dei migliori computer per fare qualcosa del genere, poiché Craiyon è un'applicazione gratuita.

Dove diventa ancora più oscuro è che puoi effettivamente specificare un artista da cui vuoi che l'algoritmo prenda ispirazione. Un artista comune è Greg Rutkowski, che si è espresso apertamente contro l'uso del suo nome nell'arte generata dall'intelligenza artificiale. Il suo nome è considerato uno dei prompt più comuni utilizzati nella generazione di immagini. “A.I. dovrebbe escludere gli artisti viventi dal suo database”, Rutkowski detto artnet in un'intervista, "concentrarsi sulle opere di dominio pubblico". La ricerca del nome di Rutkowski restituirà spesso l'arte dell'IA che è stata generata per assomigliare al suo lavoro ma non lo è In realtà il suo lavoro.

Ancora peggio è che l'arte generata dall'intelligenza artificiale può spesso evidenziare i pregiudizi della razza umana. Craiyon ha persino un avviso in fondo alla sua home page nelle FAQ, affermando che "poiché il modello è stato addestrato su dati non filtrati da Internet, potrebbe generare immagini che contengono stereotipi dannosi." Di conseguenza, l'inserimento di prompt come "dirigente d'azienda" molto spesso restituirà immagini di uomini bianchi in abiti. Allo stesso modo, inserendo "insegnante" come suggerimento quasi sempre le donne torneranno in classe.

Il futuro dell'arte generata dall'intelligenza artificiale

Dato che sembra che il settore non stia rallentando (e la regolamentazione non stia recuperando terreno), ci aspettiamo di vedere ulteriori progressi in queste aree. Il fatto che siamo passati dalle capacità di Dall-E 2 (anche se era privato) a Stable Diffusion in pochi mesi mostra quanto sia grande un settore e quanto grande possa potenzialmente essere un settore Essere. Le immagini che in precedenza avrebbero potuto essere affidate a un team di artisti ora possono essere generate in pochi secondi, con un singolo artista invece coinvolto nel processo a fini correttivi. Abbiamo già visto come Midjourney può aiutarti a vincere un concorso artistico, ad esempio, anche se l'Ufficio per il copyright degli Stati Uniti attualmente dice che non puoi nemmeno proteggere le immagini generate dall'intelligenza artificiale.

Come ha affermato anche Holz nella sua intervista, il costo attuale della formazione di ciascun modello è di circa $ 50.000 o più. Le immagini costano anche denaro poiché vengono generate su server incredibilmente robusti, specialmente quando un numero enorme di utenti viene a generare le proprie immagini. Sarà enormemente proibitivo in termini di costi per tutti i nuovi giocatori che entrano nello spazio, il che potrebbe a sua volta scoraggiare anche alcune aziende. Tuttavia, gli sforzi iniziali come Stable Diffusion essendo open source fanno ben sperare.

Di conseguenza, aspetteremo con entusiasmo di vedere il futuro delle immagini AI. Lo spazio si è evoluto così rapidamente nell'ultimo anno e sembra che ogni giorno vengano fatti nuovi progressi. Tuttavia, con scorci di manipolazione delle immagini basata sull'intelligenza artificiale arrivando anche sui nostri smartphone, ci sono molte cose che potrebbero accadere nel prossimo anno o due.