Co to jest generator obrazów AI i jak działa?

Generatory obrazów AI wywołały ostatnio wiele szumu, ale mogą być trudne do zrozumienia. Oto wszystko, co musisz o nich wiedzieć.

W 2022 roku byliśmy świadkami pojawienia się niesamowitych generatorów tekstu na obraz. Pierwszą, która wywołała wielką falę, był Dall-E 2, a chwilę później pojawiła się Stable Diffusion. Od tego czasu pojawiły się też inne narzędzia, w tym Midjourney, Craiyon, a nawet do pewnego stopnia TikTok. Pojawiają się coraz większe obawy, jeśli chodzi o narzędzia do generowania obrazów AI, dotyczące przede wszystkim etyki takich narzędzi, kiedy mogą generować obrazy prawdziwych ludzi w miejscach lub sytuacjach, w których w rzeczywistości ich nie było W.

Należy jednak wziąć pod uwagę nie tylko etykę. Generatory obrazów AI są szkolone na milionach zdjęć i nauczyły się je identyfikować rzeczy za pomocą rzeczywistych istniejących zdjęć stworzonych przez prawdziwych ludzi. Kiedy staje się to naruszeniem praw autorskich? Jeśli twoja sztuczna inteligencja przypadkowo wygeneruje obraz, który wygląda bardzo podobnie do innego projektu, a twórca tego obrazu udostępni go komercyjnie, czy ktoś ponosi odpowiedzialność za jakiekolwiek szkody? Jeśli tak, kto? Kto jest w ogóle „artystą” w tym przypadku?

Istnieją tona powodów, aby uważać na generatory obrazów AI, a te obawy dotyczące etyki i bezpieczeństwa to tylko zarysowanie powierzchni. Narzędzia te mogą być używane do tworzenia fałszywych obrazów, które mogą być używane do forsowania narracji, a z czasem będą się tylko pogarszać. Biorąc pod uwagę niesamowite możliwości tych narzędzi do generowania obrazu, aż strach pomyśleć, co będą w stanie zrobić już wkrótce. Jeśli jednak chcesz robić ładne obrazy i dobrze się bawić, nie ma w tym absolutnie nic złego.

Stabilna dyfuzja

Stabilna dyfuzja jest inspiracją dla tego artykułu i narzędziem, z którym się bawiłem działka Ostatnio. Działa lokalnie na twoim komputerze (więc nie walczysz o zasoby z innymi użytkownikami jakiegoś narzędzia online) i jest jednym z najpotężniejszych, z których możesz obecnie korzystać. Pozwala nie tylko dostroić mnóstwo parametrów, ale także kontrolować cały proces generowania.

Stabilna dyfuzja cierpi na te same pułapki AI, z dodatkowym „niebezpieczeństwem” związanym z dostępnością. Każdy, kto ma wystarczająco mocny komputer, może go skonfigurować i szybko uruchomić. Dzięki i7-12700KF, RTX 3080, 32 GB pamięci RAM i gigabitowemu internetowi byłem w stanie skonfigurować stabilną dyfuzję i wygenerować pierwsze obrazy w ciągu godziny. Mój komputer jest zdecydowanie włączony wyższy koniec, ale możesz uciec od uruchomienia go słabszy sprzęt (chociaż nie możesz generować tak dużych obrazów z niższą pamięcią vRAM i zajmie to więcej czasu).

Najlepszą rzeczą w Stable Diffusion jest to, że jest całkowicie open source. Jeśli chcesz, możesz już dziś zaimplementować obsługę tego programu w dowolnym ze swoich projektów, a istnieją już wtyczki, takie jak Alpaca, których możesz użyć do integracji z programem Photoshop. Nie jest jeszcze doskonały, ale jest na bardzo wczesnym etapie rozwoju tych programów. Możesz użyć Studio marzeń albo, jeśli chcesz, chociaż to kosztuje i jest nieco restrykcyjne w porównaniu z lokalną konfiguracją.

Co więcej, jeśli ustawisz stabilną dyfuzję lokalnie, istnieją rozwidlenia, takie jak Stabilny interfejs WWW AUTOMATIC1111 do rozpowszechniania które są dostarczane z wbudowanym, ekskluzywnym narzędziem, które może zwiększyć rozdzielczość nawet czterokrotnie. Chociaż można generować obrazy w wyższych rozdzielczościach, często znacznie szybciej jest wygenerować obraz w niższej rozdzielczości, a następnie przeskalować go w górę. Wszystkie poniższe obrazy są przeskalowane z mniejszych rozdzielczości.

Stable Diffusion zostało przeszkolone na klastrze 4000 procesorów graficznych Nvidia A100 działających w AWS i trwało ponad miesiąc. Ma możliwość generowania zdjęć celebrytów i ma również wbudowany filtr NSFW. Możesz wyłączyć ten filtr NSFW w instalacjach lokalnych, ponieważ w rzeczywistości oszczędza on zasoby, zmniejszając użycie pamięci VRAM. Jeśli chodzi o to, co oznacza „Diffusion”, jest to proces rozpoczynania od czystego szumu i udoskonalania w miarę upływu czasu. Powoduje to stopniowe przybliżanie obrazu do monitu tekstowego w miarę upływu czasu, aż nie pozostanie żaden szum. W ten sam sposób działa Dall-E 2.

Wreszcie, kolejną zabawną funkcją Stable Diffusion jest „img2img”. W tym celu dajesz mu obraz jako monit, opisujesz, jaki ma być obraz, a następnie pozwalasz mu dać ci właściwy rysunek.

Dałem mu szablon do pracy i otrzymałem całkiem przyzwoity obraz. Jestem pewien, że z lepszymi monitami (moje są nieco sprzeczne), możesz być jeszcze lepszy. Mimo to całkiem nieźle jak na coś, co zajęło mi około pięciu minut.

Krótko mówiąc, Stable Diffusion jest darmowe, łatwe w konfiguracji, a największym problemem jest dostępność. Jeśli nie masz wystarczająco mocnego komputera, będziesz musiał zapłacić, aby z niego korzystać, np. Dream Studio.

Kredka

Craiyon był wcześniej znany jako DALL·E Mini, chociaż pomimo nazwy nie ma żadnego związku z Dall-E 2. Został stworzony w celu odtworzenia wyników modelu zamiany tekstu na obraz DALL·E firmy OpenAI. Craiyon jest dostępny publicznie i może być używany do generowania obrazów, które są zaskakująco przyzwoite, chociaż obrazy nie są tak dokładne, ani nie są tak wysokiej jakości. Rozdzielczość obrazu wynosi maksymalnie 256x256 i nie ma też narzędzi do skalowania.

Craiyon jest całkowicie darmowy i dostępny za pośrednictwem swojej strony internetowej. Możesz wygenerować dowolny obraz za pomocą dowolnego monitu, a jedynym haczykiem jest to, że obrazy są niższej jakości i że będziesz musiał poczekać około dwóch minut na każdą wygenerowaną partię obrazów. Craiyon zaczął jako model typu open source, mający na celu odtworzenie wyników początkowego modelu DALL·E. Obecnie używany model nosi nazwę DALL·E Mega i zawiera kilka ulepszeń.

Craiyon, w przeciwieństwie do innych opcji tutaj, jest wspierany przez przychody z reklam. W rezultacie zobaczysz płatne sponsorowanie i inne reklamy ich strona internetowa kiedy odwiedzisz. Jest też aplikacja na smartfony z Androidem. To nie jest najbardziej wyrafinowane, ale zabawne, łatwe w użyciu i dostępne.

Kredka — generator obrazów AIDeweloper: Kredka

Cena: bezpłatna.

3.9.

Pobierać

Dall-E 2

Dall-E 2 jest produktem laboratorium badawczego OpenAI i jest najbardziej znanym generatorem obrazów AI, o którym ludzie myślą. To zamknięte narzędzie z ograniczonym dostępem, ale dla tych, którzy mają do niego dostęp, niektóre wyniki, które może uzyskać, są niesamowite. Początkowo został zamknięty z powodu obaw związanych z etyką i bezpieczeństwem takiego narzędzia, choć z czasem stopniowo się rozwijał.

Jedną z największych zalet Dall-E 2 jest możliwość tworzenia fotorealistycznych obrazów, które na pierwszy rzut oka są nie do odróżnienia od prawdziwych fotografii. Może generować obrazy, obrazy, które wyglądają, jakby zostały zrobione prawdziwymi kamerami, oraz całkowicie wymyślone scenariusze. Stanowiło to ogromny skok w możliwościach sztucznej inteligencji, gdy zostało po raz pierwszy ogłoszone, zarówno pod względem możliwości tworzenia obrazów, jak i przetwarzania języka naturalnego, znanego jako NLP. Dzieje się tak dzięki implementacji GPT-3, który jest jednym z najbardziej zaawansowanych modeli językowych i jest również autorstwa OpenAI.

Podobnie jak w przypadku Stable Diffusion, Dall-E 2 ma również własną możliwość robienia istniejących zdjęć i modyfikowania ich na podstawie monitu. Możesz edytować zdjęcia za jego pośrednictwem, prosząc go o dodanie czegoś do obrazu, a nawet o usunięcie czegoś lub zmianę oświetlenia. Chociaż tworzy tylko kwadratowe obrazy, ogłosił OpenAI przemalowanie w zeszłym miesiącu, które mogą rozszerzyć Twoje obrazy, biorąc pod uwagę kontekst tego, co jest już dostępne na Twoim kwadratowym obrazie.

Dall-E 2 jest dostępny dla wszystkich do wypróbowania.

W połowie podróży

Midjourney jest interesującą platformą publiczną, która może generować obrazy, chociaż robisz to za pośrednictwem serwera Discord. Nie tylko to, ale po wygenerowaniu 25 obrazów będziesz musiał subskrybować usługę, aby nadal generować nowe.

Chwila W połowie podróży jest prawdopodobnie najbardziej dostępną platformą tutaj (biorąc pod uwagę, że możesz uzyskać do niej dostęp z dowolnego urządzenia z kontem Discord), to także kosztuje. Jednak uzyskujesz z tego jakość. Użytkownik serwisu, Jason Allen, stworzył utwór, który nazwał „Théâtre D'opéra Spatial”. Zgłosił go do konkursu plastycznego Colorado State Fair... i wygrał.

W przeciwieństwie do tych innych projektów, Midjourney jest zastrzeżonym programem sztucznej inteligencji. Nie ma kodu źródłowego, na który można spojrzeć, a cały jego cel w tym momencie jest ograniczony do użycia na serwerze Discord. Jeśli chodzi o to, dlaczego jest to tylko serwer Discord, David Holz, założyciel Midjourney, powiedział, co następuje Krawędź w wywiadzie.

Zaczęliśmy testować surową technologię we wrześniu ubiegłego roku i od razu znaleźliśmy naprawdę różne rzeczy. Bardzo szybko odkryliśmy, że większość ludzi nie wie, czego chce. Mówisz: „Oto maszyna, z którą możesz sobie wyobrazić wszystko – czego chcesz?” I idą: „pies”. I idziesz "Naprawdę?" i idą „różowy pies”. Więc dajesz im zdjęcie psa, a oni mówią „okej”, a potem idą coś zrobić w przeciwnym razie.

Natomiast jeśli umieścisz je w grupie, zrobią „pies”, a ktoś inny „kosmiczny pies”, a jeszcze inny „Aztecki kosmiczny pies”, a potem wszyscy nagle ludzie rozumieją możliwości, a ty tworzysz tę rozszerzoną wyobraźnię — środowisko, w którym ludzie mogą uczyć się i bawić tą nową pojemność. Odkryliśmy więc, że ludzie naprawdę lubią razem wyobrażać sobie, więc stworzyliśmy [Midjourney] społecznościowy.

Wtedy też miałbyś problem z odejściem od domyślnego stylu „Midjourney”, że tak powiem. Tak przynajmniej twierdzi Holz w tym samym wywiadzie.

[Mamy] domyślny styl i wygląd, jest to artystyczne i piękne, i trudno jest odepchnąć [modelkę] od tego.

Jednak od tego czasu firma wypuściła dwa nowe modele - „test” i „testp”. „test” to model ogólnego przeznaczenia, a „testp” koncentruje się wyłącznie na fotorealizmie. W rezultacie będziesz w stanie uciec od tego bardziej domyślny przeglądaj i generuj obrazy większej liczby typów, jeśli chcesz.

Zagrożenia i etyka sztuki generowanej przez sztuczną inteligencję

Sztuka generowana przez sztuczną inteligencję, choć fajna, stwarza szereg zagrożeń dla ogółu społeczeństwa. W czasach, w których czasami trudno jest stwierdzić, kiedy wiadomości są wyrwane z kontekstu lub proste sfabrykowane, pojawia się niebezpieczeństwo, gdy w ciągu kilku minut można zrobić obrazy, które wyglądają i czują prawdziwy. Na przykład spójrz na zdjęcia, które wygenerowałem poniżej. Jeden został wygenerowany za pomocą Stable Diffusion, a drugi za pomocą Craiyon.

Podpowiedź: „rozbicie UFO w Roswell, 1947, oświetlenie, dochodzenie generała armii, oświetlenie studyjne”

Powyższe zdjęcia przedstawiają rozbite UFO w Roswell, a pierwsze zdjęcie pokazuje coś, co wygląda jak osoba idąca po rozbitym UFO. Chociaż obraz tutaj został wygenerowany w celu pokazania fałszywego zdjęcia, wygląda na to, że może być prawdziwy. Wszelkie artefakty można wytłumaczyć faktem, że zdjęcia z 1947 roku i tak byłyby gorszej jakości, a oba zdjęcia mogłyby przejść test oka na prawdziwość na pierwszy rzut oka. Nie potrzebujesz nawet jednego z nich najlepsze komputery zrobić coś takiego, ponieważ Craiyon to darmowa aplikacja.

Tam, gdzie robi się jeszcze bardziej mrocznie, jest to, że faktycznie możesz sprecyzować artysta, z którego algorytm ma czerpać inspirację. Powszechnym artystą jest Greg Rutkowski, który otwarcie wypowiadał się przeciwko używaniu jego nazwiska w sztuce generowanej przez sztuczną inteligencję. Jego imię jest jednym z najczęstszych podpowiedzi używanych podczas generowania obrazu. „Sztuczna inteligencja powinna wykluczyć ze swojej bazy żyjących artystów” – Rutkowski powiedział artnet w wywiadzie „skoncentruj się na utworach znajdujących się w domenie publicznej”. Wyszukiwanie nazwiska Rutkowskiego często zwraca grafiki AI, które zostały wygenerowane tak, aby wyglądały jak jego dzieło, ale nim nie są Właściwie jego praca.

Jeszcze gorsze jest to, że sztuka generowana przez sztuczną inteligencję może często podkreślać uprzedzenia rasy ludzkiej. Craiyon ma nawet ostrzeżenie na dole swojej strony głównej w FAQ, stwierdzające, że „ponieważ model został przeszkolony na niefiltrowanych danych z Internetu, może generować obrazy, które zawierają szkodliwe stereotypy”. W rezultacie wprowadzenie podpowiedzi typu „dyrektor firmy” najczęściej spowoduje wyświetlenie obrazów białych mężczyzn w garnitury. Podobnie wpisanie „nauczyciel” jako zachęty prawie zawsze spowoduje powrót kobiet do sal lekcyjnych.

Przyszłość sztuki generowanej przez sztuczną inteligencję

Biorąc pod uwagę, że wydaje się, że branża nie zwalnia (a regulacje nie nadążają), spodziewamy się jeszcze większego postępu w tych obszarach. Fakt, że przeszliśmy od możliwości Dall-E 2 (nawet jeśli był prywatny) do stabilnej dyfuzji w ciągu zaledwie kilku miesięcy pokazuje, jak duży jest to przemysł i jak duży może potencjalnie Być. Obrazy, które wcześniej mogły być zlecone zespołowi artystów, można teraz wygenerować w ciągu kilku sekund, zamiast tego pojedynczy artysta jest zaangażowany w proces w celach naprawczych. Widzieliśmy już, jak Midjourney może pomóc ci wygrać konkurs artystyczny, na przykład, chociaż Urząd ds. Praw Autorskich Stanów Zjednoczonych obecnie mówi że nie możesz nawet objąć prawami autorskimi obrazów generowanych przez sztuczną inteligencję.

Jak stwierdził również Holz w swoim wywiadzie, obecny koszt szkolenia każdego modelu wynosi około 50 000 USD – lub więcej. Obrazy również kosztują, ponieważ są generowane na niewiarygodnie mocnych serwerach, zwłaszcza gdy ogromna liczba użytkowników przychodzi, aby wygenerować własne obrazy. Będzie to niezwykle kosztowne dla nowych graczy wchodzących na rynek, co z kolei może zniechęcić niektóre firmy. Jednak początkowe wysiłki, takie jak Stable Diffusion jako open source, dobrze wróżą.

W rezultacie z niecierpliwością będziemy czekać na przyszłość obrazów AI. Przestrzeń ewoluowała tak szybko w ciągu ostatniego roku i wydaje się, że codziennie dokonuje się nowych postępów. Jednak z przebłyskami manipulacji obrazem opartej na sztucznej inteligencji nawet w naszych smartfonach, wiele może się wydarzyć w ciągu najbliższego roku lub dwóch.