Yapay Zeka Görüntü Oluşturucu nedir ve nasıl çalışır?

AI görüntü üreteçleri son zamanlarda çok konuşuldu, ancak anlaşılması zor olabilir. İşte onlar hakkında bilmeniz gereken her şey.

2022'de bazı inanılmaz metinden görüntü oluşturucuların ortaya çıktığını gördük. Büyük dalgayı ilk başlatan Dall-E 2 idi ve kısa bir süre sonra Stable Diffusion geldi. O zamandan beri Midjourney, Craiyon ve hatta belirli bir dereceye kadar TikTok gibi başka araçların da geldiğini gördük. Yapay zeka görüntü oluşturma araçları söz konusu olduğunda, öncelikle etiği ile ilgili artan endişeler var. Bu tür araçlar, gerçekte olmadıkları yerlerde veya durumlarda gerçek insanların görüntülerini oluşturabildiklerinde içinde.

Ancak, dikkate alınması gereken sadece etik de yoktur. AI görüntü oluşturucular, milyonlarca ve milyonlarca fotoğraf üzerinde eğitildi ve tanımlamayı öğrendi şeyler gerçek kişiler tarafından oluşturulan gerçek mevcut fotoğraflar yoluyla. Ne zaman telif hakkı ihlali olur? AI'nız yanlışlıkla başka bir tasarıma çok benzeyen bir görüntü oluşturursa ve bu görüntünün yaratıcısı bunu ticari olarak paylaşmaya devam ederse, herhangi bir zarardan sorumlu olur mu? Eğer öyleyse, kim? Bu durumda "sanatçı" kimdir?

bir var ton Yapay zeka görüntü oluşturucularına karşı dikkatli olmak için birçok neden var ve bu etik ve güvenlik endişeleri yalnızca yüzeyi çiziyor. Bu araçlar, bir anlatıyı zorlamak için kullanılabilecek sahte görüntüler oluşturmak için kullanılabilir ve bunlar da zamanla daha da kötüleşir. Bu görüntü oluşturma araçlarının inanılmaz yetenekleri göz önüne alındığında, çok yakında neler yapabileceklerini düşünmek ürkütücü. Ancak, güzel görüntüler oluşturmak ve biraz eğlenmek istiyorsanız, bundan kesinlikle zarar gelmez.

Kararlı Difüzyon

Kararlı Difüzyon, bu makalenin arkasındaki ilham kaynağı ve üzerinde oynadığım bir araçtır. pay son zamanlarda. Bilgisayarınızda yerel olarak çalışır (böylece bazı çevrimiçi araçların diğer kullanıcılarıyla kaynaklar için savaşmazsınız) ve şu anda kullanabileceğiniz en güçlü araçlardan biridir. Bir ton parametrede ince ayar yapmanıza izin vermekle kalmaz, aynı zamanda tüm üretim sürecini de kontrol edebilirsiniz.

Kararlı Difüzyon, erişilebilirlik "tehlikesi" eklenerek aynı yapay zeka tuzaklarının hepsinden muzdariptir. Yeterince güçlü bir bilgisayarı olan herkes onu kurabilir ve hızlı bir şekilde çalıştırabilir. i7-12700KF, RTX 3080, 32 GB RAM ve gigabit internet ile Stable Diffusion'ı kurabildim ve ilk görüntülerimi bir saat içinde oluşturabildim. Bilgisayarım kesinlikle açık daha yüksek uç, ancak çalıştırarak kurtulabilirsiniz daha zayıf donanım (ancak daha düşük vRAM ile büyük görüntüler oluşturamazsınız ve bu daha uzun sürer).

Kararlı Difüzyon ile ilgili en iyi şey, tamamen açık kaynak olmasıdır. Bugün isterseniz herhangi bir projenizde bu desteği uygulayabilirsiniz ve Alpaca gibi Photoshop ile entegre etmek için kullanabileceğiniz eklentiler zaten var. Henüz mükemmel değil, ancak bu programların geliştirilmesinde çok erken. Kullanabilirsiniz Rüya Stüdyosu Ya isterseniz, ancak bu paraya mal olur ve yerel olarak kurmaya karşı biraz kısıtlayıcıdır.

Ayrıca, Stable Difusion'ı yerel olarak ayarlarsanız, aşağıdaki gibi çatallar vardır: AUTOMATIC1111'in Stabil Difüzyon WebUI'si çözünürlüğü dört kata kadar artırabilen yerleşik bir lüks araçla birlikte gelir. Görüntüleri daha yüksek çözünürlüklerde oluşturabilseniz de, daha düşük çözünürlükte bir görüntü oluşturmak ve ardından onu yükseltmek genellikle çok daha hızlıdır. Aşağıdaki tüm resimler daha küçük çözünürlüklerden yükseltilmiştir.

Stable Diffusion, AWS'de çalışan 4.000 Nvidia A100 GPU'dan oluşan bir küme üzerinde eğitildi ve bir aydan fazla sürdü. Ünlülerin görüntülerini oluşturma yeteneğine sahiptir ve yerleşik bir NSFW filtresine de sahiptir. Bu NSFW filtresini yerel kurulumlarda devre dışı bırakabilirsiniz çünkü gerçekte VRAM kullanımını azaltarak kaynaklardan tasarruf sağlar. "Difüzyon" un ne anlama geldiğine gelince, saf gürültü ile başlayıp zamanla rafine etme sürecidir. Görüntüyü, hiç gürültü kalmayana kadar zaman içinde aşamalı olarak metin istemine yaklaştırır. Bu, Dall-E 2'nin çalışma şekliyle aynıdır.

Son olarak, Stable Diffusion'ın sahip olduğu bir başka eğlenceli özellik de "img2img". Bunda, istem olarak ona bir görüntü verirsiniz, görüntünün ne olmasını istediğinizi açıklarsınız ve sonra size bir fikir vermesine izin verirsiniz. düzgün çizim.

Çalışması için ona bir şablon verdim ve oldukça iyi bir görüntü elde ettim. Eminim daha iyi istemlerle (benimki biraz çelişkili), daha da iyi olabilirsiniz. Yine de, yapması yaklaşık beş dakikamı alan bir şey için hiç de fena sayılmaz.

Kısacası, Stable Difusion ücretsizdir, kurulumu kolaydır ve en büyük sorun ne kadar erişilebilir olduğudur. Yeterince güçlü bir PC'niz yoksa, bunu kullanmak için Dream Studio gibi ödeme yapmanız gerekecek.

mum boya

Craiyon daha önce DALL·E Mini olarak biliniyordu, ancak ismine rağmen Dall-E 2 ile hiçbir ilişkisi yok. OpenAI'nin DALL·E metinden görüntüye modelinin sonuçlarını yeniden oluşturmak için oluşturuldu. Craiyon halka açıktır ve resimler ne kadar doğru ne de yüksek kaliteli olmasa da şaşırtıcı derecede iyi resimler oluşturmak için kullanılabilir. Görüntü çözünürlükleri maksimum 256x256'dır ve yükseltme araçları da yoktur.

Craiyon'un kullanımı tamamen ücretsizdir ve web sitesi aracılığıyla erişilebilir. Herhangi bir istem yoluyla herhangi bir görüntü oluşturabilirsiniz ve tek yakalama, görüntülerin daha düşük kalitede olması ve oluşturulan her görüntü grubu için iki dakika kadar beklemeniz gerekmesidir. Craiyon, ilk DALL·E modelinin sonuçlarını yeniden üretmeyi amaçlayan açık kaynaklı bir model olarak başladı. Şu anda kullanılmakta olan model DALL·E Mega olarak biliniyor ve çeşitli iyileştirmeler içeriyor.

Craiyon, buradaki diğer seçeneklerden farklı olarak reklam gelirleri ile desteklenmektedir. Sonuç olarak, üzerinde ücretli sponsorluklar ve diğer reklamlar göreceksiniz. onların web sitesi Ziyaret ettiğinde. Android akıllı telefonlar için de bir uygulama var. En sofistike değil ama eğlenceli, kullanımı kolay ve erişilebilir.

Craiyon - AI Görüntü OluşturucuGeliştirici: mum boya

Fiyat: Ücretsiz.

3.9.

İndirmek

Dall-E 2

Dall-E 2, OpenAI araştırma laboratuvarının bir ürünüdür ve insanların aklına gelen en iyi bilinen AI görüntü üreticisidir. Sınırlı erişime sahip kapalı bir araçtır, ancak ona erişebilenler için elde edebileceği bazı sonuçlar inanılmazdır. Zamanla kademeli olarak genişlemesine rağmen, böyle bir aracın etiği ve güvenliği ile ilgili endişeler nedeniyle başlangıçta kapatıldı.

Dall-E 2'nin sahip olduğu en büyük avantajlardan biri, bir bakışta gerçek fotoğraflardan ayırt edilemeyen fotogerçekçi görüntüler oluşturma yeteneğidir. Tablolar, gerçek kameralarla çekilmiş gibi görünen görüntüler ve tamamen uydurma senaryolar üretebilir. Hem görüntü oluşturma becerileri hem de NLP olarak bilinen Doğal Dil İşleme becerileri açısından ilk duyurulduğu zaman yapay zekanın yeteneklerinde büyük bir sıçramayı temsil ediyordu. Bu, piyasadaki en gelişmiş dil modellerinden biri olan ve aynı zamanda OpenAI tarafından yazılan GPT-3 uygulaması sayesindedir.

Tıpkı Stable Diffusion'da olduğu gibi, Dall-E 2'nin de mevcut görüntüleri alma ve bir komut istemine göre bunları değiştirme yeteneği vardır. Bir görüntüye bir şey eklemesini isteyerek, hatta bir şeyi kaldırmasını veya ışığı değiştirmesini isteyerek fotoğrafları düzenleyebilirsiniz. OpenAI, yalnızca kare görüntüler oluştururken duyurdu Dış boyama kare görüntünüzde zaten mevcut olanların bağlamını dikkate alarak görüntülerinizi daha da genişletebilir.

Dall-E 2 herkesin denemesi için mevcuttur.

yolculuk ortası

Midjourney, bir Discord sunucusu aracılığıyla yapmanıza rağmen, görüntüler oluşturabilen halka açık bir platform olduğu için ilginç bir platformdur. Sadece bu da değil, 25 resim oluşturduktan sonra yenilerini oluşturmaya devam etmek için hizmete abone olmanız gerekecek.

Sırasında yolculuk ortası muhtemelen buradaki en erişilebilir platformdur (buna Discord hesabı olan herhangi bir cihazdan erişebildiğiniz göz önüne alındığında), ayrıca size pahalıya mal olur. Ancak, kaliteden yararlanırsınız. Hizmetin bir kullanıcısı olan Jason Allen, "Théâtre D'opéra Spatial" adını verdiği bir eser yarattı. Colorado Eyalet Fuarı sanat yarışmasına katılmış... ve kazandı.

Diğer projelerden farklı olarak Midjourney, tescilli bir yapay zeka programıdır. Bakabileceğiniz bir kaynak kodu yoktur ve bu noktada tüm amacı bir Discord sunucusunda kullanımla sınırlıdır. Neden sadece bir Discord sunucusu olduğuna gelince, Midjourney'in kurucusu David Holz şunları söyledi: Sınır bir röportajda.

Geçen yıl Eylül ayında ham teknolojiyi test etmeye başladık ve hemen gerçekten farklı şeyler buluyorduk. Çoğu insanın ne istediğini bilmediğini çok çabuk anladık. "İşte onunla her şeyi hayal edebileceğiniz bir makine - ne istiyorsunuz?" Ve "köpek" derler. ve sen git "Gerçekten mi?" ve "pembe köpek" derler. Yani onlara bir köpek resmi veriyorsunuz ve "tamam" diyorlar ve sonra gidip bir şeyler yapıyorlar. başka.

Oysa onları bir gruba koyarsanız, "köpek" diyecekler ve bir başkası "uzay köpeği" ve bir başkası "Aztek uzay köpeği" diyecek ve sonra hepsi Birdenbire insanlar olasılıkları anlıyor ve siz bu artırılmış hayal gücünü yaratıyorsunuz - insanların bu yeni şeyle öğrenip oynayabileceği bir ortam kapasite. Bu yüzden insanların birlikte hayal kurmayı gerçekten sevdiklerini gördük ve [Midjourney] 'i sosyal hale getirdik.

O zamanlar, tabiri caizse, onu varsayılan "Yolculuk Ortası" stilinden uzaklaştırmakta da sorun yaşardınız. Her neyse, aynı röportajda Holz'a göre bu.

[W]e'nin varsayılan bir stili ve görünümü var, sanatsal ve güzel ve [modeli] bundan uzaklaştırmak zor.

Ancak o zamandan beri şirket iki yeni model çıkardı: "test" ve "testp". "test" genel amaçlı bir modeldir ve "testp" yalnızca fotogerçekçiliğe odaklanır. Sonuç olarak, bundan daha fazla uzaklaşabileceksiniz. varsayılan İsterseniz daha fazla türde görüntüye bakın ve oluşturun.

AI tarafından üretilen sanatın tehlikeleri ve etiği

Yapay zeka tarafından üretilen sanat, havalı olsa da, genel olarak toplum üzerinde bir dizi tehlike empoze eder. Haberlerin bağlamından koparıldığı veya doğrudan doğruya söylendiği zamanlarda söylemenin zor olabileceği bir çağda fabrikasyon, görünen ve hissedilen görüntülerin birkaç dakika içinde yapılabileceği bir tehlike vardır. gerçek. Örneğin, aşağıda oluşturduğum fotoğraflara bir göz atın. Biri Stable Difusion kullanılarak, diğeri Craiyon ile üretildi.

Komut istemi: "Roswell'de düşen UFO, 1947, ışıklandırma, genel ordu soruşturması, stüdyo aydınlatması"

Yukarıdaki fotoğraflar, Roswell'de düşen bir UFO'yu gösteriyor ve ilk görüntü, düşen bir UFO'nun üzerinde yürüyen bir kişinin neye benzediğini gösteriyor. Buradaki görüntü sahte bir fotoğrafı göstermek amacıyla oluşturulmuş olsa da gerçek olabileceği anlaşılıyor. Herhangi bir eser, 1947'deki fotoğrafların zaten daha düşük kalitede olması ve her iki görüntünün de gerçek olup olmadığına dair hızlı bir bakışta göz testini geçebilmesi gerçeğiyle açıklanabilir. birine bile ihtiyacın yok en iyi bilgisayarlar Craiyon ücretsiz bir uygulama olduğu için böyle bir şey yapmak için.

Daha da bulanıklaştığı yer, aslında belirtmek Algoritmanın ilham almasını istediğiniz bir sanatçı. Yaygın bir sanatçı, adının yapay zeka tarafından üretilen sanatta kullanılmasına karşı çıkan Greg Rutkowski'dir. Adı, görüntü oluşturmada kullanılan en yaygın istemlerden biri olarak yer alıyor. “Yapay zeka yaşayan sanatçıları veri tabanından çıkarmalı,” dedi Rutkowski söylenmiş Sanat ağı bir röportajda, "kamu malı altındaki işlere odaklanın." Rutkowski'nin adının aranması, genellikle onun çalışmasına benzemek için oluşturulmuş, ancak onun çalışmasına benzemeyen AI sanatını döndürür. Aslında Onun işi.

Daha da kötüsü, AI tarafından üretilen sanat, genellikle insan ırkının önyargılarını vurgulayabilir. Craiyon, SSS'de ana sayfasının alt kısmında "model internetten filtrelenmemiş verilerle eğitildiğinden, zararlı klişeler içeren görüntüler oluşturun." Sonuç olarak, "şirket yöneticisi" gibi bilgi istemleri girildiğinde, çoğunlukla beyaz adamların takım elbise. Aynı şekilde, istem olarak "öğretmen" girmek, neredeyse her zaman sınıflardaki kadınları döndürür.

AI tarafından üretilen sanatın geleceği

Sektörün yavaşlamadığı (ve düzenlemelerin yetişemediği) göründüğü göz önüne alındığında, bu alanlarda daha da fazla ilerleme görmeyi bekliyoruz. Dall-E 2'nin (özel olsa bile) yeteneklerinden Stable Diffusion'a geçmiş olmamız sadece birkaç ay içinde bunun ne kadar büyük bir endüstri olduğunu ve potansiyel olarak ne kadar büyük bir endüstri olabileceğini gösterir. olmak. Daha önce bir sanatçı ekibine ihale edilmiş olabilecek görüntüler artık düzeltme amacıyla sürece tek bir sanatçının dahil olmasıyla saniyeler içinde oluşturulabilir. Midjourney'in bir sanat yarışmasını kazanmanıza nasıl yardımcı olabileceğini zaten gördük, örneğin ABD Telif Hakkı Bürosu'na rağmen. şu anda diyor AI tarafından oluşturulan görüntülerin telif hakkını bile alamazsınız.

Holz'un röportajında da belirttiği gibi, her bir modelin mevcut eğitim maliyeti yaklaşık 50.000 ABD Doları veya daha fazladır. Görüntüler ayrıca, özellikle çok sayıda kullanıcı kendi görüntülerini oluşturmak için geldiğinde, inanılmaz derecede güçlü sunucularda oluşturuldukları için maliyetlidir. Alana giren herhangi bir yeni oyuncu için maliyeti çok yüksek olacak ve bu da aslında bazı şirketleri de erteleyebilir. Bununla birlikte, Stable Diffusion'ın açık kaynak olması gibi ilk çabalar iyiye işaret ediyor.

Sonuç olarak, yapay zeka görüntülerinin geleceğini görmek için heyecanla bekliyor olacağız. Alan geçen yıl çok hızlı bir şekilde gelişti ve her gün yeni ilerlemeler kaydediliyor gibi görünüyor. Bununla birlikte, yapay zeka tabanlı görüntü işlemeye ilişkin kısa bilgilerle akıllı telefonlarımıza bile geliyor, önümüzdeki bir veya iki yıl içinde olabilecek çok şey var.