Apa itu AI Image Generator dan bagaimana cara kerjanya?

Generator gambar AI telah membuat banyak desas-desus baru-baru ini, tetapi mungkin sulit untuk dipahami. Inilah semua yang perlu Anda ketahui tentang mereka.

Pada tahun 2022, kami telah melihat munculnya beberapa generator teks-ke-gambar yang luar biasa. Yang pertama memicu gelombang besar adalah Dall-E 2, dengan Difusi Stabil tiba beberapa saat kemudian. Sejak itu, kami telah melihat alat lain juga datang, termasuk Midjourney, Craiyon, dan bahkan TikTok sampai tingkat tertentu. Ada kekhawatiran yang berkembang terkait alat penghasil gambar AI, terutama yang berkaitan dengan etika alat seperti itu ketika mereka dapat menghasilkan gambar orang nyata di tempat atau situasi yang sebenarnya tidak ada di dalam.

Namun, tidak hanya etika yang perlu dipertimbangkan. Generator gambar AI dilatih pada jutaan dan jutaan foto dan telah belajar untuk mengidentifikasi hal-hal melalui foto aktual yang ada yang dibuat oleh orang sungguhan. Kapan itu menjadi pelanggaran hak cipta? Jika AI Anda secara tidak sengaja menghasilkan gambar yang terlihat sangat mirip dengan desain lain, dan pembuat gambar tersebut terus membagikannya secara komersial, apakah ada yang bertanggung jawab atas kerugian? Jika ya, siapa? Siapa "artis" dalam kasus ini?

Ada sebuah ton alasan untuk mewaspadai generator gambar AI, dan masalah etika dan keamanan ini hanya menggores permukaan. Alat-alat ini dapat digunakan untuk membuat gambar palsu yang dapat digunakan untuk mendorong narasi, dan itu hanya akan menjadi lebih buruk seiring berjalannya waktu. Mengingat kemampuan luar biasa dari alat pembuat gambar ini, menakutkan untuk memikirkan apa yang akan mampu mereka lakukan segera. Namun, jika Anda ingin membuat gambar yang cantik dan bersenang-senang, sama sekali tidak ada salahnya.

Difusi Stabil

Difusi Stabil adalah inspirasi di balik artikel ini dan alat yang telah saya mainkan a banyak baru-baru ini. Ini berjalan secara lokal di komputer Anda (jadi Anda tidak berjuang untuk sumber daya dengan pengguna lain dari beberapa alat online) dan itu salah satu yang paling kuat yang dapat Anda gunakan saat ini. Tidak hanya memungkinkan Anda menyempurnakan banyak parameter, tetapi Anda juga dapat mengontrol seluruh proses pembuatan.

Difusi Stabil mengalami semua jebakan AI yang sama, dengan tambahan "bahaya" aksesibilitas. Siapa pun yang memiliki komputer yang cukup kuat dapat mengaturnya dan menjalankannya dengan cepat. Dengan i7-12700KF, RTX 3080, RAM 32 GB, dan internet gigabit, saya dapat menyiapkan Difusi Stabil dan menghasilkan gambar pertama saya dalam waktu satu jam. PC saya pasti aktif akhir yang lebih tinggi, tetapi Anda bisa lolos dengan menjalankannya perangkat keras yang lebih lemah (walaupun Anda tidak dapat menghasilkan gambar sebesar itu dengan vRAM yang lebih rendah dan akan memakan waktu lebih lama).

Hal terbaik tentang Stable Diffusion adalah sepenuhnya open source. Anda dapat mengimplementasikan dukungan untuk itu di salah satu proyek Anda hari ini jika Anda mau, dan sudah ada plugin seperti Alpaca yang dapat Anda gunakan untuk berintegrasi dengan Photoshop. Ini belum sempurna, tetapi masih sangat awal dalam pengembangan program ini. Anda dapat gunakan Studio Mimpi baik jika Anda mau, meskipun itu membutuhkan uang dan sedikit membatasi dibandingkan dengan menyiapkannya secara lokal.

Terlebih lagi, jika Anda mengatur Stable Diffusion secara lokal, ada garpu seperti UI Web Difusi Stabil AUTOMATIC1111 yang dilengkapi dengan alat kelas atas bawaan yang dapat meningkatkan resolusi hingga empat kali lebih tinggi. Meskipun Anda dapat menghasilkan gambar dengan resolusi yang lebih tinggi, sering kali jauh lebih cepat untuk menghasilkan gambar dengan resolusi yang lebih rendah dan kemudian memperbesarnya. Semua gambar di bawah ditingkatkan dari resolusi yang lebih kecil.

Difusi Stabil dilatih pada sekelompok 4.000 GPU Nvidia A100 yang berjalan di AWS dan berlangsung selama sebulan. Ini memiliki kemampuan untuk menghasilkan gambar selebritas dan juga memiliki filter NSFW bawaan. Anda dapat menonaktifkan filter NSFW ini pada penginstalan lokal, karena ini benar-benar menghemat sumber daya dengan mengurangi penggunaan VRAM. Adapun yang dimaksud dengan "Difusi", itu adalah proses memulai dengan kebisingan murni dan menyempurnakannya seiring waktu. Itu membuat gambar secara bertahap lebih dekat ke prompt teks dari waktu ke waktu hingga tidak ada suara yang tersisa. Ini adalah cara kerja Dall-E 2 yang sama.

Terakhir, fitur menyenangkan lainnya yang dimiliki oleh Stable Diffusion adalah "img2img". Dalam hal ini, Anda memberinya gambar sebagai perintah, menjelaskan apa yang Anda inginkan dari gambar itu, dan kemudian membiarkannya memberi Anda sesuai menggambar.

Saya memberikannya sebuah template untuk dikerjakan dan mendapatkan kembali gambar yang lumayan bagus. Saya yakin dengan petunjuk yang lebih baik (milik saya agak kontradiktif), Anda bisa menjadi lebih baik. Tetap saja, tidak buruk sama sekali untuk sesuatu yang membutuhkan waktu sekitar lima menit untuk membuatnya.

Singkatnya, Difusi Stabil gratis, mudah diatur, dan masalah terbesarnya adalah seberapa mudah diakses. Jika Anda tidak memiliki PC yang cukup kuat, Anda harus membayar untuk menggunakannya melalui Dream Studio.

Crayon

Craiyon sebelumnya dikenal sebagai DALL·E Mini, meskipun namanya tidak ada hubungannya dengan Dall-E 2. Itu dibuat untuk mereproduksi hasil model teks-ke-gambar DALL·E OpenAI. Craiyon tersedia untuk umum dan dapat digunakan untuk menghasilkan gambar yang sangat bagus, meskipun gambarnya tidak seakurat, juga tidak berkualitas tinggi. Resolusi gambar maksimal 256x256, dan tidak ada alat peningkatan juga.

Craiyon sepenuhnya gratis untuk digunakan dan dapat diakses melalui situs webnya. Anda dapat menghasilkan gambar apa pun melalui perintah apa pun, dan satu-satunya tangkapan adalah kualitas gambar lebih rendah dan Anda harus menunggu sekitar dua menit untuk setiap kumpulan gambar yang dihasilkan. Craiyon dimulai sebagai model sumber terbuka yang ditujukan untuk mereproduksi hasil model awal DALL·E. Model yang sekarang digunakan dikenal sebagai DALL·E Mega, dan mengemas beberapa perbaikan.

Craiyon, tidak seperti opsi lain di sini, didukung oleh pendapatan iklan. Hasilnya, Anda akan melihat sponsor berbayar dan iklan lainnya aktif situs web mereka ketika Anda mengunjungi. Ada juga aplikasi untuk smartphone Android. Ini bukan yang paling canggih, tapi menyenangkan, mudah digunakan, dan dapat diakses.

Craiyon - Pembuat Gambar AIPengembang: Crayon

Harga: Gratis.

3.9.

Unduh

Dall-E 2

Dall-E 2 adalah produk dari lab penelitian OpenAI dan merupakan pembuat gambar AI paling terkenal yang dipikirkan orang. Ini adalah alat tertutup dengan akses terbatas, tetapi bagi mereka yang dapat mengaksesnya, beberapa hasil yang dihasilkannya luar biasa. Itu awalnya ditutup karena kekhawatiran seputar etika dan keamanan alat semacam itu, meskipun telah berkembang secara bertahap dari waktu ke waktu.

Salah satu keuntungan terbesar yang dimiliki Dall-E 2 adalah kemampuan untuk membuat gambar fotorealistik yang sekilas tidak dapat dibedakan dari foto asli. Itu dapat menghasilkan lukisan, gambar yang terlihat telah ditangkap dengan kamera sungguhan, dan skenario yang sepenuhnya dibuat-buat. Ini mewakili lompatan besar dalam kemampuan AI ketika pertama kali diumumkan, baik dalam kemampuannya membuat gambar maupun dalam Pemrosesan Bahasa Alaminya, yang dikenal sebagai NLP. Ini berkat penerapan GPT-3, yang merupakan salah satu model bahasa tercanggih di luar sana dan juga ditulis oleh OpenAI.

Sama seperti Stable Diffusion, Dall-E 2 juga memiliki kemampuannya sendiri untuk mengambil gambar yang ada dan memodifikasinya berdasarkan prompt. Anda dapat mengedit foto melalui itu dengan memintanya untuk menambahkan sesuatu ke gambar, atau bahkan memintanya untuk menghapus sesuatu atau mengubah pencahayaan. Meskipun hanya membuat gambar persegi, OpenAI mengumumkan Lukisan luar bulan lalu yang dapat memperluas gambar Anda lebih luas, dengan mempertimbangkan konteks apa yang sudah tersedia di gambar persegi Anda.

Dall-E 2 tersedia untuk dicoba oleh semua orang.

Pertengahan perjalanan

Midjourney menarik karena merupakan platform publik yang dapat menghasilkan gambar, meskipun Anda melakukannya melalui server Discord. Tidak hanya itu, setelah Anda menghasilkan 25 gambar, Anda harus berlangganan layanan untuk terus menghasilkan gambar baru.

Ketika Pertengahan perjalanan mungkin merupakan platform yang paling mudah diakses di sini (mengingat Anda dapat mengaksesnya dari perangkat apa pun dengan akun Discord), itu juga membutuhkan biaya. Namun, Anda mendapatkan kualitas darinya. Seorang pengguna layanan, Jason Allen, membuat karya yang dia beri nama "Théâtre D'opéra Spatial". Dia memasukkannya ke kompetisi seni Colorado State Fair... dan menang.

Tidak seperti proyek lain ini, Midjourney adalah program kecerdasan buatan berpemilik. Tidak ada kode sumber yang dapat Anda lihat, dan seluruh tujuannya saat ini terbatas pada penggunaan dalam server Discord. Adapun mengapa ini hanya server Discord, David Holz, pendiri Midjourney, mengatakan hal berikut kepada Ambang dalam sebuah wawancara.

Kami mulai menguji teknologi mentah pada bulan September tahun lalu, dan kami segera menemukan hal yang sangat berbeda. Kami menemukan dengan sangat cepat bahwa kebanyakan orang tidak tahu apa yang mereka inginkan. Anda berkata: "Ini mesin yang bisa Anda bayangkan apa saja dengannya - apa yang Anda inginkan?" Dan mereka pergi: "anjing." Dan kamu pergi "Sungguh?" dan mereka menjadi "anjing merah muda". Jadi Anda memberi mereka gambar seekor anjing, dan mereka berkata "oke" dan kemudian melakukan sesuatu kalau tidak.

Sedangkan jika Anda menempatkan mereka dalam grup, mereka akan menjadi "anjing" dan orang lain akan menjadi "anjing luar angkasa" dan orang lain akan menjadi "anjing luar angkasa Aztec", dan kemudian semuanya tiba-tiba, orang-orang memahami kemungkinannya, dan Anda menciptakan imajinasi tambahan ini — sebuah lingkungan tempat orang dapat belajar dan bermain dengan yang baru ini kapasitas. Jadi kami menemukan bahwa orang-orang sangat suka membayangkan bersama, jadi kami membuat [Midjourney] bersosialisasi.

Saat itu, Anda juga akan kesulitan mengarahkannya dari gaya default "Midjourney", begitulah. Itu menurut Holz, dalam wawancara yang sama.

[W] e memiliki gaya dan tampilan default, dan itu artistik dan indah, dan sulit untuk mendorong [model] menjauh dari itu.

Namun, sejak saat itu, perusahaan telah meluncurkan dua model baru -- "test" dan "testp". "test" adalah model tujuan umum, dan "testp" hanya berfokus pada fotorealisme. Akibatnya, Anda akan dapat menjauh dari itu lebih banyak bawaan lihat dan hasilkan gambar dari lebih banyak jenis jika Anda mau.

Bahaya dan etika seni yang dihasilkan AI

Seni yang dihasilkan AI, meski keren, menimbulkan sejumlah bahaya bagi masyarakat luas. Di zaman di mana sulit untuk mengetahui kapan berita diambil di luar konteks atau langsung dibuat-buat, ada bahaya ketika gambar dapat dibuat dalam hitungan menit yang terlihat dan terasa nyata. Sebagai contoh, lihatlah foto-foto yang saya hasilkan di bawah ini. Satu dihasilkan menggunakan Difusi Stabil, dan yang lainnya dihasilkan dengan Craiyon.

Prompt: "UFO yang jatuh di Roswell, 1947, pencahayaan, penyelidikan umum tentara, pencahayaan studio"

Foto-foto di atas menggambarkan UFO yang jatuh di Roswell dan gambar pertama menunjukkan seseorang berjalan di atas UFO yang jatuh. Meskipun gambar di sini dibuat dengan tujuan untuk menunjukkan foto palsu, sepertinya itu nyata. Artefak apa pun dapat dijelaskan oleh fakta bahwa foto pada tahun 1947 akan memiliki kualitas yang lebih buruk, dan kedua gambar tersebut dapat lolos uji mata dengan sekilas pandang sebagai nyata. Anda bahkan tidak membutuhkan salah satunya komputer terbaik untuk melakukan hal seperti ini, karena Craiyon adalah aplikasi gratis.

Yang semakin suram adalah Anda benar-benar bisa menentukan seorang seniman yang ingin Anda jadikan algoritme untuk mengambil inspirasi. Artis yang umum adalah Greg Rutkowski, yang secara terbuka menentang penggunaan namanya dalam seni yang dihasilkan AI. Namanya menempati peringkat sebagai salah satu petunjuk paling umum yang digunakan dalam pembuatan gambar. “A.I. harus mengecualikan seniman yang masih hidup dari basis datanya,” Rutkowski diberi tahu artnet dalam sebuah wawancara, "fokus pada karya di bawah domain publik." Menelusuri nama Rutkowski akan sering menghasilkan seni AI yang dibuat agar terlihat seperti karyanya, tetapi tidak Sebenarnya dia bekerja.

Lebih buruk lagi, seni yang dihasilkan AI seringkali menyoroti bias ras manusia. Craiyon bahkan memiliki peringatan di bagian bawah halaman muka di FAQ, yang menyatakan bahwa "karena model dilatih pada data yang tidak difilter dari Internet, mungkin menghasilkan gambar yang mengandung stereotip berbahaya." Akibatnya, memasukkan petunjuk seperti "eksekutif perusahaan" akan paling sering mengembalikan gambar pria kulit putih di jas. Demikian pula, memasukkan "guru" sebagai prompt hampir selalu mengembalikan perempuan ke ruang kelas.

Masa depan seni yang dihasilkan AI

Mengingat tampaknya industri tidak melambat (dan regulasi tidak mengejar), kami berharap untuk melihat lebih banyak kemajuan di bidang ini. Fakta bahwa kami telah beralih dari kemampuan Dall-E 2 (meskipun bersifat pribadi) ke Stable Diffusion hanya dalam beberapa bulan menunjukkan seberapa besar industri ini, dan seberapa besar potensi industri ini menjadi. Gambar yang sebelumnya dapat dikontrakkan ke tim artis kini dapat dibuat dalam hitungan detik, dengan satu artis malah terlibat dalam proses untuk tujuan pemasyarakatan. Kami telah melihat bagaimana Midjourney dapat membantu Anda memenangkan kompetisi seni, misalnya, melalui Kantor Hak Cipta A.S. saat ini mengatakan bahwa Anda bahkan tidak dapat hak cipta gambar yang dihasilkan AI.

Seperti yang juga dinyatakan Holz dalam wawancaranya, biaya pelatihan setiap model saat ini adalah sekitar $50.000 -- atau lebih. Gambar juga memerlukan biaya karena dibuat di server yang sangat kuat, terutama ketika sejumlah besar pengguna datang untuk membuat gambar mereka sendiri. Ini akan menjadi penghalang biaya yang sangat besar untuk setiap pemain baru yang memasuki ruang, yang pada gilirannya dapat membuat beberapa perusahaan juga mundur. Namun, upaya awal seperti Stable Diffusion menjadi open source menjadi pertanda baik.

Akibatnya, kami akan menunggu dengan penuh semangat untuk melihat masa depan gambar AI. Ruang telah berkembang begitu cepat dalam setahun terakhir, dan tampaknya kemajuan baru dibuat setiap hari. Namun, dengan sekilas manipulasi gambar berbasis AI bahkan datang ke smartphone kita, ada banyak hal yang bisa terjadi dalam satu atau dua tahun ke depan.