AI इमेज जेनरेटर क्या है और यह कैसे काम करता है?

एआई छवि जनरेटर ने हाल ही में बहुत चर्चा पैदा की है, लेकिन उन्हें समझना मुश्किल हो सकता है। यहां वह सब कुछ है जो आपको उनके बारे में जानने की जरूरत है।

2022 में, हमने कुछ अविश्वसनीय टेक्स्ट-टू-इमेज जनरेटर का आगमन देखा है। बड़ी लहर शुरू करने वाला पहला था डैल-ई 2, जिसके थोड़ी देर बाद स्टेबल डिफ्यूजन आया। तब से, हमने अन्य टूल भी आते देखे हैं, जिनमें कुछ हद तक मिडजॉर्नी, क्रेयॉन और यहां तक कि टिकटॉक भी शामिल हैं। जब एआई इमेज-जनरेटिंग टूल की बात आती है, तो चिंताएं बढ़ रही हैं, जो मुख्य रूप से नैतिकता से संबंधित हैं ऐसे उपकरण जब वे स्थानों या स्थितियों में वास्तविक लोगों की छवियां उत्पन्न कर सकते हैं जो वे वास्तव में नहीं थे में।

हालाँकि, विचार करने के लिए केवल नैतिकता ही नहीं है। एआई इमेज जेनरेटर को लाखों-करोड़ों तस्वीरों पर प्रशिक्षित किया जाता है और पहचानना सीख लिया जाता है चीज़ें वास्तविक लोगों द्वारा बनाई गई वास्तविक मौजूदा तस्वीरों के माध्यम से। यह कब कॉपीराइट उल्लंघन बन जाता है? यदि आपका AI गलती से एक ऐसी छवि उत्पन्न करता है जो किसी अन्य डिज़ाइन के समान दिखती है, और उस छवि का निर्माता इसे व्यावसायिक रूप से साझा करता है, तो क्या कोई किसी भी क्षति के लिए उत्तरदायी है? यदि हां, तो कौन? इस मामले में "कलाकार" कौन है?

यहां एक है टन एआई छवि जनरेटर से सावधान रहने के कई कारण हैं, और ये नैतिक और सुरक्षा संबंधी चिंताएँ केवल सतह को खरोंच रही हैं। इन उपकरणों का उपयोग नकली छवियां बनाने के लिए किया जा सकता है जिनका उपयोग किसी कथा को आगे बढ़ाने के लिए किया जा सकता है, और वे समय के साथ और भी खराब हो जाएंगे। इन छवि निर्माण उपकरणों की पहले से ही अविश्वसनीय क्षमताओं को देखते हुए, यह सोचना डरावना है कि वे बहुत जल्द क्या करने में सक्षम होंगे। हालाँकि, यदि आप सुंदर चित्र बनाना चाहते हैं और कुछ मजा करना चाहते हैं, तो इसमें कोई बुराई नहीं है।

स्थिर प्रसार

स्टेबल डिफ्यूजन इस लेख के पीछे की प्रेरणा है और एक उपकरण है जिसके साथ मैं खेल रहा हूं बहुत हाल ही में। यह आपके कंप्यूटर पर स्थानीय रूप से चलता है (इसलिए आप किसी ऑनलाइन टूल के अन्य उपयोगकर्ताओं के साथ संसाधनों के लिए नहीं लड़ रहे हैं) और यह सबसे शक्तिशाली में से एक है जिसका आप वर्तमान में उपयोग कर सकते हैं। यह न केवल आपको ढेर सारे मापदंडों को ठीक करने की अनुमति देता है, बल्कि आप संपूर्ण पीढ़ी प्रक्रिया को भी नियंत्रित कर सकते हैं।

स्थिर प्रसार एक्सेसिबिलिटी के अतिरिक्त "खतरे" के साथ सभी समान एआई नुकसानों से ग्रस्त है। पर्याप्त शक्तिशाली कंप्यूटर वाला कोई भी व्यक्ति इसे सेट कर सकता है और इसे तेज़ी से चला सकता है। i7-12700KF, RTX 3080, 32GB RAM और गीगाबिट इंटरनेट के साथ, मैं स्टेबल डिफ्यूजन सेट करने और एक घंटे के भीतर अपनी पहली छवियां बनाने में सक्षम था। मेरा पीसी निश्चित रूप से चालू है उच्चतर अंत, लेकिन आप इसे चालू करके बच सकते हैं कमज़ोर हार्डवेयर (हालांकि आप कम वीआरएएम के साथ इतनी बड़ी छवियां नहीं बना सकते हैं और इसमें अधिक समय लगेगा)।

स्टेबल डिफ्यूजन के बारे में सबसे अच्छी बात यह है कि यह पूरी तरह से खुला स्रोत है। यदि आप चाहें तो आज आप अपने किसी भी प्रोजेक्ट में इसके लिए समर्थन लागू कर सकते हैं, और अल्पाका जैसे प्लगइन पहले से ही मौजूद हैं जिनका उपयोग आप फ़ोटोशॉप के साथ एकीकृत करने के लिए कर सकते हैं। यह अभी तक पूर्ण नहीं है, लेकिन इन कार्यक्रमों का विकास अभी बेहद शुरुआती दौर में है। आप उपयोग कर सकते हैं ड्रीम स्टूडियो या तो यदि आप चाहें, हालांकि इसमें पैसा खर्च होता है और इसे स्थानीय स्तर पर स्थापित करने की तुलना में यह थोड़ा प्रतिबंधात्मक है।

इसके अलावा, यदि आप स्थानीय स्तर पर स्टेबल डिफ्यूजन स्थापित करते हैं, तो जैसे फोर्क भी मौजूद हैं ऑटोमैटिक1111 का स्थिर प्रसार वेबयूआई यह एक अंतर्निर्मित अपस्केल टूल के साथ आता है जो रिज़ॉल्यूशन को चार गुना तक बढ़ा सकता है। हालाँकि आप उच्च रिज़ॉल्यूशन पर छवियाँ उत्पन्न कर सकते हैं, लेकिन कम रिज़ॉल्यूशन पर छवि बनाना और फिर उसे अपग्रेड करना अक्सर बहुत तेज़ होता है। नीचे दी गई सभी छवियां छोटे रिज़ॉल्यूशन से उन्नत की गई हैं।

स्टेबल डिफ्यूजन को AWS में चल रहे 4,000 एनवीडिया A100 GPU के क्लस्टर पर प्रशिक्षित किया गया था और यह एक महीने से अधिक समय तक चला। इसमें मशहूर हस्तियों की छवियां उत्पन्न करने की क्षमता है और इसमें एक अंतर्निहित NSFW फ़िल्टर भी है। आप इस NSFW फ़िल्टर को स्थानीय इंस्टॉलेशन पर अक्षम कर सकते हैं, क्योंकि यह वास्तव में VRAM उपयोग को कम करके संसाधनों की बचत करता है। जहां तक "डिफ्यूजन" का मतलब है, यह शुद्ध शोर से शुरू होने और समय के साथ परिष्कृत होने की प्रक्रिया है। यह समय के साथ छवि को धीरे-धीरे टेक्स्ट प्रॉम्प्ट के करीब ले जाता है जब तक कि कोई शोर न रह जाए। यह उसी तरह है जैसे Dall-E 2 काम करता है।

अंत में, स्टेबल डिफ्यूजन की एक और मजेदार सुविधा "img2img" है। इसमें, आप इसे एक संकेत के रूप में एक छवि देते हैं, वर्णन करते हैं कि आप छवि को क्या चाहते हैं, और फिर इसे आपको एक संकेत देने दें उचित चित्रकला।

मैंने इसे काम करने के लिए एक टेम्पलेट दिया और मुझे एक बहुत अच्छी छवि वापस मिली। मुझे यकीन है कि बेहतर संकेतों (मेरा कुछ हद तक विरोधाभासी है) के साथ, आप और भी बेहतर हो सकते हैं। फिर भी, उस चीज़ के लिए बिल्कुल भी बुरा नहीं है जिसे बनाने में मुझे लगभग पाँच मिनट लगे।

संक्षेप में, स्टेबल डिफ्यूजन मुफ़्त है, स्थापित करना आसान है, और सबसे बड़ा मुद्दा यह है कि यह कितना सुलभ है। यदि आपके पास पर्याप्त शक्तिशाली पीसी नहीं है, तो आपको ड्रीम स्टूडियो जैसी कंपनियों के माध्यम से इसका उपयोग करने के लिए भुगतान करना होगा।

क्रेयॉन

क्रेयॉन को पहले DALL·E मिनी के नाम से जाना जाता था, हालांकि नाम के बावजूद, इसका Dall-E 2 से कोई संबंध नहीं है। इसे OpenAI के DALL·E टेक्स्ट-टू-इमेज मॉडल के परिणामों को पुन: पेश करने के लिए बनाया गया था। क्रेयॉन जनता के लिए उपलब्ध है और इसका उपयोग ऐसी छवियां उत्पन्न करने के लिए किया जा सकता है जो आश्चर्यजनक रूप से सभ्य हैं, हालांकि छवियां उतनी सटीक नहीं हैं, न ही वे उतनी उच्च गुणवत्ता वाली हैं। छवि रिज़ॉल्यूशन अधिकतम 256x256 है, और कोई अपस्केलिंग उपकरण भी नहीं हैं।

क्रेयॉन का उपयोग पूरी तरह से मुफ़्त है और इसकी वेबसाइट के माध्यम से इसे एक्सेस किया जा सकता है। आप किसी भी संकेत के माध्यम से कोई भी छवि उत्पन्न कर सकते हैं, और एकमात्र समस्या यह है कि छवियां निम्न गुणवत्ता वाली हैं और आपको उत्पन्न छवियों के प्रत्येक बैच के लिए दो मिनट या उससे भी अधिक समय तक इंतजार करना होगा। क्रेयॉन की शुरुआत एक ओपन-सोर्स मॉडल के रूप में हुई जिसका उद्देश्य प्रारंभिक DALL·E मॉडल के परिणामों को पुन: प्रस्तुत करना था। अब उपयोग किया जा रहा मॉडल DALL·E मेगा के नाम से जाना जाता है, और इसमें कई सुधार शामिल हैं।

क्रेयॉन, यहां अन्य विकल्पों के विपरीत, विज्ञापन राजस्व द्वारा समर्थित है। परिणामस्वरूप, आपको सशुल्क प्रायोजन और अन्य विज्ञापन दिखाई देंगे उनकी वेबसाइट जब आप आते हैं। एंड्रॉइड स्मार्टफोन के लिए भी एक ऐप है। यह सबसे परिष्कृत नहीं है, लेकिन यह मज़ेदार, उपयोग में आसान और सुलभ है।

क्रेयॉन - एआई इमेज जेनरेटरडेवलपर: क्रेयॉन

कीमत: मुफ़्त.

3.9.

डाउनलोड करना

दल-ई 2

Dall-E 2 OpenAI अनुसंधान प्रयोगशाला का एक उत्पाद है और यह सबसे प्रसिद्ध AI छवि जनरेटर है जिसके बारे में लोग सोचते हैं। यह सीमित पहुंच वाला एक बंद उपकरण है, लेकिन जो लोग इसे एक्सेस कर सकते हैं, उनके लिए इसके कुछ परिणाम अविश्वसनीय हो सकते हैं। ऐसे उपकरण की नैतिकता और सुरक्षा से जुड़ी चिंताओं के कारण इसे शुरू में बंद कर दिया गया था, हालांकि समय के साथ इसका धीरे-धीरे विस्तार हुआ है।

Dall-E 2 के सबसे बड़े फायदों में से एक फोटोरिअलिस्टिक छवियां बनाने की क्षमता है, जो एक नज़र में, वास्तविक तस्वीरों से अलग होती हैं। यह पेंटिंग्स, छवियां उत्पन्न कर सकता है जो वास्तविक कैमरे पर कैद की गई लगती हैं, और पूरी तरह से बने परिदृश्य। जब इसकी पहली बार घोषणा की गई तो इसने एआई की क्षमताओं में भारी उछाल का प्रतिनिधित्व किया, चित्र बनाने की इसकी क्षमताओं और प्राकृतिक भाषा प्रसंस्करण, जिसे एनएलपी के रूप में जाना जाता है, दोनों में। यह GPT-3 के कार्यान्वयन के लिए धन्यवाद है, जो कि सबसे उन्नत भाषा मॉडल में से एक है और OpenAI द्वारा भी लिखा गया है।

स्टेबल डिफ्यूज़न की तरह, Dall-E 2 में भी मौजूदा छवियों को लेने और संकेत के आधार पर उन्हें संशोधित करने की अपनी क्षमता है। आप इसके माध्यम से किसी छवि में कुछ जोड़ने के लिए कहकर फ़ोटो संपादित कर सकते हैं, या यहां तक कि उसे कुछ हटाने या प्रकाश व्यवस्था बदलने के लिए भी कह सकते हैं। हालाँकि यह केवल वर्गाकार छवियाँ बनाता है, OpenAI ने घोषणा की आउटपेंटिंग पिछले महीने जो आपकी वर्गाकार छवि में पहले से ही उपलब्ध है, उसके संदर्भ को ध्यान में रखते हुए, आपकी छवियों को व्यापक रूप से विस्तारित कर सकता है।

दल-ई 2 सभी को आज़माने के लिए उपलब्ध है।

मध्ययात्रा

मिडजर्नी एक दिलचस्प मंच है क्योंकि यह एक सार्वजनिक मंच है जो छवियां उत्पन्न कर सकता है, हालांकि आप इसे डिस्कॉर्ड सर्वर के माध्यम से करते हैं। इतना ही नहीं, बल्कि 25 छवियां बनाने के बाद, आपको नई छवियां बनाना जारी रखने के लिए सेवा की सदस्यता लेनी होगी।

जबकि मध्ययात्रा संभवतः यहां सबसे सुलभ मंच है (बशर्ते आप इसे डिस्कॉर्ड खाते के साथ किसी भी डिवाइस से एक्सेस कर सकते हैं), इसमें आपके पैसे भी खर्च होते हैं। हालाँकि, आपको इससे गुणवत्ता प्राप्त होती है। सेवा के एक उपयोगकर्ता, जेसन एलन ने एक टुकड़ा बनाया जिसे उन्होंने "थिएटर डी'ओपेरा स्पैटियल" नाम दिया। उन्होंने इसे कोलोराडो राज्य मेला कला प्रतियोगिता में शामिल किया... और जीत गए.

इन अन्य परियोजनाओं के विपरीत, मिडजॉर्नी एक मालिकाना कृत्रिम बुद्धिमत्ता कार्यक्रम है। ऐसा कोई स्रोत कोड नहीं है जिसे आप देख सकें, और इस समय इसका संपूर्ण उद्देश्य डिस्कॉर्ड सर्वर के भीतर उपयोग तक ही सीमित है। यह केवल एक डिस्कोर्ड सर्वर क्यों है, इसके बारे में मिडजर्नी के संस्थापक डेविड होल्ज़ ने निम्नलिखित कहा कगार साक्षात्कार में।

हमने पिछले साल सितंबर में कच्ची तकनीक का परीक्षण शुरू किया था, और हमें तुरंत अलग-अलग चीजें मिल रही थीं। हमने बहुत जल्दी पाया कि अधिकांश लोग नहीं जानते कि वे क्या चाहते हैं। आप कहते हैं: "यहाँ एक मशीन है जिससे आप कुछ भी कल्पना कर सकते हैं - आप क्या चाहते हैं?" और वे कहते हैं: "कुत्ता।" और तुम जाओ "वास्तव में?" और वे "गुलाबी कुत्ता" बन गए। तो आप उन्हें कुत्ते की तस्वीर दें, और वे "ठीक" हो जाएं और फिर कुछ करें अन्यथा।

जबकि यदि आप उन्हें एक समूह में रखते हैं, तो वे "कुत्ता" जाएंगे और कोई अन्य "अंतरिक्ष कुत्ता" जाएगा और कोई और "एज़्टेक अंतरिक्ष कुत्ता" जाएगा, और फिर सभी अचानक, लोग संभावनाओं को समझते हैं, और आप इस संवर्धित कल्पना का निर्माण कर रहे हैं - एक ऐसा वातावरण जहां लोग सीख सकते हैं और इस नई चीज़ के साथ खेल सकते हैं क्षमता। इसलिए हमने पाया कि लोग वास्तव में एक साथ कल्पना करना पसंद करते हैं, और इसलिए हमने [मिडजर्नी] को सामाजिक बना दिया।

ऐसा कहने के लिए, आपको इसे डिफ़ॉल्ट "मिडजर्नी" शैली से दूर रखने में भी परेशानी होगी। होल्ज़ के अनुसार, वैसे भी, यह उसी साक्षात्कार में है।

[डब्ल्यू]ई की एक डिफ़ॉल्ट शैली और लुक है, और यह कलात्मक और सुंदर है, और [मॉडल] को उससे दूर धकेलना कठिन है।

हालाँकि, तब से, कंपनी ने दो नए मॉडल - "टेस्ट" और "टेस्टपी" लॉन्च किए हैं। "परीक्षण" एक सामान्य प्रयोजन मॉडल है, और "परीक्षण" पूरी तरह से फोटोरियलिज्म पर केंद्रित है। परिणामस्वरूप, आप उससे और अधिक दूर हो सकेंगे गलती करना यदि आप चाहें तो अधिक प्रकार की छवियां देखें और बनाएं।

एआई-जनित कला के खतरे और नैतिकता

एआई-जनित कला, शांत होते हुए भी, बड़े पैमाने पर समाज पर कई खतरे डालती है। ऐसे युग में जब कभी-कभी समाचार को संदर्भ से बाहर या सीधे-सीधे ले लिया जाता है तो यह बताना कठिन हो सकता है मनगढ़ंत, एक खतरा तब आता है जब कुछ ही मिनटों में देखने और महसूस करने वाली छवियां बनाई जा सकती हैं असली। उदाहरण के लिए, उन फ़ोटो पर एक नज़र डालें जिन्हें मैंने नीचे तैयार किया है। एक स्टेबल डिफ्यूजन का उपयोग करके उत्पन्न किया गया था, और दूसरा क्रेयॉन के साथ उत्पन्न किया गया था।

संकेत: "रोसवेल में दुर्घटनाग्रस्त यूएफओ, 1947, प्रकाश व्यवस्था, सेना के जनरल जांच, स्टूडियो प्रकाश व्यवस्था"

उपरोक्त तस्वीरें रोसवेल में एक दुर्घटनाग्रस्त यूएफओ को दर्शाती हैं और पहली छवि दिखाती है कि दुर्घटनाग्रस्त यूएफओ के शीर्ष पर चलने वाला एक व्यक्ति कैसा दिखता है। हालाँकि यहाँ छवि नकली तस्वीर दिखाने के उद्देश्य से बनाई गई थी, लेकिन ऐसा लगता है कि यह वास्तविक हो सकती है। किसी भी कलाकृति को इस तथ्य से समझाया जा सकता है कि 1947 में तस्वीरें वैसे भी खराब गुणवत्ता की रही होंगी, और दोनों छवियां वास्तविक होने पर एक त्वरित नज़र में आंखों की परीक्षा पास कर सकती थीं। आपको इनमें से किसी एक की भी आवश्यकता नहीं है सर्वोत्तम कंप्यूटर ऐसा कुछ करने के लिए, क्योंकि क्रेयॉन एक निःशुल्क एप्लिकेशन है।

जहां यह और भी अस्पष्ट हो जाता है वह यह है कि आप वास्तव में ऐसा कर सकते हैं उल्लिखित करना एक कलाकार जिससे आप चाहते हैं कि एल्गोरिदम प्रेरणा ले। एक आम कलाकार ग्रेग रुटकोव्स्की हैं, जिन्होंने एआई-जनरेटेड कला में अपने नाम के उपयोग के खिलाफ खुलकर बात की है। उनका नाम छवि निर्माण में उपयोग किए जाने वाले सबसे आम संकेतों में से एक है। “ए.आई. जीवित कलाकारों को अपने डेटाबेस से बाहर कर देना चाहिए,'' रुत्कोव्स्की कहा आर्टनेट एक साक्षात्कार में, "सार्वजनिक डोमेन के तहत कार्यों पर ध्यान केंद्रित करें।" रुत्कोव्स्की का नाम खोजने पर अक्सर एआई कला दिखाई देगी जो उनके काम की तरह दिखने के लिए तैयार की गई है लेकिन ऐसा नहीं है वास्तव में ऊनका काम।

इससे भी बुरी बात यह है कि एआई-जनित कला अक्सर मानव जाति के पूर्वाग्रहों को उजागर कर सकती है। क्रेयॉन के एफएक्यू में होम पेज के नीचे एक चेतावनी भी है, जिसमें कहा गया है कि "क्योंकि मॉडल को इंटरनेट से अनफ़िल्टर्ड डेटा पर प्रशिक्षित किया गया था, यह हो सकता है ऐसी छवियाँ उत्पन्न करें जिनमें हानिकारक रूढ़ियाँ हों।" परिणामस्वरूप, "कंपनी कार्यकारी" जैसे संकेत दर्ज करने से अक्सर श्वेत पुरुषों की छवियां वापस आ जाएंगी सूट. इसी तरह, "शिक्षक" को संकेत के रूप में दर्ज करने से लगभग हमेशा महिलाएं कक्षाओं में वापस आ जाएंगी।

एआई-जनित कला का भविष्य

यह देखते हुए कि ऐसा प्रतीत होता है कि उद्योग धीमा नहीं पड़ रहा है (और विनियमन गति नहीं पकड़ रहा है) हम इन क्षेत्रों में और भी अधिक प्रगति देखने की उम्मीद करते हैं। तथ्य यह है कि हम Dall-E 2 (भले ही यह निजी था) की क्षमताओं से स्थिर प्रसार तक चले गए हैं कुछ ही महीनों में पता चलता है कि यह कितना बड़ा उद्योग है, और यह संभावित रूप से कितना बड़ा उद्योग हो सकता है होना। वे छवियाँ जो पहले कलाकारों की एक टीम के साथ अनुबंधित की जा सकती थीं, अब सुधारात्मक उद्देश्यों के लिए प्रक्रिया में शामिल होने के बजाय एक एकल कलाकार के साथ सेकंडों में तैयार की जा सकती हैं। हम पहले ही देख चुके हैं कि कैसे मिडजॉर्नी आपको एक कला प्रतियोगिता जीतने में मदद कर सकता है, उदाहरण के लिए, यू.एस. कॉपीराइट कार्यालय के माध्यम से वर्तमान में कहते हैं कि आप AI-जनित छवियों का कॉपीराइट भी नहीं कर सकते।

जैसा कि होल्ज़ ने अपने साक्षात्कार में भी कहा था, प्रत्येक मॉडल के प्रशिक्षण की वर्तमान लागत लगभग $50,000 - या अधिक है। छवियों के पैसे भी खर्च होते हैं क्योंकि वे अविश्वसनीय रूप से सशक्त सर्वर पर उत्पन्न होते हैं, खासकर जब बड़ी संख्या में उपयोगकर्ता अपनी छवियां बनाने के लिए आते हैं। इस क्षेत्र में प्रवेश करने वाले किसी भी नए खिलाड़ी के लिए यह बड़े पैमाने पर लागत-निषेधात्मक होने वाला है, जो वास्तव में कुछ कंपनियों को भी रोक सकता है। हालाँकि, शुरुआती प्रयास जैसे कि स्टेबल डिफ्यूज़न का खुला स्रोत होना अच्छा संकेत है।

परिणामस्वरूप, हम एआई छवियों के भविष्य को देखने के लिए उत्साहपूर्वक प्रतीक्षा करेंगे। पिछले वर्ष में यह क्षेत्र इतनी तेजी से विकसित हुआ है, और ऐसा लगता है कि इसमें प्रतिदिन नई प्रगति हो रही है। हालाँकि, AI-आधारित छवि हेरफेर की झलक के साथ यहां तक कि हमारे स्मार्टफ़ोन पर भी आ रहा है, अगले एक या दो साल में बहुत कुछ हो सकता है।