ما هو مولد صور AI وكيف يعمل؟

أحدثت مولدات الصور التي تعمل بالذكاء الاصطناعي الكثير من الضجة مؤخرًا ، ولكن قد يكون من الصعب فهمها. إليك كل ما تحتاج لمعرفته عنهم.

في عام 2022 ، رأينا ظهور بعض مولدات تحويل النص إلى صورة مذهلة. أول من أطلق الموجة الكبيرة كان Dall-E 2 ، مع وصول Stable Diffusion بعد فترة قصيرة. منذ ذلك الحين ، رأينا وصول أدوات أخرى أيضًا ، بما في ذلك Midjourney و Craiyon وحتى TikTok إلى درجة معينة. هناك مخاوف متزايدة عندما يتعلق الأمر بأدوات إنشاء الصور بالذكاء الاصطناعي ، والتي تتعلق في المقام الأول بأخلاقيات مثل هذه الأدوات عندما يمكنهم إنشاء صور لأشخاص حقيقيين في أماكن أو مواقف لم تكن كذلك في الواقع في.

ومع ذلك ، لا توجد أخلاقيات فقط يجب مراعاتها أيضًا. يتم تدريب مولدات الصور بالذكاء الاصطناعي على ملايين وملايين الصور وتعلموا التعرف عليها أشياء عن طريق الصور الحالية الفعلية التي تم إنشاؤها بواسطة أشخاص حقيقيين. متى يصبح انتهاك حقوق النشر؟ إذا قام الذكاء الاصطناعي الخاص بك بإنشاء صورة تبدو مشابهة جدًا لتصميم آخر ، واستمر منشئ تلك الصورة في مشاركتها تجاريًا ، فهل يتحمل شخص ما أي أضرار؟ إذا كان الأمر كذلك ، فمن؟ من هو "الفنان" في هذه الحالة؟

هناك طن من الأسباب التي تجعلك حذرًا من مولدات صور الذكاء الاصطناعي ، وهذه المخاوف الأخلاقية والمتعلقة بالسلامة هي مجرد خدش السطح. يمكن استخدام هذه الأدوات لإنشاء صور مزيفة يمكن استخدامها لدفع السرد ، وستزداد سوءًا بمرور الوقت أيضًا. نظرًا للقدرات المذهلة لأدوات إنشاء الصور هذه بالفعل ، من المخيف التفكير فيما سيكونون قادرين على القيام به قريبًا. ومع ذلك ، إذا كنت ترغب في عمل صور جميلة والاستمتاع ببعض المرح ، فلا ضرر على الإطلاق من ذلك.

انتشار مستقر

Stable Diffusion هو مصدر الإلهام وراء هذه المقالة والأداة التي كنت ألعب بها مع ملف كثير حديثاً. يتم تشغيله محليًا على جهاز الكمبيوتر الخاص بك (لذا فأنت لا تقاتل من أجل الموارد مع مستخدمين آخرين لبعض الأدوات عبر الإنترنت) وهي واحدة من أقوى الأدوات التي يمكنك استخدامها حاليًا. لا يسمح لك فقط بضبط عدد كبير من المعلمات ، ولكن يمكنك أيضًا التحكم في عملية التوليد بأكملها.

الانتشار المستقر يعاني من نفس مخاطر الذكاء الاصطناعي ، مع "الخطر" الإضافي المتمثل في إمكانية الوصول. يمكن لأي شخص يمتلك جهاز كمبيوتر قويًا إعداده وتشغيله بسرعة. باستخدام i7-12700KF و RTX 3080 و 32 جيجابايت من ذاكرة الوصول العشوائي وإنترنت جيجابت ، تمكنت من إعداد Stable Diffusion وإنشاء صوري الأولى في غضون ساعة. جهاز الكمبيوتر الخاص بي هو بالتأكيد على نهاية أعلى، ولكن يمكنك الابتعاد عن تشغيله أجهزة أضعف (على الرغم من أنه لا يمكنك إنشاء صور كبيرة مع انخفاض vRAM وسيستغرق الأمر وقتًا أطول).

أفضل شيء في Stable Diffusion هو أنه مفتوح المصدر بالكامل. يمكنك تنفيذ الدعم له في أي من مشاريعك اليوم إذا كنت ترغب في ذلك ، وهناك بالفعل مكونات إضافية مثل Alpaca يمكنك استخدامها للتكامل مع Photoshop. إنها ليست مثالية بعد ، لكن ما زال الوقت مبكرًا للغاية في تطوير هذه البرامج. يمكنك استخدام ستوديو دريم إما إذا كنت ترغب في ذلك ، على الرغم من أن ذلك يكلف مالًا وهو مقيد بعض الشيء مقابل إعداده محليًا.

علاوة على ذلك ، إذا قمت بإعداد Stable Diffusion محليًا ، فهناك مفترقات مثل AUTOMATIC1111's Stable Diffusion WebUI التي تأتي مع أداة مدمجة عالية المستوى يمكنها زيادة الدقة حتى أربع مرات أعلى. بينما يمكنك إنشاء صور بدقة أعلى ، غالبًا ما يكون إنشاء صورة بدقة أقل ثم تحسينها أسرع بكثير. تمت ترقية جميع الصور أدناه من دقة أصغر.

تم تدريب Stable Diffusion على مجموعة مكونة من 4000 وحدة معالجة رسومات Nvidia A100 تعمل في AWS وتم إجراء التدريب على مدار شهر. لديها القدرة على إنشاء صور للمشاهير ولديها مرشح NSFW مدمج أيضًا. يمكنك تعطيل مرشح NSFW هذا في عمليات التثبيت المحلية ، لأنه يوفر بالفعل الموارد عن طريق تقليل استخدام VRAM. أما ما تعنيه عبارة "Diffusion" ، فهي عملية البدء بالضوضاء الصافية والتحسين بمرور الوقت. يجعل الصورة أقرب بشكل تدريجي إلى مطالبة النص بمرور الوقت حتى لا يتم ترك أي تشويش. هذه هي نفس طريقة عمل Dall-E 2.

أخيرًا ، هناك ميزة أخرى ممتعة في Stable Diffusion وهي "img2img". في هذا ، تقوم بإعطائها صورة كموجه ، ووصف ما تريد أن تكون عليه الصورة ، ثم دعها تمنحك سليم رسم.

لقد أعطيته نموذجًا للعمل معه وحصلت على صورة جيدة جدًا. أنا متأكد من أنه مع توجيهات أفضل (متناقضة إلى حد ما) ، يمكنك أن تتحسن. ومع ذلك ، ليس سيئًا على الإطلاق لشيء استغرق مني حوالي خمس دقائق.

باختصار ، يعد Stable Diffusion مجانيًا وسهل الإعداد ، وتتمثل المشكلة الأكبر في مدى سهولة الوصول إليه. إذا لم يكن لديك جهاز كمبيوتر قوي بما يكفي ، فستحتاج إلى الدفع لاستخدامه من خلال أمثال Dream Studio.

كرايون

كان Craiyon يُعرف سابقًا باسم DALL · E Mini ، على الرغم من الاسم ، لا علاقة له بـ Dall-E 2. تم إنشاؤه من أجل إعادة إنتاج نتائج نموذج تحويل النص إلى صورة DALL · E الخاص بـ OpenAI. Craiyon متاح للجمهور ويمكن استخدامه لإنشاء صور لائقة بشكل مدهش ، على الرغم من أن الصور ليست دقيقة ، كما أنها ليست عالية الجودة. تبلغ دقة الصورة الحد الأقصى 256 × 256 ، ولا توجد أدوات للترقية أيضًا.

Craiyon مجاني تمامًا للاستخدام ويمكن الوصول إليه من خلال موقعه على الويب. يمكنك إنشاء أي صورة عبر أي مطالبة ، والمصيد الوحيد هو أن الصور ذات جودة أقل وأنك ستحتاج إلى الانتظار دقيقتين أو نحو ذلك لكل دفعة من الصور التي يتم إنشاؤها. بدأ Craiyon كنموذج مفتوح المصدر يهدف إلى إعادة إنتاج نتائج نموذج DALL · E الأولي. يُعرف النموذج المستخدم الآن باسم DALL · E Mega ، وهو يحتوي على العديد من التحسينات.

على عكس الخيارات الأخرى هنا ، يتم دعم Craiyon من خلال عائدات الإعلانات. نتيجة لذلك ، سترى رعاية مدفوعة وإعلانات أخرى على موقعة على الإنترنت عندما تزور. يوجد أيضًا تطبيق للهواتف الذكية التي تعمل بنظام Android. إنها ليست الأكثر تعقيدًا ، ولكنها ممتعة وسهلة الاستخدام ويمكن الوصول إليها.

Craiyon - مولد الصور بالذكاء الاصطناعيمطور: كرايون

مجاني.

3.9.

تحميل

Dall-E 2

Dall-E 2 هو منتج لمختبر أبحاث OpenAI وهو أشهر منشئ صور AI الذي يفكر فيه الناس. إنها أداة مغلقة ذات وصول محدود ، ولكن بالنسبة لأولئك الذين يمكنهم الوصول إليها ، فإن بعض النتائج التي يمكن أن تأتي بها لا تصدق. تم إغلاقها في البداية بسبب المخاوف المحيطة بأخلاقيات هذه الأداة وسلامتها ، على الرغم من أنها توسعت تدريجياً بمرور الوقت.

واحدة من أكبر المزايا التي يتمتع بها Dall-E 2 هي القدرة على إنشاء صور واقعية لا يمكن تمييزها في لمحة من الصور الحقيقية. يمكنه إنشاء لوحات وصور يبدو أنه تم التقاطها بكاميرات حقيقية وسيناريوهات مكونة بالكامل. لقد مثلت قفزة هائلة في قدرات الذكاء الاصطناعي عندما تم الإعلان عنها لأول مرة ، سواء من حيث قدرتها على إنشاء الصور أو في معالجة اللغة الطبيعية ، والمعروفة باسم NLP. هذا بفضل تطبيقه لـ GPT-3 ، وهو أحد أكثر النماذج اللغوية تقدمًا ، وهو من تأليف OpenAI أيضًا.

تمامًا كما هو الحال مع Stable Diffusion ، فإن Dall-E 2 لديه أيضًا قدرته الخاصة على التقاط الصور الموجودة وتعديلها بناءً على مطالبة. يمكنك تحرير الصور من خلاله عن طريق مطالبتهم بإضافة شيء ما إلى صورة ، أو حتى مطالبتهم بإزالة شيء ما أو تغيير الإضاءة. أعلنت شركة OpenAI أنها تقوم بإنشاء صور مربعة فقط الزائدة الشهر الماضي يمكن أن يوسع صورك على نطاق أوسع ، مع مراعاة سياق ما هو متاح بالفعل في صورتك المربعة.

Dall-E 2 متاح للجميع لتجربته.

ميدجورني

تعد Midjourney مثيرة للاهتمام لأنها منصة عامة يمكنها إنشاء الصور ، على الرغم من قيامك بذلك من خلال خادم Discord. ليس هذا فقط ، ولكن بعد إنشاء 25 صورة ، ستحتاج إلى الاشتراك في الخدمة لمواصلة إنشاء صور جديدة.

بينما ميدجورني من المحتمل أن يكون النظام الأساسي الذي يمكن الوصول إليه هنا (نظرًا لأنه يمكنك الوصول إليه من أي جهاز باستخدام حساب Discord) ، فإنه يكلفك أيضًا أموالًا. ومع ذلك ، فإنك تحصل على الجودة منه. قام مستخدم الخدمة ، جيسون ألين ، بإنشاء قطعة أطلق عليها اسم "Théâtre D'opéra Spatial". دخلها في مسابقة فنون معرض ولاية كولورادو... وفاز.

على عكس هذه المشاريع الأخرى ، فإن Midjourney هو برنامج ذكاء اصطناعي خاص. لا يوجد رمز مصدر يمكنك الاطلاع عليه ، والغرض الكامل منه في هذه المرحلة الزمنية يقتصر على الاستخدام داخل خادم Discord. بالنسبة لسبب كونه خادم Discord فقط ، قال David Holz ، مؤسس Midjourney ، ما يلي الحافة في مقابلة.

بدأنا اختبار التقنية الأولية في سبتمبر من العام الماضي ، وكنا على الفور نجد أشياء مختلفة حقًا. وجدنا بسرعة أن معظم الناس لا يعرفون ما يريدون. أنت تقول: "هذه آلة يمكنك تخيل أي شيء بها - ماذا تريد؟" ويذهبون: "كلب". وتذهب "حقًا؟" ويذهبون إلى "كلب وردي". إذا أعطيتهم صورة لكلب ، فيذهبوا "على ما يرام" ثم يذهبون يفعلون شيئًا آخر.

بينما إذا وضعتهم في مجموعة ، فسيذهبون إلى "كلب" وسيذهب شخص آخر إلى "كلب الفضاء" وسيذهب شخص آخر إلى "كلب الفضاء الأزتك" ، وبعد ذلك فجأة ، يفهم الناس الاحتمالات ، وأنت تخلق هذا الخيال المعزز - بيئة حيث يمكن للناس التعلم واللعب مع هذا الجديد سعة. لذلك وجدنا أن الناس يحبون التخيل معًا ، ولذا جعلنا [Midjourney] اجتماعيًا.

في ذلك الوقت ، ستواجه أيضًا مشكلة في توجيهها بعيدًا عن أسلوب "Midjourney" الافتراضي ، إذا جاز التعبير. هذا وفقًا لهولز ، على أي حال ، في نفس المقابلة.

[W] لدينا نمط ومظهر افتراضي ، وهو فني وجميل ، ومن الصعب إبعاد [النموذج] عن ذلك.

ومع ذلك ، منذ ذلك الحين ، طرحت الشركة نموذجين جديدين - "test" و "testp". "test" هو نموذج للأغراض العامة ، و "testp" يركز فقط على الصورة الواقعية. نتيجة لذلك ، ستتمكن من الابتعاد عن ذلك أكثر تقصير البحث وإنشاء صور من أنواع أكثر إذا كنت ترغب في ذلك.

مخاطر وأخلاقيات الفن الناتج عن الذكاء الاصطناعي

على الرغم من أن الفن المولّد بواسطة الذكاء الاصطناعي رائع ، إلا أنه يفرض عددًا من المخاطر على المجتمع ككل. في عصر يصعب فيه تحديد الأوقات التي يتم فيها إخراج الأخبار من سياقها أو بشكل مباشر ملفقة ، هناك خطر عندما يمكن صنع الصور في غضون دقائق بالشكل والملمس حقيقي. على سبيل المثال ، ألق نظرة على الصور التي أنشأتها أدناه. تم إنشاء أحدهما باستخدام Stable Diffusion ، والآخر تم إنشاؤه باستخدام Craiyon.

موجه: "جسم غامض تحطم في روزويل ، 1947 ، إضاءة ، تحقيق عام بالجيش ، إضاءة استوديو"

تُظهر الصور أعلاه جسمًا طائرًا متحطمًا في روزويل وتظهر الصورة الأولى ما يشبه شخصًا يمشي فوق جسم غامض محطم. بينما تم إنشاء الصورة هنا بغرض إظهار صورة مزيفة ، يبدو أنها قد تكون حقيقية. يمكن تفسير أي قطع أثرية من خلال حقيقة أن الصور في عام 1947 كانت ذات جودة رديئة على أي حال ، ويمكن أن تجتاز كلتا الصورتين اختبار العين بنظرة سريعة على كونها حقيقية. لا تحتاج حتى إلى أحد أفضل أجهزة الكمبيوتر للقيام بشيء من هذا القبيل ، لأن Craiyon هو تطبيق مجاني.

حيث يصبح الأمر أكثر قتامة هو أنه يمكنك فعلاً حدد فنان تريد أن تستلهم الخوارزمية منه. فنان شائع هو جريج روتكوفسكي ، الذي تحدث علانية ضد استخدام اسمه في الفن الذي تم إنشاؤه بواسطة الذكاء الاصطناعي. يُصنف اسمه كواحد من أكثر المحفزات شيوعًا المستخدمة في إنشاء الصور. "أ. يجب أن تستبعد الفنانين الأحياء من قاعدة بياناتها ، "Rutkowski أخبر ارتنت في مقابلة ، "ركز على الأعمال الموجودة في المجال العام." غالبًا ما يؤدي البحث عن اسم Rutkowski إلى إرجاع فن الذكاء الاصطناعي الذي تم إنشاؤه ليبدو وكأنه عمله ولكنه ليس كذلك في الحقيقة عمله.

والأسوأ من ذلك أن الفن المولَّد بواسطة الذكاء الاصطناعي يمكن أن يسلط الضوء في كثير من الأحيان على تحيزات الجنس البشري. حتى أن Craiyon لديه تحذير في أسفل صفحته الرئيسية في الأسئلة الشائعة ، يفيد بأنه "نظرًا لأن النموذج تم تدريبه على بيانات غير مفلترة من الإنترنت ، فقد إنشاء صور تحتوي على قوالب نمطية ضارة. ونتيجة لذلك ، سيؤدي إدخال رسائل مطالبة مثل "مدير الشركة" في أغلب الأحيان إلى عرض صور لرجال بيض في بدلة. وبالمثل ، فإن إدخال "المعلم" على سبيل الحث سيعيد النساء في الفصول الدراسية بشكل شبه دائم.

مستقبل الفن المولّد بالذكاء الاصطناعي

بالنظر إلى أنه يبدو أن الصناعة لا تتباطأ (والتنظيم لا يلحق بالركب) ، نتوقع رؤية المزيد من التقدم في هذه المجالات. حقيقة أننا انتقلنا من قدرات Dall-E 2 (حتى لو كانت خاصة) إلى الانتشار المستقر في غضون بضعة أشهر فقط ، يظهر حجم هذه الصناعة ، ومدى ضخامة هذه الصناعة يكون. يمكن الآن إنشاء الصور التي كان من الممكن التعاقد عليها سابقًا مع فريق من الفنانين في ثوانٍ ، مع فنان واحد بدلاً من ذلك يشارك في العملية لأغراض إصلاحية. لقد رأينا بالفعل كيف يمكن أن تساعدك Midjourney في الفوز بمسابقة فنية ، على سبيل المثال ، من خلال مكتب حقوق الطبع والنشر بالولايات المتحدة يقول حاليا أنه لا يمكنك حتى حقوق الطبع والنشر للصور التي تم إنشاؤها بواسطة AI.

كما ذكر هولز أيضًا في مقابلته ، فإن التكلفة الحالية لتدريب كل نموذج تبلغ حوالي 50000 دولار - أو أكثر. تكلف الصور أيضًا أموالًا نظرًا لأنها يتم إنشاؤها على خوادم ضخمة بشكل لا يصدق ، خاصةً عندما يأتي عدد كبير من المستخدمين لإنشاء صورهم الخاصة. سيكون الأمر باهظ التكلفة للغاية لأي لاعبين جدد يدخلون الفضاء ، مما قد يؤدي بدوره إلى إيقاف بعض الشركات أيضًا. ومع ذلك ، فإن الجهود الأولية مثل Stable Diffusion كونها مفتوحة المصدر تبشر بالخير.

نتيجة لذلك ، سننتظر بحماس لرؤية مستقبل صور الذكاء الاصطناعي. لقد تطورت المساحة بسرعة كبيرة في العام الماضي ، ويبدو أنه يتم إحراز تقدم جديد يوميًا. ومع ذلك ، مع لمحات من معالجة الصور القائمة على الذكاء الاصطناعي حتى الوصول إلى هواتفنا الذكية، هناك الكثير مما يمكن أن يحدث في العام أو العامين المقبلين.