რა არის AI გამოსახულების გენერატორი და როგორ მუშაობს იგი?

AI გამოსახულების გენერატორებმა ბოლო დროს ბევრი ხმაური შექმნეს, მაგრამ მათი გაგება შეიძლება რთული იყოს. აქ არის ყველაფერი, რაც თქვენ უნდა იცოდეთ მათ შესახებ.

2022 წელს ჩვენ ვნახეთ რამდენიმე წარმოუდგენელი ტექსტის გამოსახულების გენერატორების გამოჩენა. პირველი, ვინც დიდი ტალღა წამოიწია, იყო Dall-E 2, სტაბილური დიფუზია ცოტა ხნის შემდეგ ჩამოვიდა. მას შემდეგ ჩვენ ვნახეთ სხვა ინსტრუმენტები, მათ შორის Midjourney, Craiyon და გარკვეულწილად TikTok-იც. არსებობს მზარდი შეშფოთება, როდესაც საქმე ეხება ხელოვნური ინტელექტის გამოსახულების გენერირების ინსტრუმენტებს, რომლებიც, პირველ რიგში, ეხება ეთიკას. ასეთი ხელსაწყოები, როდესაც მათ შეუძლიათ შექმნან რეალური ადამიანების სურათები იმ ადგილებში ან სიტუაციებში, რომლებიც სინამდვილეში არ იყვნენ in.

თუმცა, გასათვალისწინებელია არა მხოლოდ ეთიკა. AI გამოსახულების გენერატორები გაწვრთნილნი არიან მილიონობით ფოტოზე და ისწავლეს იდენტიფიცირება რამ რეალური ადამიანების მიერ შექმნილი რეალური ფოტოების საშუალებით. როდის ხდება ეს საავტორო უფლებების დარღვევა? თუ თქვენი AI შემთხვევით წარმოქმნის სურათს, რომელიც ძალიან ჰგავს სხვა დიზაინს და ამ სურათის შემქმნელი განაგრძობს მას კომერციულად გაზიარებას, არის ვინმე პასუხისმგებელი რაიმე ზიანისთვის? თუ ასეა, ვინ? ვინ არის ამ შემთხვევაში თუნდაც "მხატვარი"?

არსებობს ა ტონა AI გამოსახულების გენერატორების მიმართ სიფრთხილის მიზეზი და ეს ეთიკური და უსაფრთხოების პრობლემები მხოლოდ ზედაპირს აფერხებს. ეს ხელსაწყოები შეიძლება გამოყენებულ იქნას ყალბი სურათების შესაქმნელად, რომლებიც შეიძლება გამოყენებულ იქნას ნარატივის გასაძლიერებლად და დროთა განმავლობაში ისინი მხოლოდ გაუარესდება. ამ გამოსახულების გენერირების ხელსაწყოების უკვე წარმოუდგენელი შესაძლებლობების გათვალისწინებით, საშინელებაა იმის ფიქრი, თუ რის გაკეთებას შეძლებენ ისინი ძალიან მალე. თუმცა, თუ გსურთ ლამაზი სურათების გადაღება და გართობა, მაშინ ამაში არანაირი ზიანი არ არის.

სტაბილური დიფუზია

სტაბილური დიფუზია არის შთაგონება ამ სტატიის მიღმა და ინსტრუმენტი, რომელსაც მე ვთამაშობდი ბევრი ცოტა ხნის წინ. ის მუშაობს ადგილობრივად თქვენს კომპიუტერზე (ასე რომ თქვენ არ იბრძვით რესურსებისთვის ზოგიერთი ონლაინ ინსტრუმენტის სხვა მომხმარებლებთან) და ის არის ერთ-ერთი ყველაზე ძლიერი, რომლის გამოყენებაც ამჟამად შეგიძლიათ. ეს არა მხოლოდ საშუალებას გაძლევთ დაარეგულიროთ მრავალი პარამეტრი, არამედ შეგიძლიათ აკონტროლოთ მთელი გენერირების პროცესი.

Stable Diffusion განიცდის ყველა იგივე AI ხაფანგს, ხელმისაწვდომობის დამატებით „საფრთხეს“. ნებისმიერს, რომელსაც აქვს საკმარისად ძლიერი კომპიუტერი, შეუძლია მისი დაყენება და სწრაფად გაშვება. i7-12700KF-ით, RTX 3080-ით, 32 GB ოპერატიული მეხსიერებით და გიგაბიტიანი ინტერნეტით, მე შევძელი სტაბილური დიფუზიის დაყენება და ჩემი პირველი სურათების გენერირება ერთ საათში. ჩემი კომპიუტერი აუცილებლად ჩართულია უმაღლესი დასასრული, მაგრამ შეგიძლიათ გაუშვათ მისი გაშვებით სუსტი აპარატურა (თუმცა დაბალი vRAM-ით ვერ შექმნით დიდ სურათებს და ამას მეტი დრო დასჭირდება).

სტაბილური დიფუზიის საუკეთესო რამ არის ის, რომ ის მთლიანად ღია წყაროა. თუ გსურთ, შეგიძლიათ მისი მხარდაჭერა დღეს ნებისმიერ თქვენს პროექტში განახორციელოთ, და უკვე არსებობს დანამატები, როგორიცაა Alpaca, რომლებიც შეგიძლიათ გამოიყენოთ Photoshop-თან ინტეგრაციისთვის. ეს ჯერ არ არის სრულყოფილი, მაგრამ ძალიან ადრეა ამ პროგრამების შემუშავება. Შეგიძლია გამოიყენო Dream Studio ან თუ გნებავთ, თუმცა ეს ფული ღირს და ცოტა შემზღუდველია ადგილობრივად დაყენების წინააღმდეგ.

უფრო მეტიც, თუ თქვენ დააყენეთ სტაბილური დიფუზია ადგილობრივად, არის ჩანგლები, როგორიცაა AUTOMATIC1111-ის სტაბილური დიფუზიის WebUI რომელსაც მოყვება ჩაშენებული მაღალი დონის ხელსაწყო, რომელსაც შეუძლია გარჩევადობის გაზრდა ოთხჯერ უფრო მაღალი. მიუხედავად იმისა, რომ თქვენ შეგიძლიათ შექმნათ სურათები უფრო მაღალი გარჩევადობით, ხშირად უფრო სწრაფია გამოსახულების გენერირება უფრო დაბალი გარჩევადობით და შემდეგ მისი გაზრდა. ქვემოთ მოყვანილი ყველა სურათი გაუმჯობესებულია მცირე რეზოლუციებიდან.

Stable Diffusion ტრენინგი ჩატარდა 4000 Nvidia A100 GPU-ს კლასტერზე, რომელიც მუშაობს AWS-ში და ჩატარდა ერთი თვის განმავლობაში. მას აქვს ცნობილი ადამიანების სურათების გენერირების უნარი და აქვს ჩაშენებული NSFW ფილტრიც. თქვენ შეგიძლიათ გამორთოთ ეს NSFW ფილტრი ადგილობრივ ინსტალაციაზე, რადგან ის რეალურად ზოგავს რესურსებს VRAM-ის გამოყენების შემცირებით. რაც შეეხება რას ნიშნავს "დიფუზია", ეს არის სუფთა ხმაურით დაწყებისა და დროთა განმავლობაში დახვეწის პროცესი. დროთა განმავლობაში ეს სურათს თანდათან უახლოვდება ტექსტურ მოთხოვნას, სანამ ხმაური არ დარჩება. ეს არის ისევე, როგორც Dall-E 2 მუშაობს.

დაბოლოს, კიდევ ერთი სახალისო ფუნქცია, რომელსაც აქვს Stable Diffusion არის "img2img". ამ შემთხვევაში, თქვენ აძლევთ მას სურათს მოთხოვნის სახით, აღწერთ როგორი გსურთ იყოს სურათი და შემდეგ ნებას აძლევთ მოგცეთ სათანადო ნახატი.

მე მივეცი შაბლონი სამუშაოდ და მივიღე საკმაოდ წესიერი სურათი. დარწმუნებული ვარ, უკეთესი მოთხოვნით (ჩემი გარკვეულწილად წინააღმდეგობრივია), შეგიძლიათ კიდევ უკეთესი გახდეთ. და მაინც, სულაც არ არის ცუდი რაღაცისთვის, რომლის გაკეთებასაც დაახლოებით ხუთი წუთი დამჭირდა.

მოკლედ, სტაბილური დიფუზია უფასოა, მარტივი დასაყენებლად და ყველაზე დიდი პრობლემა არის ის, რამდენად ხელმისაწვდომია იგი. თუ არ გაქვთ საკმარისად მძლავრი კომპიუტერი, მოგიწევთ გადაიხადოთ ამის გამოსაყენებლად Dream Studio-ს მსგავსად.

კრეიონი

კრეიონი ადრე ცნობილი იყო როგორც DALL·E Mini, თუმცა სახელის მიუხედავად, არავითარი კავშირი არ აქვს Dall-E 2-თან. იგი შეიქმნა OpenAI-ის DALL·E ტექსტიდან გამოსახულების მოდელის შედეგების რეპროდუცირებისთვის. Craiyon ხელმისაწვდომია საზოგადოებისთვის და მისი გამოყენება შესაძლებელია გასაოცრად ღირსეული სურათების შესაქმნელად, თუმცა სურათები არც ისე ზუსტია და არც ისეთი მაღალი ხარისხის. გამოსახულების გარჩევადობა მაქსიმუმ 256x256-ზეა და ასევე არ არის სკალირების ინსტრუმენტები.

Craiyon სრულიად უფასოა გამოსაყენებლად და ხელმისაწვდომი მისი ვებსაიტის საშუალებით. თქვენ შეგიძლიათ ნებისმიერი სურათის გენერირება ნებისმიერი მოწოდების საშუალებით და ერთადერთი დაჭერა არის ის, რომ სურათები დაბალი ხარისხისაა და რომ თქვენ მოგიწევთ ლოდინი დაახლოებით ორი წუთის განმავლობაში გენერირებული სურათების თითოეულ პარტიაზე. Craiyon დაიწყო, როგორც ღია კოდის მოდელი, რომელიც მიზნად ისახავს საწყისი DALL·E მოდელის შედეგების რეპროდუცირებას. ახლა გამოყენებული მოდელი ცნობილია როგორც DALL·E Mega და ის შეიცავს რამდენიმე გაუმჯობესებას.

Craiyon, აქ სხვა ვარიანტებისგან განსხვავებით, მხარდაჭერილია სარეკლამო შემოსავლით. შედეგად, თქვენ იხილავთ ფასიან სპონსორობას და სხვა რეკლამებს მათი ნახვა როცა ეწვევით. ასევე არის აპლიკაცია Android სმარტფონებისთვის. ეს არ არის ყველაზე დახვეწილი, მაგრამ სახალისო, მარტივი და ხელმისაწვდომი.

Craiyon - AI გამოსახულების გენერატორიდეველოპერი: კრეიონი

ფასი: უფასო.

3.9.

ჩამოტვირთვა

დალ-ე 2

Dall-E 2 არის OpenAI კვლევითი ლაბორატორიის პროდუქტი და არის ყველაზე ცნობილი AI გამოსახულების გენერატორი, რომელზეც ხალხი ფიქრობს. ეს არის დახურული ხელსაწყო შეზღუდული წვდომით, მაგრამ მათთვის, ვისაც შეუძლია მასზე წვდომა, ზოგიერთი შედეგი, რაც მას შეუძლია, წარმოუდგენელია. ის თავდაპირველად დაიხურა ასეთი ხელსაწყოს ეთიკისა და უსაფრთხოების შესახებ შეშფოთების გამო, თუმცა დროთა განმავლობაში ის თანდათან გაფართოვდა.

ერთ-ერთი ყველაზე დიდი უპირატესობა, რაც Dall-E 2-ს აქვს, არის ფოტორეალისტური სურათების შექმნის შესაძლებლობა, რომლებიც, ერთი შეხედვით, შეუმჩნეველია რეალური ფოტოებისგან. მას შეუძლია შექმნას ნახატები, სურათები, რომლებიც რეალურ კამერებზეა გადაღებული და სრულიად შედგენილი სცენარები. იგი წარმოადგენდა უზარმაზარ ნახტომს AI-ს შესაძლებლობებში, როდესაც ის პირველად გამოცხადდა, როგორც სურათების შექმნის შესაძლებლობებში, ასევე მის ბუნებრივი ენის დამუშავებაში, რომელიც ცნობილია როგორც NLP. ეს არის GPT-3-ის განხორციელების წყალობით, რომელიც არის ერთ-ერთი ყველაზე მოწინავე ენობრივი მოდელი და ასევე ავტორია OpenAI.

ისევე, როგორც სტაბილური დიფუზიის შემთხვევაში, Dall-E 2-საც აქვს საკუთარი შესაძლებლობა გადაიღოს არსებული სურათები და შეცვალოს ისინი მოთხოვნის საფუძველზე. თქვენ შეგიძლიათ დაარედაქტიროთ ფოტოები მისი საშუალებით, სთხოვეთ მას რაიმე დაამატოთ სურათზე, ან თუნდაც სთხოვოთ რაღაცის ამოღება ან განათების შეცვლა. მიუხედავად იმისა, რომ ის მხოლოდ კვადრატულ სურათებს ქმნის, გამოაცხადა OpenAI-მ მოფერება გასულ თვეს, რომელსაც შეუძლია გააფართოვოს თქვენი სურათები უფრო ფართოდ, იმის გათვალისწინებით, რაც უკვე ხელმისაწვდომია თქვენს კვადრატულ სურათში.

დალ-ე 2 ყველასთვის ხელმისაწვდომია საცდელად.

შუა მოგზაურობა

Midjourney საინტერესოა, რადგან ის არის საჯარო პლატფორმა, რომელსაც შეუძლია სურათების გენერირება, თუმცა ამას აკეთებთ Discord სერვერის მეშვეობით. არა მხოლოდ ეს, არამედ 25 სურათის გენერირების შემდეგ, თქვენ უნდა გამოიწეროთ სერვისი ახლის გენერირების გასაგრძელებლად.

ხოლო შუა მოგზაურობა ეს არის ალბათ ყველაზე ხელმისაწვდომი პლატფორმა აქ (იმის გათვალისწინებით, რომ მასზე წვდომა შეგიძლიათ ნებისმიერი მოწყობილობიდან Discord ანგარიშით), ის ასევე დაგიჯდებათ ფული. თუმცა, მისგან ხარისხს იღებთ. სერვისის მომხმარებელმა ჯეისონ ალენმა შექმნა ნამუშევარი, რომელსაც უწოდა "Théâtre D'Opera Spatial". მან მონაწილეობა მიიღო კოლორადოს შტატის სამართლიანი ხელოვნების კონკურსში... და მოიგო.

ამ სხვა პროექტებისგან განსხვავებით, Midjourney არის საკუთრების ხელოვნური ინტელექტის პროგრამა. არ არსებობს წყაროს კოდი, რომლის ნახვაც შეგიძლიათ და მისი მთელი დანიშნულება დროის ამ მომენტში შემოიფარგლება მხოლოდ Discord სერვერის გამოყენებით. რაც შეეხება იმას, თუ რატომ არის ეს მხოლოდ Discord სერვერი, დევიდ ჰოლცმა, Midjourney-ის დამფუძნებელმა, თქვა შემდეგი. ზღვარზე ინტერვიუში.

ჩვენ დავიწყეთ ნედლეულის ტექნოლოგიის ტესტირება გასული წლის სექტემბერში და მაშინვე აღმოვაჩინეთ მართლაც განსხვავებული რამ. ჩვენ ძალიან სწრაფად აღმოვაჩინეთ, რომ ადამიანების უმეტესობამ არ იცის რა უნდა. თქვენ ამბობთ: "აი მანქანა, რომლითაც შეგიძლია წარმოიდგინო ყველაფერი - რა გინდა?" და მიდიან: "ძაღლი". და შენ წადი "მართლა?" და ისინი მიდიან "ვარდისფერი ძაღლი". ასე რომ, თქვენ აძლევთ მათ ძაღლის სურათს, ისინი მიდიან "კარგი" და შემდეგ მიდიან რაღაცის გაკეთებაზე სხვა.

მაშინ როცა მათ ჯგუფში დააყენებთ, ისინი წავლენ "ძაღლი" და ვიღაც წავა "კოსმოსური ძაღლი" და ვიღაც წავა "აცტეკების კოსმოსური ძაღლი" და შემდეგ ყველაფერი უეცრად, ადამიანებს ესმით შესაძლებლობები და თქვენ ქმნით ამ გაძლიერებულ წარმოსახვას - გარემოს, სადაც ადამიანებს შეუძლიათ ისწავლონ და ითამაშონ ეს ახალი ტევადობა. ასე რომ, ჩვენ აღმოვაჩინეთ, რომ ადამიანებს ძალიან მოსწონთ ერთად წარმოსახვა და ასე გავხადეთ [Midjourney] სოციალური.

მაშინ, თქვენ ასევე გაგიჭირდებათ მისი გადაყვანა ნაგულისხმევი "Midjourney" სტილისგან, ასე ვთქვათ. ჰოლცის თქმით, ყოველ შემთხვევაში, იმავე ინტერვიუში.

[ჩვენ] გვაქვს ნაგულისხმევი სტილი და გარეგნობა, ის მხატვრული და ლამაზია და ძნელია ამისგან [მოდელის] დაშორება.

თუმცა, მას შემდეგ კომპანიამ გამოუშვა ორი ახალი მოდელი - "test" და "testp". "ტესტი" არის ზოგადი დანიშნულების მოდელი და "testp" ორიენტირებულია მხოლოდ ფოტორეალიზმზე. შედეგად, თქვენ შეძლებთ ამისგან თავის დაღწევას ნაგულისხმევი შეხედეთ და შექმენით მეტი ტიპის სურათები, თუ გსურთ.

ხელოვნური ინტელექტის გამომუშავებული ხელოვნების საფრთხეები და ეთიკა

ხელოვნური ინტელექტის გამომუშავებული ხელოვნება, მიუხედავად იმისა, რომ მაგარია, უამრავ საფრთხეს უქმნის საზოგადოებას. იმ ეპოქაში, სადაც ძნელია იმის თქმა, როცა ახალი ამბები კონტექსტიდან არის ამოღებული ან პირდაპირ შეთითხნილი, ჩნდება საშიშროება, როდესაც სურათების გაკეთება შესაძლებელია რამდენიმე წუთში, რომელიც გამოიყურება და იგრძნობა რეალური. მაგალითად, გადახედეთ ჩემს მიერ შექმნილ ფოტოებს ქვემოთ. ერთი შეიქმნა სტაბილური დიფუზიის გამოყენებით, ხოლო მეორე გენერირებული იყო Craiyon-ით.

მოთხოვნა: "ჩავარდა უცხოპლანეტელი როზველში, 1947, განათება, ჯარის გენერალური გამოძიება, სტუდიის განათება"

ზემოთ მოყვანილი ფოტოები ასახავს ჩამოვარდნილ უცხოპლანეტელებს როსველში და პირველი სურათი გვიჩვენებს, თუ როგორ გამოიყურება ადამიანი, რომელიც დადის ჩამოვარდნილ უცხოპლანეტელზე. მიუხედავად იმისა, რომ სურათი აქ შეიქმნა ყალბი ფოტოს ჩვენების მიზნით, როგორც ჩანს, ის შეიძლება იყოს რეალური. ნებისმიერი არტეფაქტი შეიძლება აიხსნას იმით, რომ 1947 წლის ფოტოები მაინც უფრო დაბალი ხარისხის იქნებოდა და ორივე სურათს შეეძლო თვალის ტესტის გავლა სწრაფი შეხედვით რეალურად. თქვენ არც კი გჭირდებათ ერთი მათგანი საუკეთესო კომპიუტერები მსგავსი რამის გაკეთება, რადგან Craiyon უფასო აპლიკაციაა.

რაც კიდევ უფრო ბუნდოვანი ხდება არის ის, რომ რეალურად შეგიძლია დააკონკრეტეთ მხატვარი, რომლისგანაც გსურთ, რომ ალგორითმმა მიიღოს შთაგონება. ჩვეულებრივი მხატვარია გრეგ რუტკოვსკი, რომელიც გარეგნულად ეწინააღმდეგება მისი სახელის გამოყენებას ხელოვნური ინტელექტის გამომუშავებულ ხელოვნებაში. მისი სახელი არის ერთ-ერთი ყველაზე გავრცელებული მოთხოვნა, რომელიც გამოიყენება გამოსახულების გენერირებაში. „ა.ი. უნდა გამორიცხოს ცოცხალი ხელოვანები მისი მონაცემთა ბაზიდან“, - რუტკოვსკი უთხრა არტნეტი ინტერვიუში "ფოკუსირება საჯარო დომენის ქვეშ მყოფ სამუშაოებზე". რუტკოვსკის სახელის ძიება ხშირად აბრუნებს ხელოვნური ინტელექტის ხელოვნებას, რომელიც შექმნილია მის ნამუშევარზე, მაგრამ ასე არ არის. რეალურად მისი სამუშაო.

კიდევ უფრო უარესი ის არის, რომ ხელოვნური ინტელექტის გამომუშავებული ხელოვნება ხშირად ხაზს უსვამს ადამიანთა რასის მიკერძოებას. Craiyon-ს კი აქვს გაფრთხილება მისი მთავარი გვერდის ბოლოში FAQ-ში, სადაც ნათქვამია, რომ „რადგან მოდელი გაწვრთნილი იყო ინტერნეტიდან გაუფილტრავ მონაცემებზე, მას შეუძლია შექმენით სურათები, რომლებიც შეიცავს მავნე სტერეოტიპებს." შედეგად, მოთხოვნის შეყვანა, როგორიცაა "კომპანიის აღმასრულებელი", ყველაზე ხშირად აბრუნებს თეთრკანიანი მამაკაცების სურათებს ლუქსი. ანალოგიურად, მოწოდების სახით „მასწავლებლის“ შეყვანა თითქმის ყოველთვის აბრუნებს ქალებს კლასებში.

ხელოვნური ინტელექტის გამომუშავებული ხელოვნების მომავალი

იმის გათვალისწინებით, რომ, როგორც ჩანს, ინდუსტრია არ ანელებს (და რეგულაცია არ უახლოვდება) ჩვენ ველით, რომ კიდევ უფრო წინსვლას ვიხილავთ ამ სფეროებში. ის ფაქტი, რომ ჩვენ გადავედით Dall-E 2-ის შესაძლებლობებიდან (თუნდაც ის კერძო იყო) სტაბილურ დიფუზიაზე სულ რამდენიმე თვეში გვიჩვენებს, თუ რამდენად დიდია ეს ინდუსტრია და რამდენად დიდი ინდუსტრია შეუძლია მას პოტენციურად იყოს. სურათები, რომლებიც ადრე შეიძლებოდა ხელოვანთა გუნდთან ყოფილიყო კონტრაქტი, ახლა შეიძლება შეიქმნას წამებში, სანაცვლოდ, ერთი შემსრულებელი ჩართული იქნება ამ პროცესში გამოსწორების მიზნით. ჩვენ უკვე ვნახეთ, თუ როგორ შეუძლია Midjourney დაგეხმაროთ მოგებაში, მაგალითად, ხელოვნების კონკურსში, თუმცა აშშ-ს საავტორო ოფისი ამჟამად ამბობს რომ თქვენ არ შეგიძლიათ საავტორო უფლებების დაცვა ხელოვნური ინტელექტის მიერ გენერირებული სურათებზეც კი.

როგორც ჰოლცმა ასევე განაცხადა თავის ინტერვიუში, თითოეული მოდელის ტრენინგის ამჟამინდელი ღირებულება დაახლოებით $50,000 - ან მეტია. სურათები ასევე ღირს ფული, რადგან ისინი წარმოიქმნება წარმოუდგენლად ძლიერ სერვერებზე, განსაკუთრებით მაშინ, როდესაც მომხმარებლების დიდი რაოდენობა მოდის საკუთარი სურათების შესაქმნელად. ეს მასიურად აკრძალული იქნება ნებისმიერი ახალი მოთამაშისთვის, რომელიც შემოდის სივრცეში, რამაც შეიძლება, თავის მხრივ, ფაქტობრივად შეაჩეროს ზოგიერთი კომპანიაც. თუმცა, თავდაპირველი მცდელობები, როგორიცაა სტაბილური დიფუზია, რომ იყოს ღია წყარო, კარგია.

შედეგად, ჩვენ აღფრთოვანებული დაველოდებით AI სურათების მომავალს. სივრცე გასულ წელს ასე სწრაფად განვითარდა და, როგორც ჩანს, ახალი წინსვლა ყოველდღიურად ხდება. თუმცა, AI-ზე დაფუძნებული გამოსახულების მანიპულირების ნაპერწკლებით ჩვენს სმარტფონებშიც კი მოდის, ბევრი რამ შეიძლება მოხდეს მომავალ ან ორ წელიწადში.