Что такое генератор изображений AI и как он работает?

Генераторы изображений ИИ в последнее время наделали много шума, но их может быть трудно понять. Вот все, что вам нужно знать о них.

В 2022 году мы стали свидетелями появления нескольких невероятных генераторов текста в изображения. Первым, кто вызвал большую волну, был Dall-E 2, а вскоре появился Stable Diffusion. С тех пор появились и другие инструменты, в том числе Midjourney, Craiyon и даже TikTok в определенной степени. Когда речь заходит об инструментах для создания изображений ИИ, растет беспокойство, в первую очередь касающееся этики такие инструменты, когда они могут генерировать изображения реальных людей в местах или ситуациях, в которых они не были на самом деле в.

Однако следует учитывать не только этику. Генераторы изображений ИИ обучены на миллионах и миллионах фотографий и научились идентифицировать вещи посредством реальных существующих фотографий, созданных реальными людьми. Когда это становится нарушением авторских прав? Если ваш ИИ случайно сгенерирует изображение, очень похожее на другой дизайн, и создатель этого изображения продолжит делиться им в коммерческих целях, несет ли кто-то ответственность за какой-либо ущерб? Если да, то кто? Кто вообще является «художником» в этом случае?

Есть тонна причин с осторожностью относиться к генераторам изображений ИИ, и эти этические соображения и проблемы безопасности — лишь поверхностные. Эти инструменты можно использовать для создания поддельных изображений, которые можно использовать для продвижения повествования, и со временем они также будут становиться только хуже. Учитывая уже невероятные возможности этих инструментов для создания изображений, страшно подумать, на что они будут способны очень скоро. Однако, если вы хотите сделать красивые изображения и повеселиться, то в этом нет абсолютно никакого вреда.

Стабильная диффузия

Stable Diffusion вдохновил меня на создание этой статьи и инструмент, с которым я экспериментировал. много недавно. Он работает локально на вашем компьютере (так что вы не боретесь за ресурсы с другими пользователями какого-либо онлайн-инструмента) и является одним из самых мощных, которые вы можете использовать в настоящее время. Это не только позволяет вам точно настроить массу параметров, но вы также можете контролировать весь процесс генерации.

Stable Diffusion страдает от всех тех же ловушек ИИ с добавленной «опасностью» доступности. Любой, у кого есть достаточно мощный компьютер, может настроить его и быстро запустить. С i7-12700KF, RTX 3080, 32 ГБ ОЗУ и гигабитным интернетом я смог настроить Stable Diffusion и создать свои первые изображения в течение часа. Мой компьютер определенно находится на более высокий уровень, но вы можете запустить его на более слабое оборудование (хотя вы не можете генерировать такие большие образы с меньшим vRAM, и это займет больше времени).

Лучшее в Stable Diffusion то, что это полностью открытый исходный код. Вы можете реализовать его поддержку в любом из своих проектов сегодня, если хотите, и уже есть плагины, такие как Alpaca, которые вы можете использовать для интеграции с Photoshop. Это еще не идеально, но разработка этих программ находится на очень ранней стадии. Вы можете использовать Студия мечты либо, если хотите, хотя это стоит денег и немного ограничительно по сравнению с локальной настройкой.

Более того, если вы настроите Stable Diffusion локально, появятся вилки, такие как Веб-интерфейс стабильной диффузии AUTOMATIC1111 которые поставляются со встроенным инструментом повышения разрешения, который может увеличить разрешение до четырех раз. Хотя вы можете генерировать изображения с более высоким разрешением, часто гораздо быстрее создать изображение с более низким разрешением, а затем увеличить его масштаб. Все изображения ниже увеличены в меньшем разрешении.

Stable Diffusion обучался на кластере из 4000 графических процессоров Nvidia A100, работающих в AWS, и проходил в течение месяца. Он может генерировать изображения знаменитостей, а также имеет встроенный фильтр NSFW. Вы можете отключить этот фильтр NSFW в локальных установках, так как он действительно экономит ресурсы за счет уменьшения использования VRAM. Что же касается того, что означает «диффузия», то это процесс, в котором сначала используется чистый шум, а затем он очищается с течением времени. Это постепенно приближает изображение к текстовой подсказке с течением времени, пока не останется шума. Точно так же работает Dall-E 2.

Наконец, еще одна забавная функция, которую имеет Stable Diffusion, — «img2img». В этом случае вы даете ему изображение в качестве подсказки, описываете, каким вы хотите видеть изображение, а затем позволяете ему дать вам правильный рисунок.

Я дал ему шаблон для работы и получил довольно приличное изображение. Я уверен, что с лучшими подсказками (мои несколько противоречивы) вы могли бы стать еще лучше. Тем не менее, совсем неплохо для чего-то, на что у меня ушло около пяти минут.

Короче говоря, Stable Diffusion бесплатен, его легко настроить, и самая большая проблема заключается в том, насколько он доступен. Если у вас нет достаточно мощного ПК, вам нужно будет заплатить, чтобы использовать его через Dream Studio.

мелок

Craiyon ранее был известен как DALL·E Mini, хотя, несмотря на название, не имеет отношения к Dall-E 2. Он был создан для воспроизведения результатов модели OpenAI DALL·E преобразования текста в изображение. Craiyon доступен для общественности и может использоваться для создания изображений, которые на удивление приличные, хотя изображения не такие точные и не такого высокого качества. Максимальное разрешение изображения составляет 256x256, и инструментов для масштабирования тоже нет.

Craiyon полностью бесплатен и доступен через его веб-сайт. Вы можете сгенерировать любое изображение с помощью любой подсказки, и единственная загвоздка в том, что изображения более низкого качества, и вам нужно будет ждать около двух минут для каждой партии сгенерированных изображений. Craiyon начинался как модель с открытым исходным кодом, предназначенная для воспроизведения результатов первоначальной модели DALL·E. Используемая в настоящее время модель известна как DALL·E Mega и содержит несколько усовершенствований.

Craiyon, в отличие от других вариантов, поддерживается за счет доходов от рекламы. В результате вы увидите платную спонсорскую и другую рекламу на их сайт когда вы посещаете. Также есть приложение для Android-смартфонов. Это не самое сложное, но веселое, простое в использовании и доступное приложение.

Craiyon — Генератор изображений с искусственным интеллектомРазработчик: мелок

Цена: бесплатно.

3.9.

Скачать

Далл-Э 2

Dall-E 2 — продукт исследовательской лаборатории OpenAI и самый известный генератор изображений ИИ, о котором думают люди. Это закрытый инструмент с ограниченным доступом, но для тех, кто может получить к нему доступ, некоторые результаты, которые он может дать, просто невероятны. Первоначально он был закрыт из-за опасений, связанных с этикой и безопасностью такого инструмента, хотя со временем он постепенно расширялся.

Одним из самых больших преимуществ, которыми обладает Dall-E 2, является возможность создавать фотореалистичные изображения, которые с первого взгляда неотличимы от реальных фотографий. Он может генерировать картины, изображения, которые выглядят так, как будто они были сняты на настоящую камеру, и полностью выдуманные сценарии. Когда он был впервые анонсирован, он представлял собой огромный скачок в возможностях ИИ, как в его способности создавать изображения, так и в его обработке естественного языка, известной как НЛП. Это благодаря реализации GPT-3, одной из самых передовых языковых моделей, также созданной OpenAI.

Как и в случае со стабильной диффузией, Dall-E 2 также имеет собственную возможность брать существующие изображения и изменять их в зависимости от запроса. Вы можете редактировать фотографии через него, попросив добавить что-то к изображению или даже попросить что-то удалить или изменить освещение. Хотя он создает только квадратные изображения, OpenAI объявил Перекраска в прошлом месяце, который может расширить ваши изображения, принимая во внимание контекст того, что уже доступно в вашем квадратном изображении.

Далл-Э 2 доступен для всех, чтобы попробовать.

Середина пути

Midjourney интересна тем, что это общедоступная платформа, которая может генерировать изображения, хотя вы делаете это через сервер Discord. Не только это, но и после того, как вы создадите 25 изображений, вам нужно будет подписаться на сервис, чтобы продолжать создавать новые.

Пока Середина пути это, вероятно, самая доступная платформа здесь (учитывая, что вы можете получить к ней доступ с любого устройства с учетной записью Discord), она также стоит вам денег. Тем не менее, вы получаете качество от него. Пользователь сервиса Джейсон Аллен создал произведение, которое он назвал «Пространственный театр оперы». Он представил его на художественный конкурс Ярмарки штата Колорадо... и выиграл.

В отличие от этих других проектов, Midjourney — это проприетарная программа искусственного интеллекта. Нет исходного кода, на который вы можете посмотреть, и вся его цель на данный момент ограничена использованием на сервере Discord. Что касается того, почему это только сервер Discord, Дэвид Хольц, основатель Midjourney, сказал следующее: Грань в интервью.

Мы начали тестировать необработанную технологию в сентябре прошлого года и сразу же обнаружили действительно разные вещи. Мы очень быстро обнаружили, что большинство людей не знают, чего они хотят. Вы говорите: «Вот машина, с ней можно представить что угодно — что вы хотите?» И они говорят: «собака». И ты идешь "Действительно?" и они идут «розовая собака». Итак, вы даете им фотографию собаки, и они говорят «хорошо», а затем идут что-то делать. еще.

В то время как если вы поместите их в группу, они станут «собаками», кто-то еще станет «космической собакой», а кто-то еще станет «космической собакой ацтеков», а затем все внезапно люди понимают возможности, и вы создаете расширенное воображение — среду, в которой люди могут учиться и играть с этим новым емкость. Итак, мы обнаружили, что людям действительно нравится представлять вместе, и поэтому мы сделали [Midjourney] социальным.

В то время у вас также были бы проблемы с тем, чтобы отвлечь его от стандартного стиля «Midjourney», так сказать. Во всяком случае, так говорит Хольц в том же интервью.

[У] нас есть стиль и внешний вид по умолчанию, и это артистично и красиво, и [модель] трудно оттолкнуть от этого.

Однако с тех пор компания выпустила две новые модели — «test» и «testp». «test» — это модель общего назначения, а «testp» ориентирован исключительно на фотореализм. В результате вы сможете уйти от этого больше по умолчанию посмотрите и сгенерируйте изображения большего количества типов, если хотите.

Опасности и этика искусства, созданного искусственным интеллектом

Искусство, созданное искусственным интеллектом, хоть и круто, но представляет собой ряд опасностей для общества в целом. В эпоху, когда иногда бывает трудно сказать, когда новости вырваны из контекста или прямолинейны. сфабрикованы, возникает опасность, когда за считанные минуты можно сделать изображения, которые выглядят и ощущаются настоящий. Например, взгляните на фотографии, которые я создал ниже. Один был сгенерирован с помощью Stable Diffusion, а другой сгенерирован с помощью Craiyon.

Подсказка: «разбившийся НЛО в Розуэлле, 1947 год, освещение, расследование генерала армии, студийное освещение».

На приведенных выше фотографиях изображен разбившийся НЛО в Розуэлле, а на первом изображении видно, что человек идет поверх разбившегося НЛО. Хотя изображение здесь было создано с целью показать фальшивую фотографию, похоже, что оно может быть реальным. Любые артефакты можно объяснить тем, что фотографии 1947 года в любом случае были бы более низкого качества, и оба изображения могли пройти проверку зрения при беглом взгляде на реальность. Вам даже не нужен один из лучшие компьютеры сделать что-то подобное, поскольку Crayon — бесплатное приложение.

Что становится еще мрачнее, так это то, что вы действительно можете указать художник, от которого вы хотите, чтобы алгоритм черпал вдохновение. Обычным художником является Грег Рутковски, который открыто высказался против использования своего имени в искусстве, созданном ИИ. Его имя считается одним из наиболее распространенных подсказок, используемых при создании изображений. «А.И. следует исключить живых художников из своей базы данных», — Рутковски. сказал артнет в интервью «сосредоточьтесь на произведениях, находящихся в общественном достоянии». Поиск по имени Рутковски часто возвращает изображения ИИ, созданные так, чтобы они выглядели как его работы, но не являются таковыми. на самом деле его работа.

Еще хуже то, что искусство, созданное ИИ, часто может подчеркивать предубеждения человечества. Craiyon даже имеет предупреждение в нижней части своей домашней страницы в FAQ, в котором говорится, что «поскольку модель была обучена на нефильтрованных данных из Интернета, она может генерировать образы, содержащие вредные стереотипы». костюмы. Точно так же ввод «учитель» в качестве подсказки почти всегда возвращает женщин в классы.

Будущее искусства, созданного искусственным интеллектом

Учитывая, что отрасль не замедляется (и регулирование не догоняет), мы ожидаем увидеть еще больший прогресс в этих областях. Дело в том, что мы перешли от возможностей Dall-E 2 (даже если он был приватным) к Stable Diffusion всего за несколько месяцев показывает, насколько велика эта отрасль и насколько велика отрасль, которую она потенциально может быть. Изображения, которые раньше могли быть переданы команде художников, теперь могут быть созданы за считанные секунды, а один художник вместо этого участвует в процессе в исправительных целях. Мы уже видели, как Midjourney может помочь вам выиграть, например, художественный конкурс, хотя Бюро регистрации авторских прав США в настоящее время говорит что вы даже не можете копировать авторские права на изображения, созданные ИИ.

Как заявил Хольц в своем интервью, текущая стоимость обучения каждой модели составляет около 50 000 долларов или больше. Изображения также стоят денег, поскольку они генерируются на невероятно мощных серверах, особенно когда огромное количество пользователей приходят создавать свои собственные изображения. Это будет непомерно дорого для любых новых игроков, выходящих на рынок, что, в свою очередь, может фактически оттолкнуть некоторые компании. Тем не менее, первоначальные усилия, такие как Stable Diffusion с открытым исходным кодом, сулят хорошие результаты.

В результате мы будем с нетерпением ждать, чтобы увидеть будущее изображений ИИ. Пространство так быстро развивалось в прошлом году, и кажется, что новые достижения происходят ежедневно. Тем не менее, с проблесками манипулирования изображениями на основе ИИ даже подходит к нашим смартфонам, многое может произойти в ближайшие год или два.