AI 이미지 생성기란 무엇이며 어떻게 작동합니까?

AI 이미지 생성기는 최근 많은 화제를 불러일으켰지만 이해하기 어려울 수 있습니다. 여기 당신이 그들에 대해 알아야 할 모든 것이 있습니다.

2022년에는 놀라운 텍스트-이미지 생성기가 등장했습니다. 가장 먼저 큰 물결을 일으킨 것은 Dal-E 2였으며, Stable Diffusion은 잠시 후에 도착했습니다. 그 이후로 우리는 Midjourney, Craiyon, 심지어 TikTok을 어느 정도 포함하여 다른 도구도 도착하는 것을 보았습니다. 주로 윤리와 관련된 AI 이미지 생성 도구에 대한 우려가 커지고 있습니다. 실제 사람이 아닌 장소나 상황에 있는 실제 사람의 이미지를 생성할 수 있는 도구 안에.

그러나 고려해야 할 윤리만 있는 것은 아닙니다. AI 이미지 생성기는 수백만 장의 사진에 대해 교육을 받았으며 식별하는 방법을 배웠습니다. 것들 실제 사람들이 만든 실제 기존 사진을 통해. 언제 저작권 위반이 되나요? AI가 실수로 다른 디자인과 매우 유사한 이미지를 생성하고 해당 이미지의 작성자가 상업적으로 공유하는 경우 누군가 손해에 대해 책임을 져야 합니까? 그렇다면 누가? 이 경우 "아티스트"는 누구입니까?

있다 톤 AI 이미지 생성기를 경계해야 하는 몇 가지 이유가 있으며 이러한 윤리적 및 안전 문제는 표면을 긁는 것일 뿐입니다. 이러한 도구는 내러티브를 추진하는 데 사용할 수 있는 가짜 이미지를 만드는 데 사용할 수 있으며 시간이 지남에 따라 악화됩니다. 이미 이러한 이미지 생성 도구의 놀라운 기능을 감안할 때 곧 무엇을 할 수 있을지 생각하기가 두렵습니다. 하지만 예쁜 이미지를 만들고 재미를 느끼고 싶다면 그것으로 나쁠 것은 전혀 없습니다.

안정적인 확산

Stable Diffusion은 이 기사의 영감이자 제가 가지고 놀았던 도구입니다. 많은 최근에. 이것은 컴퓨터에서 로컬로 실행되므로(따라서 일부 온라인 도구의 다른 사용자와 자원을 놓고 싸우지 않습니다) 현재 사용할 수 있는 가장 강력한 것 중 하나입니다. 수많은 매개변수를 미세 조정할 수 있을 뿐만 아니라 전체 생성 프로세스를 제어할 수도 있습니다.

Stable Diffusion은 접근성의 "위험"이 추가된 모든 동일한 AI 함정을 겪고 있습니다. 충분히 강력한 컴퓨터를 가진 사람이라면 누구나 이를 설정하고 빠르게 실행할 수 있습니다. i7-12700KF, RTX 3080, 32GB RAM, 기가비트 인터넷을 사용하여 Stable Diffusion을 설정하고 1시간 이내에 첫 번째 이미지를 생성할 수 있었습니다. 내 PC는 확실히 하이엔드, 그러나 당신은 그것을 실행하고 도망 갈 수 있습니다 약한 하드웨어 (vRAM이 낮으면 큰 이미지를 생성할 수 없고 시간이 더 오래 걸립니다).

Stable Diffusion의 가장 좋은 점은 완전히 오픈 소스라는 것입니다. 원하는 경우 현재 모든 프로젝트에서 지원을 구현할 수 있으며 Photoshop과 통합하는 데 사용할 수 있는 Alpaca와 같은 플러그인이 이미 있습니다. 아직 완벽하지는 않지만 이러한 프로그램 개발의 초기 단계입니다. 당신이 사용할 수있는 드림스튜디오 원하는 경우 비용이 많이 들고 로컬로 설정하는 것보다 약간 제한적입니다.

또한 로컬에서 Stable Diffusion을 설정하면 다음과 같은 포크가 있습니다. AUTOMATIC1111의 안정적인 확산 WebUI 해상도를 최대 4배까지 높일 수 있는 고급 도구가 내장되어 있습니다. 더 높은 해상도에서 이미지를 생성할 수 있지만 낮은 해상도에서 이미지를 생성한 다음 확대하는 것이 훨씬 더 빠른 경우가 많습니다. 아래의 모든 이미지는 더 작은 해상도에서 업스케일링된 것입니다.

Stable Diffusion은 AWS에서 실행되는 4,000개의 Nvidia A100 GPU 클러스터에서 훈련되었으며 한 달 동안 진행되었습니다. 유명인의 이미지를 생성하는 기능이 있으며 NSFW 필터도 내장되어 있습니다. VRAM 사용량을 줄임으로써 실제로 리소스를 절약하므로 로컬 설치에서 이 NSFW 필터를 비활성화할 수 있습니다. "Diffusion"이 의미하는 바는 순수한 노이즈에서 시작하여 시간이 지남에 따라 정제되는 과정입니다. 노이즈가 남지 않을 때까지 시간이 지남에 따라 이미지를 텍스트 프롬프트에 점점 더 가깝게 만듭니다. 이것은 Dall-E 2가 작동하는 것과 같은 방식입니다.

마지막으로 Stable Diffusion의 또 다른 재미있는 기능은 "img2img"입니다. 여기에서 프롬프트로 이미지를 제공하고 원하는 이미지를 설명한 다음 적절한 그림.

작업할 템플릿을 주었고 꽤 괜찮은 이미지를 얻었습니다. 나는 더 나은 프롬프트가 있다고 확신합니다 (내 것은 다소 모순적입니다), 당신은 더 나아질 수 있습니다. 그래도 만드는 데 5분 정도 걸린 것치고는 나쁘지 않습니다.

간단히 말해서 Stable Diffusion은 무료이며 설정이 쉽고 가장 큰 문제는 접근성입니다. 충분히 강력한 PC가 없는 경우 Dream Studio 등을 통해 사용하려면 비용을 지불해야 합니다.

크레용

Craiyon은 이전에 DALL·E Mini로 알려져 있었지만 이름에도 불구하고 DALL-E 2와는 관련이 없습니다. OpenAI의 DALL·E text-to-image 모델의 결과를 재현하기 위해 만들어졌다. Craiyon은 대중이 사용할 수 있으며 이미지가 정확하지도 않고 고품질도 아니지만 놀랍도록 괜찮은 이미지를 생성하는 데 사용할 수 있습니다. 이미지 해상도는 최대 256x256이며 업스케일링 도구도 없습니다.

Craiyon은 완전히 무료로 사용할 수 있으며 웹사이트를 통해 액세스할 수 있습니다. 모든 프롬프트를 통해 모든 이미지를 생성할 수 있으며 유일한 문제는 이미지의 품질이 낮고 생성된 각 이미지 배치에 대해 2분 정도 기다려야 한다는 것입니다. Craiyon은 초기 DALL·E 모델의 결과를 재현하기 위한 오픈 소스 모델로 시작했습니다. 현재 사용 중인 모델은 DALL·E Mega로 알려져 있으며 몇 가지 개선 사항이 포함되어 있습니다.

여기의 다른 옵션과 달리 Craiyon은 광고 수익으로 지원됩니다. 결과적으로 유료 스폰서십 및 기타 광고가 그들의 웹사이트 당신이 방문할 때. 안드로이드 스마트폰용 앱도 있습니다. 가장 정교하지는 않지만 재미 있고 사용하기 쉽고 접근하기 쉽습니다.

Craiyon - AI 이미지 생성기개발자: 크레용

가격: 무료.

3.9.

다운로드

달이 2

Dall-E 2는 OpenAI 연구소의 제품으로 사람들이 생각하는 가장 잘 알려진 AI 이미지 생성기입니다. 액세스가 제한된 폐쇄된 도구이지만 액세스할 수 있는 사람들에게는 놀라운 결과가 나올 수 있습니다. 처음에는 그러한 도구의 윤리 및 안전을 둘러싼 우려로 인해 폐쇄되었지만 시간이 지남에 따라 점차 확장되었습니다.

Dall-E 2의 가장 큰 장점 중 하나는 얼핏 실제 사진과 구분할 수 없는 사실적인 이미지를 생성할 수 있다는 것입니다. 그림, 실제 카메라로 캡처한 것처럼 보이는 이미지, 완전히 구성된 시나리오를 생성할 수 있습니다. 처음 발표되었을 때 이미지를 만드는 능력과 NLP로 알려진 자연어 처리 모두에서 AI의 능력이 크게 향상되었습니다. 이는 가장 진보된 언어 모델 중 하나이자 OpenAI에서 작성한 GPT-3의 구현 덕분입니다.

Stable Diffusion과 마찬가지로 Dall-E 2에는 기존 이미지를 가져와 프롬프트에 따라 수정할 수 있는 자체 기능도 있습니다. 이미지에 무언가를 추가하도록 요청하거나 무언가를 제거하거나 조명을 변경하도록 요청하여 사진을 편집할 수 있습니다. 정사각형 이미지만 생성하는 동안 OpenAI가 발표했습니다. 아웃페인팅 정사각형 이미지에서 이미 사용 가능한 항목의 컨텍스트를 고려하여 이미지를 더 넓게 확장할 수 있는 지난 달입니다.

달이 2 모두가 사용해 볼 수 있습니다.

중도

Midjourney는 Discord 서버를 통해 이미지를 생성할 수 있지만 이미지를 생성할 수 있는 공개 플랫폼이라는 점에서 흥미로운 것입니다. 뿐만 아니라 25개의 이미지를 생성한 후 새 이미지를 계속 생성하려면 서비스에 가입해야 합니다.

하는 동안 중도 아마도 여기에서 가장 접근하기 쉬운 플랫폼일 것입니다(Discord 계정이 있는 모든 장치에서 접근할 수 있다는 점을 감안할 때), 비용도 듭니다. 그러나 당신은 그것에서 품질을 얻습니다. 서비스 사용자인 Jason Allen은 "Théâtre D'opéra Spatial"이라는 작품을 만들었습니다. 그는 콜로라도 주립 박람회 예술 대회에 출품했습니다... 그리고 이겼다.

이러한 다른 프로젝트와 달리 Midjourney는 독점적인 인공 지능 프로그램입니다. 볼 수 있는 소스 코드가 없으며 현재 시점에서 전체 목적은 Discord 서버 내에서의 사용으로 제한됩니다. Discord 서버 전용인 이유에 대해 Midjourney의 창립자 David Holz는 다음과 같이 말했습니다. 더 버지 인터뷰에서.

우리는 작년 9월에 원시 기술을 테스트하기 시작했고 즉시 정말 다른 것을 발견했습니다. 우리는 대부분의 사람들이 자신이 원하는 것이 무엇인지 모른다는 사실을 매우 빨리 발견했습니다. 당신은 "여기에 무엇이든 상상할 수 있는 기계가 있습니다. 원하는 것이 무엇입니까?"라고 말합니다. 그리고 그들은 "개." 그리고 당신은 간다 "정말?" 그리고 그들은 "분홍색 개"로 이동합니다. 그래서 그들에게 개 사진을 주면 그들은 "괜찮아" 하고 나서 뭔가를 하러 갑니다. 또 다른.

반면에 그들을 그룹에 넣으면 "개"가 되고 다른 사람은 "우주 개"가 되고 다른 사람은 "아즈텍 우주 개"가 됩니다. 갑자기 사람들은 가능성을 이해하고 여러분은 이 증강된 상상을 창조하고 있습니다. 사람들이 이 새로운 것을 배우고 놀 수 있는 환경입니다. 용량. 그래서 우리는 사람들이 함께 상상하는 것을 정말 좋아한다는 것을 알게 되었고 그래서 우리는 [Midjourney]를 사회적으로 만들었습니다.

당시에는 말하자면 기본 "중간" 스타일에서 벗어나는 데 어려움을 겪었을 것입니다. 어쨌든 그것은 같은 인터뷰에서 Holz에 따른 것입니다.

우리는 기본 스타일과 룩을 가지고 있고 예술적이고 아름다우며 [모델]을 그것에서 밀어내기가 어렵습니다.

그러나 그 이후로 회사는 "test"와 "testp"라는 두 가지 새로운 모델을 출시했습니다. "test"는 범용 모델이고 "testp"는 포토리얼리즘에만 초점을 맞추고 있습니다. 결과적으로 당신은 그것에서 더 멀리 벗어날 수 있을 것입니다. 기본 원하는 경우 더 많은 유형의 이미지를 보고 생성합니다.

AI로 생성된 예술의 위험과 윤리

AI로 생성된 예술은 멋지지만 사회 전반에 여러 가지 위험을 초래합니다. 뉴스가 문맥을 벗어나거나 직설적일 때 때때로 말하기 어려운 시대에 단 몇 분 만에 모양과 느낌이 다른 이미지를 만들 수 있는 경우 위험이 따릅니다. 진짜. 예를 들어 아래에서 생성한 사진을 살펴보세요. 하나는 Stable Diffusion을 사용하여 생성되었고 다른 하나는 Craiyon으로 생성되었습니다.

프롬프트: "1947년 로스웰에 추락한 UFO, 조명, 육군 장군 조사, 스튜디오 조명"

위의 사진은 Roswell에서 추락한 UFO를 묘사하고 첫 번째 이미지는 추락한 UFO 위를 걷는 사람처럼 보이는 것을 보여줍니다. 여기 이미지는 가짜 사진을 보여주기 위한 목적으로 생성되었지만 진짜일 수 있는 것처럼 보입니다. 어쨌든 1947년의 사진은 품질이 더 나빴을 것이라는 사실로 모든 인공물을 설명할 수 있으며 두 이미지 모두 실제임을 한 눈에 보는 눈 테스트를 통과할 수 있었습니다. 다음 중 하나도 필요하지 않습니다. 최고의 컴퓨터 Craiyon은 무료 응용 프로그램이므로 이와 같은 작업을 수행할 수 있습니다.

더 모호해지는 부분은 실제로 할 수 있다는 것입니다. 지정하다 알고리즘이 영감을 얻기를 원하는 아티스트. 일반적인 예술가는 AI 생성 예술에서 자신의 이름을 사용하는 것에 대해 공개적으로 반대한 Greg Rutkowski입니다. 그의 이름은 이미지 생성에 사용되는 가장 일반적인 프롬프트 중 하나입니다. "일체 포함. 살아있는 예술가를 데이터베이스에서 제외해야 합니다." Rutkowski 말했다 아트넷 인터뷰에서 "퍼블릭 도메인의 작품에 집중하세요." Rutkowski의 이름을 검색하면 종종 그의 작품처럼 보이도록 생성되었지만 그렇지 않은 AI 아트가 반환됩니다. 실제로 그의 일.

더 나쁜 것은 AI가 생성한 예술이 종종 인류의 편견을 부각시킬 수 있다는 것입니다. Craiyon은 FAQ의 홈 페이지 하단에 "모델이 인터넷에서 필터링되지 않은 데이터로 훈련되었기 때문에 유해한 고정관념이 포함된 이미지를 생성합니다." 따라서 "회사 간부"와 같은 프롬프트를 입력하면 가장 자주 백인 남성의 이미지가 반환됩니다. 양복들. 마찬가지로 프롬프트로 "교사"를 입력하면 거의 항상 교실에 있는 여성으로 돌아갑니다.

AI가 만드는 예술의 미래

업계가 둔화되지 않고(그리고 규제가 따라잡지 못하고 있음) 우리는 이 분야에서 더 많은 발전을 기대합니다. Dall-E 2의 기능(비공개일지라도)에서 Stable Diffusion으로 이동했다는 사실 불과 몇 달 만에 이것이 얼마나 큰 산업인지, 그리고 잠재적으로 얼마나 큰 산업이 될 수 있는지 보여줍니다. BE. 이전에는 아티스트 팀과 계약할 수 있었던 이미지를 이제 몇 초 만에 생성할 수 있으며 대신 단일 아티스트가 수정 목적으로 프로세스에 참여합니다. 우리는 이미 Midjourney가 예를 들어 미국 저작권청(U.S. Copyright Office) 현재 말한다 AI가 생성한 이미지에 저작권을 부여할 수도 없습니다.

Holz도 그의 인터뷰에서 말했듯이 현재 각 모델을 교육하는 데 드는 비용은 약 $50,000 이상입니다. 또한 이미지는 엄청난 수의 사용자가 자신의 이미지를 생성하기 위해 오는 경우 엄청나게 강력한 서버에서 생성되기 때문에 비용이 듭니다. 공간에 진입하는 모든 새로운 플레이어에게는 막대한 비용이 들게 될 것이며, 이는 실제로 일부 회사도 중단시킬 수 있습니다. 그러나 오픈 소스인 Stable Diffusion과 같은 초기 노력은 좋은 징조입니다.

그 결과 AI 이미지의 미래를 기대하며 기다리고 있겠습니다. 지난 1년 동안 공간은 매우 빠르게 진화했고, 매일 새로운 발전이 이루어지고 있는 것 같습니다. 하지만 AI 기반 이미지 조작을 엿볼 수 있는 우리 스마트폰에도, 내년이나 2년 안에 일어날 수 있는 일이 많이 있습니다.