O que é um AI Image Generator e como ele funciona?

Os geradores de imagens de IA criaram muito burburinho recentemente, mas podem ser difíceis de entender. Aqui está tudo o que você precisa saber sobre eles.

Em 2022, vimos o advento de alguns geradores incríveis de conversão de texto em imagem. O primeiro a detonar a grande onda foi Dall-E 2, com Stable Diffusion chegando pouco tempo depois. Desde então, vimos outras ferramentas chegarem também, incluindo Midjourney, Craiyon e até TikTok até certo ponto. Existem preocupações crescentes quando se trata de ferramentas de geração de imagem de IA, principalmente relacionadas à ética de essas ferramentas quando podem gerar imagens de pessoas reais em lugares ou situações que na verdade não foram em.

No entanto, também não há apenas ética a considerar. Os geradores de imagens AI são treinados em milhões e milhões de fotos e aprenderam a identificar coisas por meio de fotos existentes reais criadas por pessoas reais. Quando isso se torna uma violação de direitos autorais? Se a sua IA acidentalmente gerar uma imagem muito semelhante a outro design e o criador dessa imagem continuar a compartilhá-la comercialmente, alguém será responsável por quaisquer danos? Se sim, quem? Quem é mesmo o "artista" neste caso?

há um tonelada de razões para desconfiar dos geradores de imagens de IA, e essas preocupações éticas e de segurança estão apenas arranhando a superfície. Essas ferramentas podem ser usadas para criar imagens falsas que podem ser usadas para impulsionar uma narrativa, e elas também vão piorar com o tempo. Dadas as incríveis capacidades dessas ferramentas de geração de imagens, é assustador pensar no que elas serão capazes de fazer em breve. No entanto, se você quiser fazer imagens bonitas e se divertir, não há absolutamente nenhum mal nisso.

Difusão estável

Stable Diffusion é a inspiração por trás deste artigo e uma ferramenta com a qual venho brincando muito recentemente. Ele roda localmente no seu computador (assim você não fica brigando por recursos com outros usuários de alguma ferramenta online) e é um dos mais poderosos que você pode usar atualmente. Não apenas permite que você ajuste uma tonelada de parâmetros, mas também pode controlar todo o processo de geração.

A difusão estável sofre de todas as mesmas armadilhas de IA, com o "perigo" adicional de acessibilidade. Qualquer pessoa com um computador poderoso o suficiente pode configurá-lo e executá-lo rapidamente. Com um i7-12700KF, um RTX 3080, 32 GB de RAM e internet gigabit, consegui configurar o Stable Diffusion e gerar minhas primeiras imagens em uma hora. Meu PC está definitivamente no extremidade superior, mas você pode executá-lo em hardware mais fraco (embora você não possa gerar imagens tão grandes com vRAM menor e isso levará mais tempo).

A melhor coisa sobre o Stable Diffusion é que ele é totalmente de código aberto. Você pode implementar suporte para isso em qualquer um de seus projetos hoje, se quiser, e já existem plugins como o Alpaca que você pode usar para integrar com o Photoshop. Ainda não é perfeito, mas é extremamente cedo no desenvolvimento desses programas. Você pode usar estúdio dos sonhos se você quiser, embora isso custe dinheiro e seja um pouco restritivo em comparação com a configuração local.

Além do mais, se você configurar o Stable Diffusion localmente, haverá bifurcações como WebUI de difusão estável do AUTOMATIC1111 que vêm com uma ferramenta de upscale integrada que pode aumentar a resolução em até quatro vezes. Embora você possa gerar imagens em resoluções mais altas, geralmente é muito mais rápido gerar uma imagem em uma resolução mais baixa e aumentá-la. Todas as imagens abaixo são aprimoradas de resoluções menores.

A Stable Diffusion foi treinada em um cluster de 4.000 GPUs Nvidia A100 em execução na AWS e ocorreu durante um mês. Ele tem a capacidade de gerar imagens de celebridades e também possui um filtro NSFW integrado. Você pode desabilitar esse filtro NSFW em instalações locais, pois ele realmente economiza recursos diminuindo o uso de VRAM. Quanto ao significado de "difusão", é o processo de começar com ruído puro e refinar com o tempo. Isso torna a imagem cada vez mais próxima do prompt de texto ao longo do tempo até que nenhum ruído seja deixado. É assim que o Dall-E 2 funciona.

Por fim, outro recurso divertido do Stable Diffusion é o "img2img". Nele, você fornece uma imagem como um prompt, descreve o que deseja que a imagem seja e, em seguida, permite que ela forneça uma apropriado desenho.

Dei a ele um modelo para trabalhar e obtive uma imagem bastante decente. Tenho certeza de que com prompts melhores (o meu é um tanto contraditório), você pode ficar ainda melhor. Ainda assim, nada mal para algo que levei cerca de cinco minutos para fazer.

Resumindo, o Stable Diffusion é gratuito, fácil de configurar e o maior problema é o quão acessível ele é. Se você não tiver um PC poderoso o suficiente, precisará pagar para usá-lo através de Dream Studio.

Craiyon

Craiyon era anteriormente conhecido como DALL·E Mini, embora, apesar do nome, não tenha relação com Dall-E 2. Ele foi criado para reproduzir os resultados do modelo DALL·E text-to-image da OpenAI. O Craiyon está disponível ao público e pode ser usado para gerar imagens surpreendentemente decentes, embora as imagens não sejam tão precisas nem de alta qualidade. As resoluções de imagem atingem o máximo de 256x256 e também não há ferramentas de upscaling.

O uso do Craiyon é totalmente gratuito e acessível por meio de seu site. Você pode gerar qualquer imagem por meio de qualquer prompt, e o único problema é que as imagens são de qualidade inferior e você precisará aguardar cerca de dois minutos para cada lote de imagens gerado. O Craiyon começou como um modelo de código aberto destinado a reproduzir os resultados do modelo DALL·E inicial. O modelo que está sendo usado agora é conhecido como DALL·E Mega e traz várias melhorias.

O Craiyon, ao contrário das outras opções aqui, é sustentado pela receita de publicidade. Como resultado, você verá patrocínios pagos e outros anúncios em o site deles quando você visita. Há também um aplicativo para smartphones Android. Não é o mais sofisticado, mas é divertido, fácil de usar e acessível.

Craiyon - Gerador de imagens AIDesenvolvedor: Craiyon

Preço: Gratuito.

3.9.

Download

Dall-E 2

O Dall-E 2 é um produto do laboratório de pesquisa OpenAI e é o gerador de imagem AI mais conhecido que as pessoas pensam. É uma ferramenta fechada com acesso limitado, mas para quem pode acessá-la, alguns dos resultados que ela pode apresentar são incríveis. Foi inicialmente fechado devido a preocupações em torno da ética e segurança de tal ferramenta, embora tenha se expandido gradualmente ao longo do tempo.

Uma das maiores vantagens do Dall-E 2 é a capacidade de criar imagens fotorrealistas que, à primeira vista, são indiscerníveis de fotografias reais. Ele pode gerar pinturas, imagens que parecem ter sido captadas por câmeras reais e cenários inteiramente inventados. Ele representou um grande salto nas capacidades da IA quando foi anunciado pela primeira vez, tanto em suas habilidades para criar imagens quanto em seu Processamento de Linguagem Natural, conhecido como NLP. Isso se deve à implementação do GPT-3, que é um dos modelos de linguagem mais avançados existentes e também é de autoria da OpenAI.

Assim como no Stable Diffusion, o Dall-E 2 também tem sua própria capacidade de capturar imagens existentes e modificá-las com base em um prompt. Você pode editar fotos através dele pedindo para adicionar algo a uma imagem, ou até mesmo pedir para remover algo ou mudar a iluminação. Embora crie apenas imagens quadradas, a OpenAI anunciou Pintando último mês que pode expandir mais suas imagens, levando em consideração o contexto do que já está disponível em sua imagem quadrada.

Dall-E 2 está disponível para todos experimentarem.

meio da jornada

Midjourney é interessante, pois é uma plataforma pública que pode gerar imagens, embora você o faça por meio de um servidor Discord. Além disso, depois de gerar 25 imagens, você precisará se inscrever no serviço para continuar gerando novas.

Enquanto meio da jornada é provavelmente a plataforma mais acessível aqui (já que você pode acessá-la de qualquer dispositivo com uma conta Discord), também custa dinheiro. No entanto, você obtém qualidade com isso. Um usuário do serviço, Jason Allen, criou uma peça que batizou de "Théâtre D'opéra Spatial". Ele o inscreveu no concurso de arte da Colorado State Fair... E ganhou.

Ao contrário desses outros projetos, o Midjourney é um programa proprietário de inteligência artificial. Não há código-fonte que você possa consultar, e todo o seu propósito neste momento é limitado ao uso em um servidor Discord. Quanto ao motivo de ser apenas um servidor Discord, David Holz, fundador da Midjourney, disse o seguinte para The Verge em uma entrevista.

Começamos a testar a tecnologia bruta em setembro do ano passado e imediatamente descobrimos coisas realmente diferentes. Descobrimos rapidamente que a maioria das pessoas não sabe o que quer. Você diz: "Aqui está uma máquina com a qual você pode imaginar qualquer coisa - o que você quer?" E eles dizem: “cachorro”. E você vai "realmente?" e eles vão "cachorro rosa". Então você dá a eles uma foto de um cachorro e eles dizem "ok" e depois fazem algo outro.

Considerando que, se você colocá-los em um grupo, eles irão “cachorro” e outra pessoa irá “cachorro espacial” e outra pessoa irá “cachorro espacial asteca” e, em seguida, tudo de uma vez. de repente, as pessoas entendem as possibilidades e você está criando essa imaginação aumentada - um ambiente onde as pessoas podem aprender e brincar com esse novo capacidade. Então descobrimos que as pessoas realmente gostam de imaginar juntas e tornamos [Midjourney] social.

Naquela época, você também teria problemas para afastá-lo do estilo padrão "Midjourney", por assim dizer. Isso é de acordo com Holz, de qualquer maneira, na mesma entrevista.

[Nós] temos um estilo e visual padrão, e é artístico e bonito, e é difícil afastar [o modelo] disso.

No entanto, desde então, a empresa lançou dois novos modelos - "test" e "testp". "test" é um modelo de uso geral e "testp" é focado exclusivamente em fotorrealismo. Como resultado, você será capaz de ficar longe disso mais padrão veja e gere imagens de mais tipos, se desejar.

Os perigos e a ética da arte gerada por IA

A arte gerada por IA, embora legal, impõe uma série de perigos à sociedade em geral. Em uma época em que pode ser difícil dizer quando as notícias são tiradas do contexto ou diretas fabricadas, existe o perigo quando as imagens podem ser feitas em questão de minutos e parecem real. Por exemplo, dê uma olhada nas fotos que gerei abaixo. Um foi gerado usando Stable Diffusion e o outro foi gerado com Craiyon.

Prompt: "UFO acidentado em Roswell, 1947, iluminação, investigação geral do exército, iluminação de estúdio"

As fotos acima mostram um OVNI acidentado em Roswell e a primeira imagem mostra o que parece ser uma pessoa andando em cima do OVNI acidentado. Embora a imagem aqui tenha sido gerada com o objetivo de mostrar uma foto falsa, parece que pode ser real. Quaisquer artefatos podem ser explicados pelo fato de que as fotos em 1947 teriam sido de qualidade inferior de qualquer maneira, e ambas as imagens poderiam passar no teste do olho em um rápido olhar para serem reais. Você nem precisa de um dos melhores computadores para fazer algo assim, pois o Craiyon é um aplicativo gratuito.

Onde fica ainda mais obscuro é que você pode realmente especificamos um artista no qual você deseja que o algoritmo se inspire. Um artista comum é Greg Rutkowski, que se manifestou abertamente contra o uso de seu nome na arte gerada por IA. Seu nome é classificado como um dos prompts mais comuns usados na geração de imagens. “A.I. deveria excluir artistas vivos de seu banco de dados”, Rutkowski contado artnet em entrevista, “concentre-se em obras de domínio público”. Pesquisar o nome de Rutkowski geralmente retorna arte de IA que foi gerada para se parecer com seu trabalho, mas não é na verdade O trabalho dele.

Pior ainda é que a arte gerada por IA muitas vezes pode destacar os preconceitos da raça humana. Craiyon ainda tem um aviso na parte inferior de sua página inicial no FAQ, afirmando que "como o modelo foi treinado em dados não filtrados da Internet, pode gerar imagens que contenham estereótipos nocivos." Como resultado, inserir prompts como "executivo da empresa" geralmente retornará imagens de homens brancos em se adequa. Da mesma forma, inserir "professor" como prompt quase sempre retornará mulheres nas salas de aula.

O futuro da arte gerada por IA

Dado que parece que a indústria não está desacelerando (e a regulamentação não está alcançando), esperamos ver ainda mais avanços nessas áreas. O fato de termos passado das capacidades do Dall-E 2 (mesmo que fosse privado) para a difusão estável em apenas alguns meses mostra quão grande é uma indústria, e quão grande é uma indústria que pode potencialmente ser. Imagens que anteriormente poderiam ter sido contratadas por uma equipe de artistas agora podem ser geradas em segundos, com um único artista envolvido no processo para fins correcionais. Já vimos como o Midjourney pode ajudar você a ganhar uma competição de arte, por exemplo, através do U.S. Copyright Office atualmente diz que você não pode nem mesmo ter direitos autorais de imagens geradas por IA.

Como Holz também afirmou em sua entrevista, o custo atual de treinamento de cada modelo é de cerca de US$ 50.000 - ou mais. As imagens também custam dinheiro, pois são geradas em servidores incrivelmente robustos, especialmente quando um grande número de usuários gera suas próprias imagens. Será um custo extremamente proibitivo para qualquer novo participante que entre no espaço, o que, por sua vez, também pode afastar algumas empresas. No entanto, os esforços iniciais, como o Stable Diffusion sendo de código aberto, são um bom presságio.

Como resultado, estaremos esperando ansiosamente para ver o futuro das imagens de IA. O espaço evoluiu tão rápido no ano passado, e parece que novos avanços estão sendo feitos diariamente. No entanto, com vislumbres de manipulação de imagem baseada em IA mesmo chegando aos nossos smartphones, há muita coisa que pode acontecer nos próximos dois anos.