¿Qué es un generador de imágenes de IA y cómo funciona?

Los generadores de imágenes de IA han generado mucho revuelo recientemente, pero pueden ser difíciles de entender. Aquí está todo lo que necesitas saber sobre ellos.

En 2022, hemos visto el advenimiento de algunos generadores increíbles de texto a imagen. El primero en desencadenar la gran ola fue Dall-E 2, y Stable Diffusion llegó poco después. Desde entonces, también hemos visto llegar otras herramientas, incluidas Midjourney, Craiyon e incluso TikTok hasta cierto punto. Existen preocupaciones crecientes en lo que respecta a las herramientas de generación de imágenes de IA, relacionadas principalmente con la ética de tales herramientas cuando pueden generar imágenes de personas reales en lugares o situaciones que en realidad no eran en.

Sin embargo, no solo hay que considerar la ética. Los generadores de imágenes de IA están entrenados en millones y millones de fotos y han aprendido a identificar cosas a través de fotos reales existentes creadas por personas reales. ¿Cuándo se convierte en una violación de derechos de autor? Si su IA genera accidentalmente una imagen que se parece mucho a otro diseño, y el creador de esa imagen la comparte comercialmente, ¿alguien es responsable de los daños? Si es así, ¿quién? ¿Quién es incluso el "artista" en este caso?

Hay un tonelada de razones para desconfiar de los generadores de imágenes de IA, y estas preocupaciones éticas y de seguridad son simplemente rascando la superficie. Estas herramientas se pueden usar para crear imágenes falsas que se pueden usar para impulsar una narrativa, y también empeorarán con el tiempo. Dadas las increíbles capacidades de estas herramientas de generación de imágenes, da miedo pensar lo que serán capaces de hacer muy pronto. Sin embargo, si quieres hacer imágenes bonitas y divertirte, entonces no hay ningún daño en eso.

Difusión estable

Stable Diffusion es la inspiración detrás de este artículo y una herramienta con la que he estado jugando lote recientemente. Se ejecuta localmente en tu computadora (para que no estés peleando por los recursos con otros usuarios de alguna herramienta en línea) y es una de las más poderosas que puedes usar actualmente. No solo le permite ajustar una tonelada de parámetros, sino que también puede controlar todo el proceso de generación.

Stable Diffusion adolece de las mismas trampas de la IA, con el "peligro" adicional de la accesibilidad. Cualquiera con una computadora lo suficientemente potente puede configurarlo y hacerlo funcionar rápidamente. Con un i7-12700KF, un RTX 3080, 32 GB de RAM e Internet gigabit, pude configurar Stable Diffusion y generar mis primeras imágenes en una hora. Mi PC definitivamente está en el extremo superior, pero puedes salirte con la tuya ejecutándolo hardware más débil (aunque no puede generar imágenes tan grandes con una vRAM más baja y llevará más tiempo).

Lo mejor de Stable Diffusion es que es completamente de código abierto. Puede implementar soporte para él en cualquiera de sus proyectos hoy si lo desea, y ya hay complementos como Alpaca que puede usar para integrarse con Photoshop. Todavía no es perfecto, pero es extremadamente temprano en el desarrollo de estos programas. Puedes usar estudio de ensueño ya sea si lo desea, aunque eso cuesta dinero y es un poco restrictivo en comparación con la configuración local.

Además, si configura Stable Diffusion localmente, hay bifurcaciones como WebUI de difusión estable de AUTOMATIC1111 que vienen con una herramienta mejorada incorporada que puede aumentar la resolución hasta cuatro veces más. Si bien puede generar imágenes a resoluciones más altas, a menudo es mucho más rápido generar una imagen a una resolución más baja y luego mejorarla. Todas las imágenes a continuación están mejoradas desde resoluciones más pequeñas.

Stable Diffusion se entrenó en un grupo de 4000 GPU Nvidia A100 que se ejecutan en AWS y se llevó a cabo durante un mes. Tiene la capacidad de generar imágenes de celebridades y también tiene un filtro NSFW incorporado. Puede deshabilitar este filtro NSFW en instalaciones locales, ya que en realidad ahorra recursos al disminuir el uso de VRAM. En cuanto a lo que significa "Difusión", es el proceso de comenzar con ruido puro y refinarlo con el tiempo. Hace que la imagen se acerque cada vez más a la indicación de texto con el tiempo hasta que no quede ningún ruido. Esta es la misma forma en que funciona Dall-E 2.

Finalmente, otra característica divertida que tiene Stable Diffusion es "img2img". En esto, le das una imagen como mensaje, describe lo que quieres que sea la imagen y luego dejas que te dé una adecuado dibujo.

Le di una plantilla para trabajar y obtuve una imagen bastante decente. Estoy seguro de que con mejores indicaciones (las mías son algo contradictorias), podrías mejorar aún más. Aún así, no está nada mal para algo que me llevó unos cinco minutos hacer.

En resumen, Stable Diffusion es gratis, fácil de configurar y el mayor problema es cuán accesible es. Si no tiene una PC lo suficientemente poderosa, deberá pagar para usarla a través de Dream Studio.

creyón

Craiyon se conocía anteriormente como DALL·E Mini, aunque a pesar del nombre, no tiene relación con Dall-E 2. Fue creado para reproducir los resultados del modelo de texto a imagen DALL·E de OpenAI. Craiyon está disponible para el público y se puede utilizar para generar imágenes que son sorprendentemente decentes, aunque las imágenes no son tan precisas ni de alta calidad. Las resoluciones de imagen alcanzan un máximo de 256x256, y tampoco hay herramientas de mejora.

Craiyon es de uso completamente gratuito y accesible a través de su sitio web. Puede generar cualquier imagen a través de cualquier mensaje, y el único inconveniente es que las imágenes son de menor calidad y que deberá esperar dos minutos más o menos para cada lote de imágenes generadas. Craiyon comenzó como un modelo de código abierto destinado a reproducir los resultados del modelo DALL·E inicial. El modelo que se está utilizando ahora se conoce como DALL·E Mega y contiene varias mejoras.

Craiyon, a diferencia de las otras opciones aquí, está respaldado por ingresos publicitarios. Como resultado, verá patrocinios pagados y otros anuncios en su página web cuando tu visitas. También hay una aplicación para teléfonos inteligentes Android. No es el más sofisticado, pero es divertido, fácil de usar y accesible.

Craiyon - Generador de imágenes con IADesarrollador: creyón

Precio: Gratis.

3.9.

Descargar

Dall-E 2

Dall-E 2 es un producto del laboratorio de investigación de OpenAI y es el generador de imágenes de IA más conocido que la gente piensa. Es una herramienta cerrada con acceso limitado, pero para aquellos que pueden acceder a ella, algunos de los resultados que puede generar son increíbles. Inicialmente se cerró debido a preocupaciones en torno a la ética y la seguridad de dicha herramienta, aunque se ha expandido gradualmente con el tiempo.

Una de las mayores ventajas que tiene Dall-E 2 es la capacidad de crear imágenes fotorrealistas que, a simple vista, son imperceptibles de las fotografías reales. Puede generar pinturas, imágenes que parecen haber sido capturadas con cámaras reales y escenarios completamente inventados. Representó un gran salto en las capacidades de la IA cuando se anunció por primera vez, tanto en sus habilidades para crear imágenes como en su procesamiento del lenguaje natural, conocido como NLP. Esto se debe a su implementación de GPT-3, que es uno de los modelos de lenguaje más avanzados que existen y también está creado por OpenAI.

Al igual que con Stable Diffusion, Dall-E 2 también tiene su propia capacidad para tomar imágenes existentes y modificarlas en función de un aviso. Puede editar fotos a través de él pidiéndole que agregue algo a una imagen, o incluso pídale que elimine algo o cambie la iluminación. Si bien solo crea imágenes cuadradas, OpenAI anunció pintar el mes pasado que puede ampliar más tus imágenes, teniendo en cuenta el contexto de lo que ya está disponible en tu imagen cuadrada.

Dall-E 2 está disponible para que todos lo prueben.

a mitad de camino

Midjourney es interesante ya que es una plataforma pública que puede generar imágenes, aunque lo hace a través de un servidor Discord. No solo eso, sino que después de generar 25 imágenes, deberá suscribirse al servicio para continuar generando nuevas.

Mientras a mitad de camino es probablemente la plataforma más accesible aquí (dado que puede acceder desde cualquier dispositivo con una cuenta de Discord), también le cuesta dinero. Sin embargo, le sacas calidad. Un usuario del servicio, Jason Allen, creó una pieza que denominó "Théâtre D'opéra Spatial". Entró en la competencia de arte de la Feria Estatal de Colorado... y ganó.

A diferencia de estos otros proyectos, Midjourney es un programa propietario de inteligencia artificial. No hay un código fuente que pueda ver, y su propósito completo en este momento se limita al uso dentro de un servidor Discord. En cuanto a por qué es solo un servidor Discord, David Holz, fundador de Midjourney, dijo lo siguiente a el borde en una entrevista.

Comenzamos probando la tecnología en bruto en septiembre del año pasado e inmediatamente encontramos cosas realmente diferentes. Descubrimos muy rápidamente que la mayoría de las personas no saben lo que quieren. Usted dice: "Aquí hay una máquina, puede imaginar cualquier cosa con ella, ¿qué quiere?" Y dicen: "perro". y te vas "¿en realidad?" y dicen "perro rosa". Entonces les das una foto de un perro, dicen "bien" y luego van a hacer algo. demás.

Mientras que si los pones en un grupo, dirán "perro" y alguien más dirá "perro espacial" y alguien más dirá "perro espacial azteca", y luego todo un de repente, la gente comprende las posibilidades y está creando esta imaginación aumentada: un entorno en el que la gente puede aprender y jugar con este nuevo capacidad. Entonces descubrimos que a la gente realmente le gusta imaginar juntos, así que hicimos [Midjourney] social.

En aquel entonces, también tendría problemas para alejarlo del estilo predeterminado "Midjourney", por así decirlo. Eso es según Holz, de todos modos, en la misma entrevista.

[Tenemos] un estilo y una apariencia predeterminados, y es artístico y hermoso, y es difícil alejar [a la modelo] de eso.

Sin embargo, desde entonces, la empresa ha lanzado dos nuevos modelos: "test" y "testp". "test" es un modelo de propósito general, y "testp" se centra únicamente en el fotorrealismo. Como resultado, podrá alejarse más de eso por defecto mire y genere imágenes de más tipos si lo desea.

Los peligros y la ética del arte generado por IA

El arte generado por IA, aunque genial, impone una serie de peligros a la sociedad en general. En una era en la que puede ser difícil saber cuándo las noticias se toman fuera de contexto o directamente. fabricado, existe el peligro cuando las imágenes se pueden hacer en cuestión de minutos que se ven y se sienten real. Por ejemplo, eche un vistazo a las fotos que generé a continuación. Uno se generó con Stable Diffusion y el otro con Craiyon.

Aviso: "OVNI estrellado en Roswell, 1947, iluminación, general del ejército investigando, iluminación de estudio"

Las fotos de arriba muestran un OVNI estrellado en Roswell y la primera imagen muestra lo que parece una persona caminando sobre el OVNI estrellado. Si bien la imagen aquí se generó con el propósito de mostrar una foto falsa, parece que podría ser real. Cualquier artefacto puede explicarse por el hecho de que las fotos en 1947 habrían sido de peor calidad de todos modos, y ambas imágenes podrían pasar la prueba visual de un vistazo rápido para ser reales. Ni siquiera necesitas uno de los mejores computadoras para hacer algo como esto, ya que Craiyon es una aplicación gratuita.

Donde se pone aún más turbio es que en realidad puedes especificar un artista en el que desea que se inspire el algoritmo. Un artista común es Greg Rutkowski, quien se ha pronunciado abiertamente en contra del uso de su nombre en el arte generado por IA. Su nombre se ubica como uno de los indicadores más comunes utilizados en la generación de imágenes. "AI. debería excluir a los artistas vivos de su base de datos”, Rutkowski dijo artnet en una entrevista, “centrarse en las obras bajo el dominio público”. Buscar el nombre de Rutkowski a menudo devolverá arte de IA que se generó para parecerse a su trabajo pero no lo es. de hecho su trabajo.

Peor aún es que el arte generado por IA a menudo puede resaltar los sesgos de la raza humana. Craiyon incluso tiene una advertencia en la parte inferior de su página de inicio en las preguntas frecuentes, que indica que "debido a que el modelo se entrenó con datos sin filtrar de Internet, es posible que generar imágenes que contengan estereotipos dañinos". Como resultado, al ingresar avisos como "ejecutivo de la compañía" generalmente se obtendrán imágenes de hombres blancos en trajes. Del mismo modo, ingresar "maestro" como indicador casi siempre devolverá a las mujeres a las aulas.

El futuro del arte generado por IA

Dado que parece que la industria no se está desacelerando (y la regulación no se está poniendo al día), esperamos ver aún más avances en estas áreas. El hecho de que hayamos pasado de las capacidades de Dall-E 2 (aunque fuera privado) a Stable Diffusion en solo unos meses muestra cuán grande es esta industria y cuán grande es una industria que potencialmente puede ser. Las imágenes que anteriormente podrían haber sido contratadas a un equipo de artistas ahora pueden generarse en segundos, con un solo artista involucrado en el proceso con fines correctivos. Ya hemos visto cómo Midjourney puede ayudarlo a ganar una competencia de arte, por ejemplo, a través de la Oficina de derechos de autor de EE. UU. actualmente dice que ni siquiera puedes registrar los derechos de autor de las imágenes generadas por IA.

Como Holz también afirmó en su entrevista, el costo actual de entrenar a cada modelo es de alrededor de $50,000 o más. Las imágenes también cuestan dinero, ya que se generan en servidores increíblemente robustos, especialmente cuando una gran cantidad de usuarios vienen a generar sus propias imágenes. Va a ser enormemente prohibitivo para los nuevos jugadores que ingresen al espacio, lo que a su vez también puede desanimar a algunas empresas. Sin embargo, los esfuerzos iniciales, como que Stable Diffusion sea de código abierto, son un buen augurio.

Como resultado, estaremos esperando con entusiasmo para ver el futuro de las imágenes de IA. El espacio ha evolucionado tan rápidamente en el último año, y parece que se están logrando nuevos avances a diario. Sin embargo, con destellos de manipulación de imágenes basada en IA llegando incluso a nuestros smartphones, hay muchas cosas que podrían suceder en el próximo año o dos.