Qu'est-ce qu'un générateur d'images AI et comment fonctionne-t-il ?

click fraud protection

Les générateurs d'images AI ont créé beaucoup de buzz récemment, mais ils peuvent être difficiles à comprendre. Voici tout ce que vous devez savoir à leur sujet.

En 2022, nous avons vu l'avènement d'incroyables générateurs de texte en image. Le premier à déclencher la grande vague a été Dall-E 2, Stable Diffusion arrivant peu de temps après. Depuis lors, nous avons vu d'autres outils arriver également, notamment Midjourney, Craiyon et même TikTok dans une certaine mesure. Il y a des préoccupations croissantes en ce qui concerne les outils de génération d'images d'IA, concernant principalement l'éthique de ces outils lorsqu'ils peuvent générer des images de personnes réelles dans des lieux ou des situations qu'ils n'étaient pas réellement dans.

Cependant, il n'y a pas que l'éthique à considérer non plus. Les générateurs d'images AI sont formés sur des millions et des millions de photos et ont appris à identifier choses au moyen de photos existantes réelles créées par de vraies personnes. Quand cela devient-il une violation du droit d'auteur? Si votre IA génère accidentellement une image qui ressemble beaucoup à un autre design, et que le créateur de cette image continue à la partager commercialement, est-ce que quelqu'un est responsable des dommages? Si oui, qui? Qui est même "l'artiste" dans ce cas ?

Il y a un tonne de raisons de se méfier des générateurs d'images IA, et ces préoccupations éthiques et de sécurité ne font qu'effleurer la surface. Ces outils peuvent être utilisés pour créer de fausses images qui peuvent être utilisées pour pousser un récit, et elles ne feront qu'empirer avec le temps. Compte tenu des capacités incroyables de ces outils de génération d'images déjà, il est effrayant de penser à ce qu'ils seront capables de faire très bientôt. Cependant, si vous voulez faire de jolies images et vous amuser, il n'y a absolument aucun mal à cela.

Diffusion stable

Stable Diffusion est l'inspiration derrière cet article et un outil avec lequel j'ai joué avec un parcelle récemment. Il s'exécute localement sur votre ordinateur (vous ne vous battez donc pas pour les ressources avec d'autres utilisateurs d'un outil en ligne) et c'est l'un des plus puissants que vous puissiez actuellement utiliser. Non seulement cela vous permet d'affiner une tonne de paramètres, mais vous pouvez également contrôler l'ensemble du processus de génération.

Stable Diffusion souffre de tous les mêmes pièges de l'IA, avec le "danger" supplémentaire de l'accessibilité. Toute personne disposant d'un ordinateur suffisamment puissant peut le configurer et le faire fonctionner rapidement. Avec un i7-12700KF, un RTX 3080, 32 Go de RAM et Internet gigabit, j'ai pu configurer Stable Diffusion et générer mes premières images en une heure. Mon PC est définitivement sur le haut de gamme, mais vous pouvez vous en tirer en l'exécutant matériel plus faible (bien que vous ne puissiez pas générer des images aussi volumineuses avec une vRAM inférieure et cela prendra plus de temps).

La meilleure chose à propos de Stable Diffusion est qu'il est entièrement open source. Vous pouvez implémenter sa prise en charge dans n'importe lequel de vos projets aujourd'hui si vous le souhaitez, et il existe déjà des plugins tels que Alpaca que vous pouvez utiliser pour l'intégrer à Photoshop. Ce n'est pas encore parfait, mais c'est très tôt dans le développement de ces programmes. Vous pouvez utiliser Studio de Rêve soit si vous le souhaitez, bien que cela coûte de l'argent et soit un peu restrictif par rapport à l'installation locale.

De plus, si vous configurez Stable Diffusion localement, il existe des fourches telles que WebUI de diffusion stable d'AUTOMATIC1111 qui viennent avec un outil haut de gamme intégré qui peut augmenter la résolution jusqu'à quatre fois plus haut. Bien que vous puissiez générer des images à des résolutions plus élevées, il est souvent beaucoup plus rapide de générer une image à une résolution inférieure, puis de la mettre à l'échelle. Toutes les images ci-dessous sont mises à l'échelle à partir de résolutions plus petites.

Stable Diffusion a été formé sur un cluster de 4 000 GPU Nvidia A100 fonctionnant dans AWS et s'est déroulé sur un mois. Il a la capacité de générer des images de célébrités et possède également un filtre NSFW intégré. Vous pouvez désactiver ce filtre NSFW sur les installations locales, car il permet en fait d'économiser des ressources en réduisant l'utilisation de la VRAM. Quant à ce que "Diffusion" signifie, c'est le processus qui consiste à commencer par du bruit pur et à s'affiner au fil du temps. Cela rapproche progressivement l'image de l'invite de texte au fil du temps jusqu'à ce qu'il ne reste plus de bruit. C'est de la même manière que Dall-E 2 fonctionne.

Enfin, une autre fonctionnalité amusante de Stable Diffusion est "img2img". Dans ce cas, vous lui donnez une image comme invite, décrivez ce que vous voulez que l'image soit, puis laissez-la vous donner une approprié dessin.

Je lui ai donné un modèle avec lequel travailler et j'ai récupéré une image assez décente. Je suis sûr qu'avec de meilleures invites (la mienne est quelque peu contradictoire), vous pourriez devenir encore meilleur. Pourtant, pas mal du tout pour quelque chose qui m'a pris environ cinq minutes à faire.

En bref, Stable Diffusion est gratuit, facile à configurer et le plus gros problème est son accessibilité. Si vous n'avez pas un PC assez puissant, vous devrez payer pour l'utiliser via Dream Studio.

Craiyon

Craiyon était auparavant connu sous le nom de DALL·E Mini, bien que malgré son nom, il n'ait aucun rapport avec Dall-E 2. Il a été créé afin de reproduire les résultats du modèle texte-image DALL·E d'OpenAI. Craiyon est accessible au public et peut être utilisé pour générer des images étonnamment décentes, bien que les images ne soient pas aussi précises ni d'aussi haute qualité. Les résolutions d'image ne dépassent pas 256x256, et il n'y a pas non plus d'outils de mise à l'échelle.

Craiyon est entièrement gratuit et accessible via son site Web. Vous pouvez générer n'importe quelle image via n'importe quelle invite, et le seul problème est que les images sont de qualité inférieure et que vous devrez attendre environ deux minutes pour chaque lot d'images générées. Craiyon a commencé comme un modèle open-source visant à reproduire les résultats du modèle DALL·E initial. Le modèle actuellement utilisé est connu sous le nom de DALL·E Mega et comporte plusieurs améliorations.

Craiyon, contrairement aux autres options ici, est soutenu par les revenus publicitaires. Par conséquent, vous verrez des parrainages payants et d'autres publicités sur leur site web quand vous visitez. Il existe également une application pour les smartphones Android. Ce n'est pas le plus sophistiqué, mais c'est amusant, facile à utiliser et accessible.

Craiyon - Générateur d'images IADéveloppeur: Craiyon

Prix ​​: Gratuit.

3.9.

Télécharger

Dall-E 2

Dall-E 2 est un produit du laboratoire de recherche OpenAI et est le générateur d'images AI le plus connu auquel les gens pensent. C'est un outil fermé avec un accès limité, mais pour ceux qui peuvent y accéder, certains des résultats qu'il peut obtenir sont incroyables. Il a été initialement fermé en raison de préoccupations concernant l'éthique et la sécurité d'un tel outil, bien qu'il se soit progressivement étendu au fil du temps.

L'un des principaux avantages du Dall-E 2 est sa capacité à créer des images photoréalistes qui, en un coup d'œil, sont indiscernables des photographies réelles. Il peut générer des peintures, des images qui semblent avoir été capturées sur de vrais appareils photo et des scénarios entièrement inventés. Il a représenté un énorme saut dans les capacités de l'IA lors de sa première annonce, à la fois dans ses capacités à créer des images et dans son traitement du langage naturel, connu sous le nom de NLP. C'est grâce à son implémentation de GPT-3, qui est l'un des modèles de langage les plus avancés et est également créé par OpenAI.

Tout comme avec Stable Diffusion, Dall-E 2 a également sa propre capacité à prendre des images existantes et à les modifier en fonction d'une invite. Vous pouvez éditer des photos à travers lui en lui demandant d'ajouter quelque chose à une image, ou même lui demander de supprimer quelque chose ou de changer l'éclairage. Bien qu'il ne crée que des images carrées, OpenAI a annoncé Repeinture le mois dernier qui peut élargir vos images, en tenant compte du contexte de ce qui est déjà disponible dans votre image carrée.

Dall-E 2 est disponible pour tous à essayer.

À mi-parcours

Midjourney est intéressant car il s'agit d'une plate-forme publique qui peut générer des images, bien que vous le fassiez via un serveur Discord. Non seulement cela, mais après avoir généré 25 images, vous devrez vous abonner au service pour continuer à en générer de nouvelles.

Alors que À mi-parcours est probablement la plate-forme la plus accessible ici (étant donné que vous pouvez y accéder depuis n'importe quel appareil avec un compte Discord), cela vous coûte également de l'argent. Cependant, vous en tirez de la qualité. Un utilisateur du service, Jason Allen, a créé une pièce qu'il a baptisée "Théâtre D'opéra Spatial". Il l'a inscrit au concours d'art de la Colorado State Fair... et a gagné.

Contrairement à ces autres projets, Midjourney est un programme propriétaire d'intelligence artificielle. Il n'y a pas de code source que vous pouvez consulter, et tout son objectif à ce stade est limité à une utilisation au sein d'un serveur Discord. Quant à savoir pourquoi il s'agit uniquement d'un serveur Discord, David Holz, fondateur de Midjourney, a déclaré ce qui suit à Le bord dans une interview.

Nous avons commencé à tester la technologie brute en septembre de l'année dernière, et nous avons immédiatement trouvé des choses vraiment différentes. Nous avons constaté très rapidement que la plupart des gens ne savent pas ce qu'ils veulent. Vous dites: "Voilà une machine avec laquelle vous pouvez tout imaginer - que voulez-vous ?" Et ils disent: "chien". Et tu vas "vraiment?" et ils deviennent "chien rose". Alors vous leur donnez une photo d'un chien, et ils disent "d'accord" et ensuite ils vont faire quelque chose autre.

Alors que si vous les mettez dans un groupe, ils iront "chien" et quelqu'un d'autre ira "chien de l'espace" et quelqu'un d'autre ira "chien de l'espace aztèque", et puis tout d'un soudain, les gens comprennent les possibilités et vous créez cette imagination augmentée - un environnement où les gens peuvent apprendre et jouer avec ce nouveau capacité. Nous avons donc découvert que les gens aiment vraiment imaginer ensemble, et nous avons donc rendu [Midjourney] social.

À l'époque, vous auriez également eu du mal à l'éloigner du style "Midjourney" par défaut, pour ainsi dire. C'est selon Holz, en tout cas, dans la même interview.

[N]ous avons un style et un look par défaut, et c'est artistique et beau, et il est difficile d'éloigner [le modèle] de cela.

Cependant, depuis lors, la société a déployé deux nouveaux modèles - "test" et "testp". "test" est un modèle à usage général, et "testp" se concentre uniquement sur le photoréalisme. En conséquence, vous pourrez vous éloigner davantage de cela défaut regardez et générez des images de plusieurs types si vous le souhaitez.

Les dangers et l'éthique de l'art généré par l'IA

L'art généré par l'IA, bien que cool, impose un certain nombre de dangers à la société dans son ensemble. À une époque où il peut être difficile de dire parfois quand les nouvelles sont sorties de leur contexte ou directement fabriqués, il y a un danger lorsque des images peuvent être faites en quelques minutes qui ressemblent et se sentent réel. Par exemple, regardez les photos que j'ai générées ci-dessous. L'un a été généré à l'aide de Stable Diffusion, et l'autre a été généré avec Craiyon.

Invite: "OVNI écrasé à Roswell, 1947, éclairage, général de l'armée enquêtant, éclairage de studio"

Les photos ci-dessus représentent un OVNI écrasé à Roswell et la première image montre à quoi ressemble une personne marchant sur l'OVNI écrasé. Bien que l'image ici ait été générée dans le but de montrer une fausse photo, il semble qu'elle pourrait être réelle. Tous les artefacts peuvent être expliqués par le fait que les photos de 1947 auraient été de toute façon de moins bonne qualité, et les deux images pourraient passer le test de la vue en un coup d'œil rapide pour être réelles. Vous n'avez même pas besoin de l'un des meilleurs ordinateurs faire quelque chose comme ça, car Craiyon est une application gratuite.

Là où ça devient encore plus trouble, c'est que vous pouvez réellement spécifier un artiste dont vous voulez que l'algorithme s'inspire. Un artiste commun est Greg Rutkowski, qui s'est prononcé ouvertement contre l'utilisation de son nom dans l'art généré par l'IA. Son nom est l'une des invites les plus couramment utilisées dans la génération d'images. "A.I. devrait exclure les artistes vivants de sa base de données », Rutkowski dit art net dans une interview, "se concentrer sur les œuvres relevant du domaine public". La recherche du nom de Rutkowski renverra souvent de l'art IA qui a été généré pour ressembler à son travail mais qui n'est pas en fait son travail.

Pire encore, l'art généré par l'IA peut souvent mettre en évidence les préjugés de la race humaine. Craiyon a même un avertissement au bas de sa page d'accueil dans la FAQ, indiquant que "parce que le modèle a été formé sur des données non filtrées provenant d'Internet, il peut générer des images qui contiennent des stéréotypes nuisibles." Par conséquent, la saisie d'invites telles que "dirigeant d'entreprise" renverra le plus souvent des images d'hommes blancs dans combinaisons. De même, entrer "enseignant" comme invite ramènera presque toujours les femmes dans les salles de classe.

L'avenir de l'art généré par l'IA

Étant donné qu'il semble que l'industrie ne ralentisse pas (et que la réglementation ne rattrape pas son retard), nous nous attendons à voir encore plus de progrès dans ces domaines. Le fait que nous soyons passés des capacités de Dall-E 2 (même s'il était privé) à Stable Diffusion en quelques mois seulement montre à quel point il s'agit d'une industrie et quelle est la taille d'une industrie qu'elle peut potentiellement être. Les images qui auraient pu auparavant être confiées à une équipe d'artistes peuvent désormais être générées en quelques secondes, un seul artiste étant plutôt impliqué dans le processus à des fins correctionnelles. Nous avons déjà vu comment Midjourney peut vous aider à gagner un concours d'art, par exemple, par le biais du U.S. Copyright Office dit actuellement que vous ne pouvez même pas protéger les images générées par l'IA.

Comme Holz l'a également déclaré dans son interview, le coût actuel de la formation de chaque modèle est d'environ 50 000 $ ou plus. Les images coûtent également de l'argent car elles sont générées sur des serveurs incroyablement puissants, en particulier lorsqu'un grand nombre d'utilisateurs viennent générer leurs propres images. Cela va être extrêmement coûteux pour tout nouvel acteur entrant dans l'espace, ce qui pourrait également décourager certaines entreprises. Cependant, les efforts initiaux tels que Stable Diffusion étant open source sont de bon augure.

En conséquence, nous attendrons avec impatience de voir l'avenir des images d'IA. L'espace a évolué si rapidement au cours de la dernière année, et il semble que de nouveaux progrès soient réalisés quotidiennement. Cependant, avec des aperçus de la manipulation d'images basée sur l'IA même venir sur nos smartphones, il y a beaucoup de choses qui pourraient arriver d'ici un an ou deux.