Was ist ein AI Image Generator und wie funktioniert er?

click fraud protection

KI-Bildgeneratoren haben in letzter Zeit viel Aufsehen erregt, sind aber möglicherweise schwer zu verstehen. Hier finden Sie alles, was Sie über sie wissen müssen.

Im Jahr 2022 haben wir das Aufkommen einiger unglaublicher Text-zu-Bild-Generatoren erlebt. Der erste, der die große Welle auslöste, war Dall-E 2, und kurz darauf traf Stable Diffusion ein. Seitdem sind auch andere Tools auf den Markt gekommen, darunter Midjourney, Craiyon und bis zu einem gewissen Grad sogar TikTok. Es gibt wachsende Bedenken, wenn es um KI-Tools zur Bildgenerierung geht, die sich vor allem auf die Ethik beziehen solche Tools, wenn sie Bilder von echten Menschen an Orten oder in Situationen erzeugen können, an denen sie sich tatsächlich nicht befinden In.

Es sind jedoch nicht nur ethische Aspekte zu berücksichtigen. KI-Bildgeneratoren sind auf Millionen und Abermillionen von Fotos trainiert und haben gelernt, diese zu identifizieren Dinge durch tatsächlich vorhandene Fotos, die von echten Menschen erstellt wurden. Wann handelt es sich um eine Urheberrechtsverletzung? Wenn Ihre KI versehentlich ein Bild generiert, das einem anderen Design sehr ähnlich sieht, und der Ersteller dieses Bildes es anschließend kommerziell weitergibt, haftet dann jemand für etwaige Schäden? Wenn ja, wer? Wer ist in diesem Fall überhaupt der „Künstler“?

Es gibt eine Tonne Es gibt Gründe, vor KI-Bildgeneratoren vorsichtig zu sein, und diese ethischen und sicherheitstechnischen Bedenken kratzen nur an der Oberfläche. Mit diesen Tools können gefälschte Bilder erstellt werden, mit denen eine Erzählung vorangetrieben werden kann, und auch diese werden mit der Zeit nur noch schlimmer. Angesichts der unglaublichen Fähigkeiten dieser Bilderzeugungstools ist es beängstigend, sich vorzustellen, wozu sie in naher Zukunft fähig sein werden. Wenn Sie jedoch schöne Bilder machen und Spaß haben möchten, kann das absolut nicht schaden.

Stabile Verbreitung

Stable Diffusion ist die Inspiration für diesen Artikel und ein Tool, mit dem ich herumgespielt habe viel in letzter Zeit. Es läuft lokal auf Ihrem Computer (Sie müssen also nicht mit anderen Benutzern eines Online-Tools um Ressourcen kämpfen) und ist eines der leistungsstärksten, die Sie derzeit verwenden können. Damit können Sie nicht nur zahlreiche Parameter feinabstimmen, sondern auch den gesamten Generierungsprozess steuern.

Stable Diffusion weist dieselben KI-Fallstricke auf, mit der zusätzlichen „Gefahr“ der Zugänglichkeit. Jeder, der über einen ausreichend leistungsstarken Computer verfügt, kann ihn schnell einrichten und zum Laufen bringen. Mit einem i7-12700KF, einer RTX 3080, 32 GB RAM und Gigabit-Internet konnte ich Stable Diffusion einrichten und innerhalb einer Stunde meine ersten Bilder generieren. Mein PC ist definitiv dabei höheres Ende, aber Sie können damit davonkommen, es weiterlaufen zu lassen schwächere Hardware (Allerdings können Sie mit weniger vRAM keine so großen Bilder generieren und es wird länger dauern.)

Das Beste an Stable Diffusion ist, dass es vollständig Open Source ist. Sie können die Unterstützung dafür schon heute in jedem Ihrer Projekte implementieren, wenn Sie möchten, und es gibt bereits Plugins wie Alpaca, die Sie für die Integration in Photoshop verwenden können. Es ist noch nicht perfekt, aber die Entwicklung dieser Programme befindet sich noch in einem extrem frühen Stadium. Sie können verwenden Traumstudio Entweder, wenn Sie möchten, obwohl das Geld kostet und im Vergleich zur lokalen Einrichtung etwas restriktiv ist.

Wenn Sie Stable Diffusion lokal einrichten, gibt es außerdem Forks wie Die stabile Diffusions-WebUI von AUTOMATIC1111 die mit einem integrierten Upscale-Tool ausgestattet sind, das die Auflösung um das Vierfache erhöhen kann. Während Sie Bilder mit höheren Auflösungen erstellen können, ist es oft viel schneller, ein Bild mit einer niedrigeren Auflösung zu erstellen und es dann hochzuskalieren. Alle folgenden Bilder wurden von kleineren Auflösungen hochskaliert.

Stable Diffusion wurde über einen Monat lang auf einem Cluster von 4.000 Nvidia A100-GPUs in AWS trainiert. Es kann Bilder von Prominenten erstellen und verfügt außerdem über einen integrierten NSFW-Filter. Sie können diesen NSFW-Filter bei lokalen Installationen deaktivieren, da er tatsächlich Ressourcen spart, indem er die VRAM-Nutzung verringert. Was „Diffusion“ bedeutet, ist der Prozess, bei dem man mit reinem Rauschen beginnt und sich im Laufe der Zeit verfeinert. Dadurch nähert sich das Bild mit der Zeit immer mehr der Textaufforderung an, bis kein Rauschen mehr vorhanden ist. So funktioniert auch Dall-E 2.

Eine weitere unterhaltsame Funktion von Stable Diffusion ist „img2img“. Dabei geben Sie ihm als Aufforderung ein Bild, beschreiben, wie das Bild aussehen soll, und lassen sich dann ein Bild geben richtig Zeichnung.

Ich gab ihm eine Vorlage zum Arbeiten und bekam ein recht anständiges Bild zurück. Ich bin mir sicher, dass Sie mit besseren Eingabeaufforderungen (meine ist etwas widersprüchlich) noch besser werden könnten. Trotzdem gar nicht schlecht für etwas, für dessen Zubereitung ich etwa fünf Minuten gebraucht habe.

Kurz gesagt: Stable Diffusion ist kostenlos, einfach einzurichten und das größte Problem ist die Zugänglichkeit. Wenn Sie nicht über einen PC verfügen, der leistungsstark genug ist, müssen Sie für die Nutzung über Anbieter wie Dream Studio bezahlen.

Craiyon

Craiyon war früher als DALL·E Mini bekannt, hat aber trotz des Namens keine Verbindung zu Dall-E 2. Es wurde erstellt, um die Ergebnisse des DALL·E-Text-zu-Bild-Modells von OpenAI zu reproduzieren. Craiyon ist für die Öffentlichkeit zugänglich und kann verwendet werden, um Bilder zu erzeugen, die überraschend anständig sind, obwohl die Bilder nicht so genau und auch nicht so hochwertig sind. Die maximale Bildauflösung beträgt 256 x 256, und es gibt auch keine Upscaling-Tools.

Die Nutzung von Craiyon ist völlig kostenlos und über die Website zugänglich. Sie können jedes Bild über jede beliebige Eingabeaufforderung erstellen. Der einzige Haken ist, dass die Bilder von geringerer Qualität sind und Sie auf jeden generierten Bildstapel etwa zwei Minuten warten müssen. Craiyon begann als Open-Source-Modell mit dem Ziel, die Ergebnisse des ursprünglichen DALL·E-Modells zu reproduzieren. Das derzeit verwendete Modell heißt DALL·E Mega und bietet mehrere Verbesserungen.

Craiyon wird im Gegensatz zu den anderen Optionen hier durch Werbeeinnahmen finanziert. Infolgedessen werden Ihnen bezahlte Sponsoring- und andere Werbeanzeigen angezeigt ihre Website wenn du besuchst. Es gibt auch eine App für Android-Smartphones. Es ist nicht das anspruchsvollste, aber es macht Spaß, ist einfach zu bedienen und zugänglich.

Craiyon – KI-BildgeneratorEntwickler: Craiyon

Kostenlos.

3.9.

Herunterladen

Dall-E 2

Dall-E 2 ist ein Produkt des OpenAI-Forschungslabors und der bekannteste KI-Bildgenerator, den man sich vorstellen kann. Es handelt sich um ein abgeschlossenes Tool mit eingeschränktem Zugriff, aber für diejenigen, die darauf zugreifen können, sind einige der Ergebnisse, die damit erzielt werden können, unglaublich. Aufgrund von Bedenken hinsichtlich der Ethik und Sicherheit eines solchen Tools wurde es zunächst geschlossen, im Laufe der Zeit wurde es jedoch schrittweise erweitert.

Einer der größten Vorteile von Dall-E 2 ist die Möglichkeit, fotorealistische Bilder zu erstellen, die auf den ersten Blick nicht von echten Fotos zu unterscheiden sind. Es können Gemälde, Bilder, die aussehen, als wären sie mit echten Kameras aufgenommen worden, und völlig erfundene Szenarien erzeugt werden. Als es zum ersten Mal angekündigt wurde, stellte es einen enormen Fortschritt in den Fähigkeiten der KI dar, sowohl in Bezug auf die Fähigkeit, Bilder zu erstellen, als auch in Bezug auf die Verarbeitung natürlicher Sprache, bekannt als NLP. Dies ist der Implementierung von GPT-3 zu verdanken, einem der fortschrittlichsten Sprachmodelle auf dem Markt, das ebenfalls von OpenAI entwickelt wurde.

Genau wie bei Stable Diffusion verfügt auch Dall-E 2 über eine eigene Fähigkeit, vorhandene Bilder aufzunehmen und diese basierend auf einer Eingabeaufforderung zu ändern. Sie können damit Fotos bearbeiten, indem Sie es auffordern, etwas zu einem Bild hinzuzufügen, oder es sogar auffordern, etwas zu entfernen oder die Beleuchtung zu ändern. Es werden zwar nur quadratische Bilder erstellt, gab OpenAI bekannt Outpainting Letzten Monat können Sie Ihre Bilder erweitern und dabei den Kontext dessen berücksichtigen, was bereits in Ihrem quadratischen Bild verfügbar ist.

Dall-E 2 steht allen zum Ausprobieren zur Verfügung.

Mitten auf der Reise

Midjourney ist interessant, da es sich um eine öffentliche Plattform handelt, die Bilder generieren kann, allerdings über einen Discord-Server. Und nicht nur das: Nachdem Sie 25 Bilder generiert haben, müssen Sie den Dienst abonnieren, um weiterhin neue Bilder erstellen zu können.

Während Mitten auf der Reise ist wahrscheinlich die am besten zugängliche Plattform hier (vorausgesetzt, Sie können von jedem Gerät mit einem Discord-Konto darauf zugreifen), kostet Sie aber auch Geld. Sie erhalten jedoch Qualität. Ein Nutzer des Dienstes, Jason Allen, schuf ein Stück, das er „Théâtre D'opéra Spatial“ nannte. Er nahm damit am Kunstwettbewerb der Colorado State Fair teil... und gewonnen.

Im Gegensatz zu diesen anderen Projekten ist Midjourney ein proprietäres Programm für künstliche Intelligenz. Es gibt keinen Quellcode, den Sie einsehen können, und sein gesamter Zweck ist derzeit auf die Verwendung innerhalb eines Discord-Servers beschränkt. Warum es sich nur um einen Discord-Server handelt, sagte David Holz, Gründer von Midjourney, wie folgt Der Rand in einem Interview.

Wir haben im September letzten Jahres damit begonnen, die Rohtechnologie zu testen, und sind sofort auf wirklich unterschiedliche Dinge gestoßen. Wir haben sehr schnell festgestellt, dass die meisten Menschen nicht wissen, was sie wollen. Sie sagen: „Hier ist eine Maschine, mit der Sie sich alles vorstellen können – was wollen Sie?“ Und sie sagen: „Hund.“ Und du gehst "Wirklich?" und sie sagen „Pink Dog“. Sie geben ihnen also ein Bild von einem Hund, und sie sagen „Okay“ und machen dann etwas anders.

Wenn Sie sie hingegen in eine Gruppe einteilen, werden sie zu „Hund“, und jemand anderes wird zu „Weltraumhund“ und jemand anderes wird zu „Aztekischer Weltraumhund“ und dann alle Plötzlich verstehen die Menschen die Möglichkeiten und Sie schaffen diese erweiterte Vorstellungskraft – eine Umgebung, in der Menschen lernen und damit spielen können Kapazität. Wir haben herausgefunden, dass es den Leuten wirklich Spaß macht, sich gemeinsam etwas vorzustellen, und so haben wir [Midjourney] sozial gestaltet.

Damals hätte man auch Schwierigkeiten damit, sozusagen vom standardmäßigen „Midjourney“-Stil abzuweichen. Das jedenfalls sagt Holz im selben Interview.

[Wir] haben einen Standardstil und -look, der künstlerisch und schön ist, und es ist schwer, [das Modell] davon abzubringen.

Seitdem hat das Unternehmen jedoch zwei neue Modelle auf den Markt gebracht – „test“ und „testp“. „test“ ist ein Allzweckmodell und „testp“ konzentriert sich ausschließlich auf Fotorealismus. Dadurch können Sie dem mehr entkommen Standard Schauen Sie nach und generieren Sie Bilder weiterer Typen, wenn Sie möchten.

Die Gefahren und Ethik KI-generierter Kunst

KI-generierte Kunst ist zwar cool, birgt jedoch eine Reihe von Gefahren für die Gesellschaft insgesamt. In einer Zeit, in der es manchmal schwierig sein kann, das zu sagen, wenn die Nachrichten aus dem Zusammenhang gerissen oder direkt auf den Punkt gebracht werden Wenn Bilder fabriziert werden, besteht die Gefahr, dass in wenigen Minuten Bilder erstellt werden können, die gut aussehen und sich anfühlen real. Schauen Sie sich zum Beispiel die Fotos an, die ich unten erstellt habe. Einer wurde mit Stable Diffusion generiert, der andere mit Craiyon.

Eingabeaufforderung: „Abgestürztes UFO in Roswell, 1947, Beleuchtung, Ermittlungen des Armeegeneral, Studiobeleuchtung“

Die obigen Fotos zeigen ein abgestürztes UFO in Roswell und das erste Bild zeigt etwas, das aussieht wie eine Person, die auf dem abgestürzten UFO läuft. Obwohl das Bild hier erstellt wurde, um ein gefälschtes Foto zu zeigen, sieht es so aus, als ob es echt sein könnte. Eventuelle Artefakte lassen sich dadurch erklären, dass die Fotos von 1947 ohnehin von schlechterer Qualität gewesen wären und beide Bilder den Sehtest auf den ersten Blick bestehen konnten, um zu erkennen, dass sie echt sind. Sie brauchen nicht einmal eines davon beste Computer um so etwas zu tun, da Craiyon eine kostenlose Anwendung ist.

Was noch düsterer wird, ist die Tatsache, dass Sie es tatsächlich können angeben ein Künstler, von dem sich der Algorithmus inspirieren lassen soll. Ein bekannter Künstler ist Greg Rutkowski, der sich nach außen gegen die Verwendung seines Namens in KI-generierter Kunst ausgesprochen hat. Sein Name zählt zu den am häufigsten verwendeten Eingabeaufforderungen bei der Bilderzeugung. „K.I. sollte lebende Künstler aus seiner Datenbank ausschließen“, Rutkowski erzählt artnet in einem Interview: „Konzentrieren Sie sich auf Werke, die gemeinfrei sind.“ Bei der Suche nach Rutkowskis Namen werden oft KI-Kunstwerke angezeigt, die so erstellt wurden, dass sie wie seine Arbeit aussehen, es aber nicht sind Genau genommen seine Arbeit.

Noch schlimmer ist, dass KI-generierte Kunst oft die Vorurteile der Menschheit hervorheben kann. Craiyon hat sogar unten auf seiner Homepage in den FAQ eine Warnung angebracht, die besagt: „Da das Modell auf ungefilterten Daten aus dem Internet trainiert wurde, kann es sein.“ „Erzeugen Sie Bilder, die schädliche Stereotypen enthalten.“ Daher werden bei der Eingabe von Eingabeaufforderungen wie „Unternehmensleiter“ am häufigsten Bilder von weißen Männern angezeigt Anzüge. Ebenso führt die Eingabe von „Lehrer“ als Eingabeaufforderung fast immer dazu, dass Frauen in die Klassenzimmer zurückkehren.

Die Zukunft der KI-generierten Kunst

Da es den Anschein hat, dass sich die Branche nicht verlangsamt (und die Regulierung nicht aufholt), rechnen wir mit weiteren Fortschritten in diesen Bereichen. Die Tatsache, dass wir von den Fähigkeiten von Dall-E 2 (auch wenn es privat war) zu Stable Diffusion übergegangen sind in nur wenigen Monaten zeigt, wie groß diese Branche ist und wie groß sie potenziell sein kann Sei. Bilder, die zuvor an ein Team von Künstlern vergeben werden konnten, können jetzt in Sekundenschnelle erstellt werden, wobei stattdessen ein einzelner Künstler zu Korrekturzwecken in den Prozess einbezogen wird. Wir haben bereits gesehen, wie Midjourney Ihnen dabei helfen kann, einen Kunstwettbewerb zu gewinnen, beispielsweise durch das U.S. Copyright Office sagt derzeit dass man nicht einmal KI-generierte Bilder urheberrechtlich schützen kann.

Wie Holz in seinem Interview auch erklärte, belaufen sich die aktuellen Kosten für die Schulung jedes Modells auf etwa 50.000 US-Dollar – oder mehr. Bilder kosten auch Geld, da sie auf unglaublich leistungsstarken Servern generiert werden, insbesondere wenn eine große Anzahl von Benutzern ihre eigenen Bilder erstellt. Für alle neuen Akteure, die in diesen Bereich eintreten, wird dies enorme Kosten verursachen, was wiederum einige Unternehmen abschrecken könnte. Allerdings verheißen erste Bemühungen wie Stable Diffusion, Open Source zu sein, Gutes.

Daher werden wir gespannt auf die Zukunft der KI-Bilder warten. Der Raum hat sich im letzten Jahr so ​​schnell weiterentwickelt und es scheint, dass täglich neue Fortschritte erzielt werden. Allerdings mit Einblicken in die KI-basierte Bildmanipulation kommt sogar auf unsere Smartphones, es gibt eine Menge, die in den nächsten ein oder zwei Jahren passieren könnte.