AI 画像ジェネレーターとは何ですか? またどのように機能しますか?

最近AI画像ジェネレーターが話題になっていますが、わかりにくいかもしれません。 彼らについて知っておくべきことはすべてここにあります。

2022 年、私たちはいくつかの驚くべきテキストから画像へのジェネレーターの出現を見てきました。 最初に大きな波を引き起こしたのは Dall-E 2 で、そのすぐ後に Stable Diffusion が到着しました。 それ以来、Midjourney、Craiyon、さらには TikTok など、他のツールも登場してきました。 AI 画像生成ツールに関しては、主に倫理に関する懸念が高まっています。 このようなツールは、実際には存在しない場所や状況で実際の人々の画像を生成できる場合に使用されます。 の。

ただし、考慮すべきは倫理だけではありません。 AI 画像ジェネレーターは何百万枚もの写真でトレーニングされ、画像を識別することを学習しました。 もの 実在の人物によって作成された実際の既存の写真を使用して。 どういう場合に著作権侵害になるのでしょうか? AI が別のデザインによく似た画像を誤って生成し、その画像の作成者がそれを商業的に共有した場合、誰かが損害賠償責任を負うのでしょうか? もしそうなら、誰ですか? この場合の「アーティスト」とは一体誰なのでしょうか?

あります トン AI 画像ジェネレーターに警戒すべき理由はたくさんありますが、これらの倫理的および安全性に関する懸念は表面的なものにすぎません。 これらのツールは、物語を押し付けるために使用できる偽の画像を作成するために使用される可能性があり、時間の経過とともに同様に悪化するだけです。 これらの画像生成ツールの驚異的な機能がすでに備わっていることを考えると、すぐに何ができるようになるかを考えるのは恐ろしいことです。 ただし、きれいな画像を作成して楽しみたいのであれば、それはまったく問題ありません。

安定した拡散

Stable Diffusion はこの記事の背後にあるインスピレーションであり、私がいろいろ試してきたツールです。 多く 最近。 これはコンピュータ上でローカルに実行され (そのため、オンライン ツールの他のユーザーとリソースを争うことはありません)、現在使用できる中で最も強力なものの 1 つです。 大量のパラメータを微調整できるだけでなく、生成プロセス全体を制御することもできます。

Stable Diffusion には、同様の AI の落とし穴がすべてあり、アクセシビリティの「危険」も加わります。 十分に強力なコンピュータを持っている人なら誰でも、セットアップしてすぐに実行できるようになります。 i7-12700KF、RTX 3080、32GB RAM、ギガビット インターネットを使用して、安定した拡散をセットアップし、1 時間以内に最初のイメージを生成することができました。 私のPCは間違いなく ハイエンド、しかし、それを実行することで回避できます 弱いハードウェア (ただし、vRAM が低いと大きなイメージを生成できず、時間がかかります)。

Stable Diffusion の最も優れた点は、完全にオープンソースであることです。 必要に応じて、今すぐどのプロジェクトでもそのサポートを実装できます。また、Photoshop と統合するために使用できる Alpaca などのプラグインがすでに存在します。 まだ完璧ではありませんが、これらのプログラムの開発は非常に初期段階にあります。 使用できます ドリームスタジオ 必要に応じてどちらかを選択してください。ただし、費用がかかり、ローカルで設定する場合と比べて制限が少しあります。

さらに、Stable Diffusionをローカルに設定すると、次のようなフォークがあります。 AUTOMATIC1111の安定拡散WebUI 解像度を最大 4 倍まで高めることができる内蔵のアップスケール ツールが付属しています。 より高い解像度でイメージを生成することもできますが、多くの場合、より低い解像度でイメージを生成してからそれをアップスケールした方がはるかに高速です。 以下の画像はすべて、より低い解像度からアップスケールされたものです。

Stable Diffusion は、AWS で実行されている 4,000 個の Nvidia A100 GPU のクラスター上でトレーニングされ、1 か月にわたって行われました。 有名人の画像を生成する機能があり、NSFWフィルターも内蔵されています。 この NSFW フィルタは、VRAM の使用量を減らすことで実際にリソースを節約するため、ローカル インストールでは無効にすることができます。 「拡散」が何を意味するかというと、純粋なノイズから始めて時間をかけて洗練していくプロセスです。 ノイズがなくなるまで、時間の経過とともに画像が徐々にテキスト プロンプトに近づいていきます。 これは Dall-E 2 の動作と同じです。

最後に、Stable Diffusion のもう 1 つの楽しい機能は「img2img」です。 この例では、プロンプトとして画像を指定し、その画像をどのようなものにしたいかを説明してから、 ちゃんとした 描く。

作業用のテンプレートを与えたところ、かなりまともな画像が得られました。 プロンプトを改善すれば (私のプロンプトは多少矛盾していますが)、さらに改善できると思います。 それでも、作成に 5 分ほどかかったものとしては、まったく悪くありません。

つまり、Stable Diffusion は無料でセットアップが簡単ですが、最大の問題はアクセスしやすさです。 十分な性能の PC をお持ちでない場合は、Dream Studio などを通じて料金を支払う必要があります。

クレヨン

Craiyon は以前は DALL・E Mini として知られていましたが、その名前にもかかわらず、Dall-E 2 とは何の関係もありません。 これは、OpenAI の DALL·E テキストから画像へのモデルの結果を再現するために作成されました。 Craiyon は一般に公開されており、これを使用すると、驚くほどまともな画像を生成できますが、画像はそれほど正確でも高品質でもありません。 画像解像度は最大 256x256 ですが、アップスケーリング ツールもありません。

Craiyon は完全に無料で使用でき、Web サイトからアクセスできます。 任意のプロンプトを介して任意のイメージを生成できますが、唯一の欠点は、イメージの品質が低く、生成されるイメージのバッチごとに 2 分ほど待つ必要があることです。 Craiyon は、初期の DALL・E モデルの結果を再現することを目的としたオープンソース モデルとして始まりました。 現在使用されているモデルは DALL・E Mega として知られており、いくつかの改良が施されています。

Craiyon は、他のオプションとは異なり、広告収入によって支えられています。 その結果、有料のスポンサーシップやその他の広告が表示されます。 彼らのウェブサイト 訪問するとき。 Androidスマートフォン用のアプリもあります。 最も洗練されたものではありませんが、楽しく、使いやすく、アクセスしやすいものです。

Craiyon - AI 画像生成ツールデベロッパー: クレヨン

価格:無料。

3.9.

ダウンロード

ダル-E 2

Dall-E 2 は OpenAI 研究所の製品であり、人々が思い浮かべる最もよく知られた AI 画像ジェネレーターです。 これはアクセスが制限された閉鎖的なツールですが、アクセスできる人にとっては、信じられないような結果が得られます。 当初はこのようなツールの倫理と安全性に関する懸念から閉鎖されましたが、時間の経過とともに徐々に拡大してきました。

Dall-E 2 の最大の利点の 1 つは、一見すると本物の写真と区別できないフォトリアリスティックな画像を作成できることです。 絵画、実際のカメラで撮影されたように見える画像、完全にでっち上げられたシナリオを生成できます。 これは、最初に発表されたとき、画像を作成する能力と NLP として知られる自然言語処理の両方において、AI の能力が大幅に向上したことを示していました。 これは、最も高度な言語モデルの 1 つであり、OpenAI によって作成された GPT-3 の実装のおかげです。

Stable Diffusion と同様に、Dall-E 2 にも既存のイメージを取得し、プロンプトに基づいて変更する独自の機能があります。 画像に何かを追加するように依頼したり、何かを削除したり、照明を変更したりするように依頼することで、写真を編集することができます。 正方形の画像しか作成しないが、OpenAI が発表 上塗り 先月、正方形の画像ですでに利用可能なもののコンテキストを考慮して、画像をより広く拡張できるようになりました。

ダル-E 2 どなたでもお試しいただけます。

旅の途中

Midjourney は、Discord サーバーを介して画像を生成できるパブリック プラットフォームであるため、興味深いものです。 それだけでなく、25 枚の画像を生成した後、新しい画像の生成を続けるにはサービスに登録する必要があります。

その間 旅の途中 はおそらくここで最もアクセスしやすいプラットフォームです(Discordアカウントがあればどのデバイスからでもアクセスできることを考えると)、お金もかかります。 ただし、そこから品質が得られます。 このサービスのユーザーであるジェイソン・アレンは、「Théâtre D'opéra Spatial」と名付けた作品を作成しました。 彼はそれをコロラド ステート フェアのアート コンペティションに応募しました。 そして勝った.

これらの他のプロジェクトとは異なり、Midjourney は独自の人工知能プログラムです。 確認できるソース コードはなく、現時点ではその目的全体が Discord サーバー内での使用に限定されています。 なぜDiscordサーバーのみなのかについて、Midjourneyの創設者であるDavid Holz氏は次のように述べています。 ザ・ヴァージ インタビューで。

私たちは昨年 9 月に未加工テクノロジーのテストを開始しましたが、すぐにまったく異なることがわかりました。 ほとんどの人は自分が何を望んでいるのかわかっていないことがすぐにわかりました。 あなたはこう言います。「これを使えば何でも想像できるマシンがあります。何が欲しいですか?」 そして彼らは「犬」と言いました。 そしてあなたは行き​​ます "本当?" そして彼らは「ピンクの犬」になります。 そこで犬の写真を渡すと、彼らは「わかった」と言って何かをしに行きます。 それ以外。

一方、それらをグループに入れると、その人は「犬」になり、他の人は「宇宙犬」になり、他の人は「アステカの宇宙犬」になり、その後全員が「宇宙犬」になります。 突然、人々は可能性を理解し、あなたはこの拡張された想像力、つまり人々がこの新しいものを学び、遊ぶことができる環境を創造しています。 容量。 そこで、人々は一緒に想像することが本当に好きなことに気づき、[Midjourney] をソーシャルにしました。

当時は、いわばデフォルトの「ミッドジャーニー」スタイルから逸脱するのにも苦労したでしょう。 とにかく、ホルツ氏は同じインタビューでそう述べている。

[私たちにはデフォルトのスタイルと見た目があり、それは芸術的で美しいものであり、[モデル] をそこから遠ざけるのは難しいです。

しかし、それ以来、同社は「test」と「testp」という 2 つの新しいモデルを展開しました。 「test」は汎用モデルであり、「testp」はフォトリアリズムのみに焦点を当てています。 その結果、さらにそこから逃れることができるようになります。 デフォルト 必要に応じて、さらに多くの種類の画像を確認して生成してください。

AI が生成するアートの危険性と倫理

AI によって生成されたアートはクールですが、社会全体に多くの危険をもたらします。 ニュースが文脈から切り離されて、またはストレートに取り上げられた場合、それを判断するのが難しい時代に 捏造された画像が数分で作成できるようになると、危険が伴います。 本物。 たとえば、以下で私が作成した写真を見てください。 1 つは安定拡散を使用して生成され、もう 1 つは Craiyon を使用して生成されました。

プロンプト: 「ロズウェルに墜落したUFO、1947年、照明、陸軍大将の調査、スタジオの照明」

上の写真はロズウェルで墜落したUFOを示しており、最初の画像には墜落したUFOの上を歩いている人のようなものが写っています。 ここの画像は偽の写真を表示する目的で生成されたものですが、本物である可能性があります。 いかなるアーチファクトも、1947 年の写真はいずれにしても品質が劣っていたであろうという事実によって説明でき、どちらの画像も一目見ただけで本物であることが視力検査に合格する可能性があります。 どれも必要ありません 最高のコンピューター Craiyon は無料のアプリケーションなので、このようなことを行うには。

さらに曖昧なのは、実際に次のようなことができることです。 特定 アルゴリズムにインスピレーションを与えたいアーティスト。 一般的なアーティストとしては、AI が生成したアートで自分の名前が使用されることに対外的に反対しているグレッグ・ルトコウスキーがいます。 彼の名前は、画像生成で使用される最も一般的なプロンプトの 1 つとしてランクされています。 「A.I. 存命のアーティストをデータベースから除外すべきだ」とルトコウスキー 言った アートネット インタビューでは「パブリックドメインの作品に重点を置く」と述べている。 Rutkowski の名前を検索すると、彼の作品のように見えるように生成された AI アートが返されることがよくありますが、実際はそうではありません 実際 彼の仕事。

さらに悪いことに、AI によって生成されたアートは、しばしば人類の偏見を浮き彫りにする可能性があります。 Craiyon は、ホームページの下部の FAQ にも警告を掲載しており、「モデルはインターネットからのフィルタリングされていないデータでトレーニングされたため、 その結果、「会社役員」などのプロンプトを入力すると、ほとんどの場合、白人男性の画像が返されます。 スーツ。 同様に、プロンプトとして「先生」と入力すると、ほとんどの場合、教室にいる女性が返されます。

AI が生成するアートの未来

業界が減速していないように見えること(そして規制が追いついていないこと)を考えると、これらの分野ではさらに進歩が見られると予想されます。 Dall-E 2 の機能 (プライベートであっても) から安定した拡散に移行したという事実 わずか数か月で、これがどれほど大きな業界であるか、そして潜在的にどれほど大きな業界になる可能性があるかを示します なれ。 以前はアーティストのチームに依頼できた画像が数秒で生成できるようになり、代わりに 1 人のアーティストが修正目的でプロセスに関与するようになりました。 たとえば、米国著作権局によると、Midjourney がアート コンテストでの優勝にどのように役立つかはすでに見てきました。 現在言う AI が生成した画像の著作権すら取得できないということです。

ホルツ氏もインタビューで述べたように、各モデルのトレーニングにかかる​​現在のコストは約 50,000 ドル、あるいはそれ以上です。 また、画像は信じられないほど強力なサーバーで生成されるため、特に多数のユーザーが独自の画像を生成する場合にはコストがかかります。 この分野に新規参入する企業にとっては法外なコストがかかることになるため、実際に一部の企業も参加を断念する可能性がある。 ただし、Stable Diffusion がオープンソースであるなどの初期の取り組みは良い前兆です。

その結果、私たちは AI 画像の未来を楽しみに待っていることになります。 この空間はこの 1 年で急速に進化し、日々新たな進歩が見られているようです。 ただし、AI ベースの画像操作が垣間見られる 私たちのスマートフォンにも、今後1〜2年で多くのことが起こる可能性があります。