Otama's Playground

AIで遊んだ結果などをつらつら載せていきます。

Stable Diffusionガイド:画像生成に役立つリンク集

Stable Diffusionで画像生成を行う際に使用できるテクニック集です。この記事ではComfyUIを使用した方法について扱っています。

好きな絵を出す方法

LoRA

ベースモデルを拡張して、出力をいじるためのウェイトを追加してしまう手法です。例えば、夜景で学習されたLoRAを使用すれば、夜景の画像が生成されやすくなります。

otama-playground.com

ControlNet

ベースモデルを拡張して、姿勢データを入力として受け取れるようにする手法です。姿勢データで指定した形の画像が生成されやすくなります。例えば胡坐をかいている姿勢データを渡せば、胡坐をかいている画像が出やすくなります。

otama-playground.com

Textual Inversion(embedding)

Text Encoder部分(プロンプトを解釈する部分)を拡張して、学習した言語ベクトルを埋め込む手法です。モデルを拡張しないので比較的軽量で済みますが、モデルが学習していない概念は生成ができない(しにくい)ので注意です。

otama-playground.com

IPAdapter

テキストプロンプトと同時に画像をプロンプトとして受け取れるようにする手法です。

otama-playground.com

アップスケーリング(高解像度化)する方法

Hires.fix

低解像度で生成された画像を入力として高解像度で生成し直す手法です。潜在空間で処理をするため過程でディテールも追加されます。

otama-playground.com

ESRGAN

画像のディテールはそのままに、高解像度化することができます。比較的軽量です。

otama-playground.com

画像を編集する方法

Inpaint

画像の中で指定した箇所のみを編集します。

otama-playground.com

Outpaint

元の画像の外に新たな内容を描き足し、元の画像を拡張します。

otama-playground.com

その他

Stable Diffusion3

Stable Diffusionの最新アップデート版です。従来のモデルと比べて、だいぶ変更が入っています。これがStable Diffusionのデファクトになるかはわかりませんが、精度的には従来のものより上です。ファインチューニングモデルやLoRAなどのツールはまだないのでこれからに期待。

otama-playground.com

サムネ