Stable Diffusionで画像生成を行う際に使用できるテクニック集です。この記事ではComfyUIを使用した方法について扱っています。
好きな絵を出す方法
LoRA
ベースモデルを拡張して、出力をいじるためのウェイトを追加してしまう手法です。例えば、夜景で学習されたLoRAを使用すれば、夜景の画像が生成されやすくなります。
ControlNet
ベースモデルを拡張して、姿勢データを入力として受け取れるようにする手法です。姿勢データで指定した形の画像が生成されやすくなります。例えば胡坐をかいている姿勢データを渡せば、胡坐をかいている画像が出やすくなります。
Textual Inversion(embedding)
Text Encoder部分(プロンプトを解釈する部分)を拡張して、学習した言語ベクトルを埋め込む手法です。モデルを拡張しないので比較的軽量で済みますが、モデルが学習していない概念は生成ができない(しにくい)ので注意です。
IPAdapter
テキストプロンプトと同時に画像をプロンプトとして受け取れるようにする手法です。
InstantID
顔画像を入力することで出力される画像の顔を固定することができるようにする手法です。
アップスケーリング(高解像度化)する方法
Hires.fix
低解像度で生成された画像を入力として高解像度で生成し直す手法です。潜在空間で処理をするため過程でディテールも追加されます。
ESRGAN
画像のディテールはそのままに、高解像度化することができます。比較的軽量です。
画像を編集する方法
Inpaint
画像の中で指定した箇所のみを編集します。
Outpaint
元の画像の外に新たな内容を描き足し、元の画像を拡張します。
Face Detailer
顔だけ描画し直すことで、顔の崩れなどを修正します。内部では顔を自動検出して、顔部分のみをInpaintしています。
その他
Stable Diffusion3
Stable Diffusionの最新アップデート版です。従来のモデルと比べて、だいぶ変更が入っています。これがStable Diffusionのデファクトになるかはわかりませんが、精度的には従来のものより上です。ファインチューニングモデルやLoRAなどのツールはまだないのでこれからに期待。