Otama's Playground

AIで遊んだ結果などをつらつら載せていきます。

【Stable Diffusion】ComfyUIを使って画像生成AIで遊んでみよう【ESRGAN編】

ESRGANはSuper Resolutionのためのニューラルネットワークモデルで、画像を入力すると解像度を上げた画像を出力してくれます。

この記事では、ComfyUIでESRGANを使用してアップスケールするための具体的な手順と実際の生成結果を掲載します。

※ ESRGAN自体は古いモデル(2018年発表)なので論文を読む記事は出しません。気になる方は下のリンクからどうぞ。

arxiv.org

生成手順

1. ComfyUIの導入

こちらの記事を参照ください。

otama-playground.com

2. ワークフローの作成

VAE Decodeノードの後ろにUpscale Image (using Model)ノードを組み込みます。

ワークフロー

拡大

3. モデルをダウンロード

アップスケール用のモデルを好きなところからダウンロードしてきて、ComfyUI/models/upscale_modelsディレクトリに配置します。Upscale Modelとかで検索すると出てくると思います。

生成する

Load Upscale Modelでモデルを選択して生成します。

生成される画像のサイズはUpscale Modelにより異なりますが、4x-ultrasharpの場合は4倍にUpscaleされます。

生成結果

Hires.fixとは異なりディテールは追加されません。

ESRGAN適用前(512x512)

ESRGAN適用後(2048x2048)

最後に

今回はComfyUIを用いてESRGANを使用した画像のアップスケールを試してみました。

ESRGANを使用する場合は潜在空間ではなく、生成された画像に対して行うことになります。そのため、Hires.fixとは異なりディテールなどは追加されません。元の画像を保ったまま解像度を上げたい場合に使用してください。その他、Hires.fixよりも軽量のため、生成速度を重視する場合もこちらが良いでしょう。

興味を持った方は、ぜひご自分のワークフローに組み込んで試してみてください。

画像生成に関連する他のテクニックを試したい方は下記のリンク集をぜひご活用ください。

otama-playground.com