マスクロスについて

マスクロスは、入力画像のマスクで指定された部分だけ損失計算することで、画像の一部分だけを学習することができる機能です。たとえばキャラクタを学習したい場合、キャラクタ部分だけをマスクして学習することで、背景を無視して学習することができます。

マスクロスのマスクには、二種類の指定方法があります。

なお、サンプルはずんずんPJイラスト/3Dデータの「AI画像モデル用学習データ」を使用しています。

学習画像それぞれに対応するマスク画像を用意する方法です。学習画像と同じファイル名のマスク画像を用意し、それを学習画像と別のディレクトリに保存します。

[[datasets.subsets]]
image_dir = "/path/to/a_zundamon"
caption_extension = ".txt"
conditioning_data_dir = "/path/to/a_zundamon_mask"
num_repeats = 8

マスク画像は、学習画像と同じサイズで、学習する部分を白、無視する部分を黒で描画します。グレースケールにも対応しています（127 ならロス重みが 0.5 になります）。なお、正確にはマスク画像の R チャネルが用いられます。

DreamBooth 方式の dataset で、conditioning_data_dir で指定したディレクトリにマスク画像を保存してください。ControlNet のデータセットと同じですので、詳細は ControlNet-LLLite を参照してください。

学習画像の透明度（アルファチャネル）がマスクとして使用されます。透明度が 0 の部分は無視され、255 の部分は学習されます。半透明の場合は、その透明度に応じてロス重みが変化します（127 ならおおむね 0.5）。

※それぞれの画像は透過PNG

学習時のスクリプトのオプションに --alpha_mask を指定するか、dataset の設定ファイルの subset で、alpha_mask を指定してください。たとえば、以下のようになります。

[[datasets.subsets]]
image_dir = "/path/to/image/dir"
caption_extension = ".txt"
num_repeats = 8
alpha_mask = true

学習時の注意事項

現時点では DreamBooth 方式の dataset のみ対応しています。
マスクは latents のサイズ、つまり 1/8 に縮小されてから適用されます。そのため、細かい部分（たとえばアホ毛やイヤリングなど）はうまく学習できない可能性があります。マスクをわずかに拡張するなどの工夫が必要かもしれません。
マスクロスを用いる場合、学習対象外の部分をキャプションに含める必要はないかもしれません。（要検証）
alpha_mask の場合、マスクの有無を切り替えると latents キャッシュが自動的に再生成されます。