-
Notifications
You must be signed in to change notification settings - Fork 894
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
SD3.5LのLoraで複数概念が学習できない。 #1802
Comments
複数概念が学習できない報告は私もいくつか拝見しております。Text EncoderのLoRAの学習については改めて確認してみます。とりあえずComfyUI等で、CLIP(T5XXL)のLoRA適用率を0にして、画像が変化するかお試しいただけますでしょうか。もし画像が変化しないなら、学習できていない可能性が高いと思われます。 |
以前FLUX.1で複数キャラクタをひとつのLoRAに学ばせることができたのを思い出し、SD3.5Lでも試してみました。 プロンプトは 教師データは100枚程度で、一例として、以下のような画像に、自然言語を用い(Florence-2で生成)、 左: 右: ですので、もしかするとキーワードでは反応が悪く、自然言語の方が効果的なのかもしれません。試しに自然言語で、「○○という名前のロボットの白背景のイラスト」(たとえば |
早速の対応ありがとうございます。
一度、DiTのみでの学習を行い、それでもだめであれば自然言語キャプションを付けて学習させてみます。 |
今更ですが、一つご質問があります。DiTだけ学習させる場合は--network_train_unet_onlyを付ければいいんでしょうか? |
@kohya-ss ComfyUIでの生成時のプロンプト 学習時のコマンド 学習時のログ
学習時のキャプションの一例 本当に何が原因でうまく学習してくれないのかが全くわかりません・・。 |
なかなか悩ましいですね。 DiTのみの学習は 挙げていただいたキャプションでデフォルトのSD3.5Lで生成するとそれらしい画像が生成されますので、キャプションとしては適切なように思います。
|
@kohya-ss |
確認は致しました。キャプションも画像もすべて問題ございませんでした。 |
コマンドは以下になります。
テストのため学習率を高くし、LoRA+を設定していますが、他は特殊な設定はないかと思います。 キャプション、画像とも問題ないとなると、なかなか難しいですね……。 |
共有していただきありがとうございます。 |
@kohya-ss 設定(toml形式)
出力結果(データセットは前のものと同様) 一応分けては覚えてはくれますが、まだまだそっくりとは言えないレベルです。 |
共有いただき、ありがとうございます。いくらか改善されたようですね。
なかなか試す時間が取れませんが、もし何か情報など得ましたら私からも共有させていただきます。 |
色々と時間を割いていただいて申し訳ありません・・。 |
@kohya-ss 学習に使用した設定ファイル
今までの中でも一番いい出来なので、SD3.5はLoraよりもLohaやLokrを使用するほうがいいのかもしれませんね。 |
追記 |
報告ありがとうございます。LoHaやLoKrが向いている、というのは新しい発見ですね。それぞれ近似の方法が異なるようですので、SD3.5に向いている、またはDiTに向いている、などがあるのかもしれません。 LyCORISはSD3.5に対応していただいたのはありがたい限りです。 |
>LoHaやLoKrが向いている、というのは新しい発見ですね。 あの後にも学習を軽く行いましたが、ある事に気が付きました。 |
Kohyaさん、今回あることが分かりましたので報告いたします。 うーん・・。TEに問題があるのかTEの学習を強化すべきなのか・・。 |
追記 その時の学習パラメーターはこちらとなります。
|
共有ありがとうございます。3個でも4個でも、モデルへの学習としては大きな違いはないと思うのですが、謎ですね。トークンが分割された結果、似たようなトークンになっているのかと思いましたが、FRS、MRS、SRSは、少なくともCLIPではそれぞれ1トークンになるようでした……。 |
いつも開発お疲れ様です。
今回はSD3.5Lで複数概念が全く学習されなかったのでバグ報告させていただきます。
私はいままで10以上の概念を持つLoraをSD1.5やSDXLで学習させて作成した経験があります。
今回も同じようにSD3.5Lで10以上の概念を学習させようと何度もテストしましたが、まったくうまくいきません。
そこで試しに4つの概念を同時に学習させてちゃんと学習内容が反映されているかテストを行いました。
トークンはそれぞれ、「A-RRS」、「FRS」、「MRS」、「SRS」で、それぞれのフォルダには同じデザインのキャラクターの画像が50枚入っています。
![image](https://private-user-images.githubusercontent.com/67697932/388532257-04deafd8-4320-4738-8511-071883866ff8.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3MzQ1NTMyNjIsIm5iZiI6MTczNDU1Mjk2MiwicGF0aCI6Ii82NzY5NzkzMi8zODg1MzIyNTctMDRkZWFmZDgtNDMyMC00NzM4LTg1MTEtMDcxODgzODY2ZmY4LnBuZz9YLUFtei1BbGdvcml0aG09QVdTNC1ITUFDLVNIQTI1NiZYLUFtei1DcmVkZW50aWFsPUFLSUFWQ09EWUxTQTUzUFFLNFpBJTJGMjAyNDEyMTglMkZ1cy1lYXN0LTElMkZzMyUyRmF3czRfcmVxdWVzdCZYLUFtei1EYXRlPTIwMjQxMjE4VDIwMTYwMlomWC1BbXotRXhwaXJlcz0zMDAmWC1BbXotU2lnbmF0dXJlPTJkODY2M2Y5N2YyNWZiYWMzZDQ2MjBiNGNjM2ExNjRmNWY1NDM1NTJhMDRiNTJkODFlYTJhNGZjODVhOTM1ZTQmWC1BbXotU2lnbmVkSGVhZGVycz1ob3N0In0.pE5IG68amCFWrkMMJCqzdmaKYRbmCbMQSv45oQ0Hv8o)
各キャラクターは上半身、全体像、顔のアップ、立ち姿、ポージングといった画像となっています。
下が教師画像の例です。
A-RRS
![0052](https://private-user-images.githubusercontent.com/67697932/388533555-138061de-9ccb-4ebc-8ad8-0bfaed8c6dde.jpg?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3MzQ1NTMyNjIsIm5iZiI6MTczNDU1Mjk2MiwicGF0aCI6Ii82NzY5NzkzMi8zODg1MzM1NTUtMTM4MDYxZGUtOWNjYi00ZWJjLThhZDgtMGJmYWVkOGM2ZGRlLmpwZz9YLUFtei1BbGdvcml0aG09QVdTNC1ITUFDLVNIQTI1NiZYLUFtei1DcmVkZW50aWFsPUFLSUFWQ09EWUxTQTUzUFFLNFpBJTJGMjAyNDEyMTglMkZ1cy1lYXN0LTElMkZzMyUyRmF3czRfcmVxdWVzdCZYLUFtei1EYXRlPTIwMjQxMjE4VDIwMTYwMlomWC1BbXotRXhwaXJlcz0zMDAmWC1BbXotU2lnbmF0dXJlPWIzMDg3N2U2MjE3NzA2OTEzYTI1OTUxNmY1Y2U3NGQwOTI3NWM2ZGRmZWFkNWVlN2Q2N2NkYTEwY2ZkNjM0OGEmWC1BbXotU2lnbmVkSGVhZGVycz1ob3N0In0.Il8s4V9qBpzy9kDflG9SKrU4xSTQd50oBO9BoF8XRl0)
FRS
![0214](https://private-user-images.githubusercontent.com/67697932/388533685-cad7a7df-0d1d-407a-a81e-22e4104b84ef.jpg?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3MzQ1NTMyNjIsIm5iZiI6MTczNDU1Mjk2MiwicGF0aCI6Ii82NzY5NzkzMi8zODg1MzM2ODUtY2FkN2E3ZGYtMGQxZC00MDdhLWE4MWUtMjJlNDEwNGI4NGVmLmpwZz9YLUFtei1BbGdvcml0aG09QVdTNC1ITUFDLVNIQTI1NiZYLUFtei1DcmVkZW50aWFsPUFLSUFWQ09EWUxTQTUzUFFLNFpBJTJGMjAyNDEyMTglMkZ1cy1lYXN0LTElMkZzMyUyRmF3czRfcmVxdWVzdCZYLUFtei1EYXRlPTIwMjQxMjE4VDIwMTYwMlomWC1BbXotRXhwaXJlcz0zMDAmWC1BbXotU2lnbmF0dXJlPWM2YmVmYTJiNjY5M2NiYjQ0YTBkYWM2ZTkyOGFhYWYzNzQ5YjlmOWQxMjkzY2I3MzJlOWE0MGQwZWQwMGMzZmUmWC1BbXotU2lnbmVkSGVhZGVycz1ob3N0In0.ne8A7NvEfmIvo5JrC9zmggMDVFW1IvtCTFbBvs-sgtw)
MRS
![0013](https://private-user-images.githubusercontent.com/67697932/388533811-a28082ba-2aeb-4147-9557-7701188d42d9.jpg?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3MzQ1NTMyNjIsIm5iZiI6MTczNDU1Mjk2MiwicGF0aCI6Ii82NzY5NzkzMi8zODg1MzM4MTEtYTI4MDgyYmEtMmFlYi00MTQ3LTk1NTctNzcwMTE4OGQ0MmQ5LmpwZz9YLUFtei1BbGdvcml0aG09QVdTNC1ITUFDLVNIQTI1NiZYLUFtei1DcmVkZW50aWFsPUFLSUFWQ09EWUxTQTUzUFFLNFpBJTJGMjAyNDEyMTglMkZ1cy1lYXN0LTElMkZzMyUyRmF3czRfcmVxdWVzdCZYLUFtei1EYXRlPTIwMjQxMjE4VDIwMTYwMlomWC1BbXotRXhwaXJlcz0zMDAmWC1BbXotU2lnbmF0dXJlPTNhNzIwOTAzNGIyMjk5M2ExOTY3MmRlZmNlZWZkNzUyZTZhM2I2OTRlODRiMzUyODNhNzY3OTgxZGIyNDZjNzMmWC1BbXotU2lnbmVkSGVhZGVycz1ob3N0In0.PNzOGMGrGmqx4KQtUFLf0leKkLfrVTrcKFtvRFCyifc)
SRS
![0169](https://private-user-images.githubusercontent.com/67697932/388533923-2427dd8e-9eea-4ed1-8d1a-4fd857e316c2.jpg?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3MzQ1NTMyNjIsIm5iZiI6MTczNDU1Mjk2MiwicGF0aCI6Ii82NzY5NzkzMi8zODg1MzM5MjMtMjQyN2RkOGUtOWVlYS00ZWQxLThkMWEtNGZkODU3ZTMxNmMyLmpwZz9YLUFtei1BbGdvcml0aG09QVdTNC1ITUFDLVNIQTI1NiZYLUFtei1DcmVkZW50aWFsPUFLSUFWQ09EWUxTQTUzUFFLNFpBJTJGMjAyNDEyMTglMkZ1cy1lYXN0LTElMkZzMyUyRmF3czRfcmVxdWVzdCZYLUFtei1EYXRlPTIwMjQxMjE4VDIwMTYwMlomWC1BbXotRXhwaXJlcz0zMDAmWC1BbXotU2lnbmF0dXJlPTZiZWEyMmU4ZDJmMzdkN2FhZmNhNWYzZjE2ZjRlMmExNmNhZmEwNjY0NmZiNjBjMDM0OGJiZDI0OGU5NDFiOTUmWC1BbXotU2lnbmVkSGVhZGVycz1ob3N0In0.Gg5wT1s3aWSh4S2PKOrNJ-t66dpCAOMfDYDLo1i6jm8)
ところが、ComfyUIで生成したところ、結果は全く持って似ても似つかないものとなってしまいました。
![image](https://private-user-images.githubusercontent.com/67697932/388534226-7947e7ac-65fc-4ac1-a4d2-74561da1ab7a.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3MzQ1NTMyNjIsIm5iZiI6MTczNDU1Mjk2MiwicGF0aCI6Ii82NzY5NzkzMi8zODg1MzQyMjYtNzk0N2U3YWMtNjVmYy00YWMxLWE0ZDItNzQ1NjFkYTFhYjdhLnBuZz9YLUFtei1BbGdvcml0aG09QVdTNC1ITUFDLVNIQTI1NiZYLUFtei1DcmVkZW50aWFsPUFLSUFWQ09EWUxTQTUzUFFLNFpBJTJGMjAyNDEyMTglMkZ1cy1lYXN0LTElMkZzMyUyRmF3czRfcmVxdWVzdCZYLUFtei1EYXRlPTIwMjQxMjE4VDIwMTYwMlomWC1BbXotRXhwaXJlcz0zMDAmWC1BbXotU2lnbmF0dXJlPWEzOTY0NzA5MzMyZGRmOTEyNjNhYjRhMzYxYzg3NmQ0Zjc3YTFiNmQ0ZTRjYTZlYmFiYWIwNzY1YTc0ZDAzNGUmWC1BbXotU2lnbmVkSGVhZGVycz1ob3N0In0.CfcTXIaGJOZK9UN2mYkAOH9iLsXgtD47Kr90KA4uHog)
![image](https://private-user-images.githubusercontent.com/67697932/388534357-13da5f89-a984-480a-9c61-06bbb5675bdd.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3MzQ1NTMyNjIsIm5iZiI6MTczNDU1Mjk2MiwicGF0aCI6Ii82NzY5NzkzMi8zODg1MzQzNTctMTNkYTVmODktYTk4NC00ODBhLTljNjEtMDZiYmI1Njc1YmRkLnBuZz9YLUFtei1BbGdvcml0aG09QVdTNC1ITUFDLVNIQTI1NiZYLUFtei1DcmVkZW50aWFsPUFLSUFWQ09EWUxTQTUzUFFLNFpBJTJGMjAyNDEyMTglMkZ1cy1lYXN0LTElMkZzMyUyRmF3czRfcmVxdWVzdCZYLUFtei1EYXRlPTIwMjQxMjE4VDIwMTYwMlomWC1BbXotRXhwaXJlcz0zMDAmWC1BbXotU2lnbmF0dXJlPTg0MDczMzhiOWU3ZDUxODg1ZGVlZjNhOGVlZTQzNWFhNzk0MmJiY2Q1NjgzOGI2MzRkMzVkOTNkODhkZmM2NDQmWC1BbXotU2lnbmVkSGVhZGVycz1ob3N0In0.Z7tEmhaYkHdambEfZQh3Bh_PAv8AOLQs1GXmGuILk4o)
![image](https://private-user-images.githubusercontent.com/67697932/388534543-2ac156ed-ee2d-4ebf-87c0-8f467704757b.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3MzQ1NTMyNjIsIm5iZiI6MTczNDU1Mjk2MiwicGF0aCI6Ii82NzY5NzkzMi8zODg1MzQ1NDMtMmFjMTU2ZWQtZWUyZC00ZWJmLTg3YzAtOGY0Njc3MDQ3NTdiLnBuZz9YLUFtei1BbGdvcml0aG09QVdTNC1ITUFDLVNIQTI1NiZYLUFtei1DcmVkZW50aWFsPUFLSUFWQ09EWUxTQTUzUFFLNFpBJTJGMjAyNDEyMTglMkZ1cy1lYXN0LTElMkZzMyUyRmF3czRfcmVxdWVzdCZYLUFtei1EYXRlPTIwMjQxMjE4VDIwMTYwMlomWC1BbXotRXhwaXJlcz0zMDAmWC1BbXotU2lnbmF0dXJlPTAxNDUwMGRjOGQxZGExNDhmMDY2NzFhOTFjNmNkZTM1NTQ2ZWRhMjA0ZTNlZjZjZTQyMmRiOWNhYmFmMTc5NTMmWC1BbXotU2lnbmVkSGVhZGVycz1ob3N0In0.XnZIlJkjTBhMCpR5eL-5RdzN1ZczqOGjX6rxi3FXVfw)
![srdmk3_MC_t2_001000_00_20241121215524_1](https://private-user-images.githubusercontent.com/67697932/388535048-c46e919c-1822-44e4-89e4-3db1183d90bb.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3MzQ1NTMyNjIsIm5iZiI6MTczNDU1Mjk2MiwicGF0aCI6Ii82NzY5NzkzMi8zODg1MzUwNDgtYzQ2ZTkxOWMtMTgyMi00NGU0LTg5ZTQtM2RiMTE4M2Q5MGJiLnBuZz9YLUFtei1BbGdvcml0aG09QVdTNC1ITUFDLVNIQTI1NiZYLUFtei1DcmVkZW50aWFsPUFLSUFWQ09EWUxTQTUzUFFLNFpBJTJGMjAyNDEyMTglMkZ1cy1lYXN0LTElMkZzMyUyRmF3czRfcmVxdWVzdCZYLUFtei1EYXRlPTIwMjQxMjE4VDIwMTYwMlomWC1BbXotRXhwaXJlcz0zMDAmWC1BbXotU2lnbmF0dXJlPWY2MTgwOTEyZWUxMTEzMmRlMzNlNzBhNzY1OWU1ZTliZmViMDVhMWM3ZjM1MTgyNGM0OTJmZDJjNmQ3ZDM1ZmUmWC1BbXotU2lnbmVkSGVhZGVycz1ob3N0In0.NWS3MOCBNeVwfvHxLXZwr-dyYtkYxOPXWL-7phtUI1s)
こちらはsd-scriptsで生成されたもの
テストした際のコマンドはこちらとなります。
accelerate launch --num_cpu_threads_per_process=20 sd3_train_network.py --network_module networks.lora_sd3 --network_args "train_t5xxl=True" --fp8_base --mixed_precision "bf16" --highvram --bucket_reso_steps=64 --caption_extension=".txt" --enable_bucket --min_bucket_reso=256 --max_bucket_reso=2048 --max_data_loader_n_workers="4" --max_grad_norm="1" --max_timestep="1000" --resolution="1024,1024" --optimizer_type "adamwschedulefree" --optimizer_args "weight_decay=0.01" "betas=0.9,0.999" "eps=0.000001" --unet_lr="3e-4" --text_encoder_lr 3e-4 1e-5 1e-6 --output_name="srdmk3_MC_t2" --output_dir="D:\Lora_learning\Data\output" --pretrained_model_name_or_path="D:\ComfyUI_windows_portable\ComfyUI\models\checkpoints\sd3.5_large.safetensors" --save_every_n_epochs="1" --save_model_as=safetensors --save_precision="bf16" --train_batch_size="1" --train_data_dir="D:\Lora_learning\Data\asset\super_robot_diffusion_XL_V3\multi_Class_test" --sdpa --gradient_checkpointing --max_train_epochs=2 --network_dim 64 --network_alpha 32.0 --save_every_n_epochs 1 --save_every_n_steps 1000 --bucket_no_upscale --clip_l="D:\ComfyUI_windows_portable\ComfyUI\models\clip\clip_l.safetensors" --clip_g="D:\ComfyUI_windows_portable\ComfyUI\models\clip\clip_g.safetensors" --t5xxl="D:\ComfyUI_windows_portable\ComfyUI\models\clip\t5xxl_fp16.safetensors" --save_every_n_epochs=1 --sample_every_n_steps 1000 --sample_prompts "D:\Lora_learning\Data\output\prompt.txt" --sample_sampler 'k_euler' --weighting_scheme uniform --training_shift 1.0 --apply_t5_attn_mask --bucket_no_upscale --bucket_reso_steps="64" --cache_latents --cache_latents_to_disk --clip_skip="0" --dynamo_backend="eager" --gradient_checkpointing --huber_c="0.1" --huber_schedule="snr" --ip_noise_gamma="0.1" --ip_noise_gamma_random_strength --loss_type="l2" --noise_offset="0.0" --persistent_data_loader_workers --prior_loss_weight="1" --sdpa
TEも含めてちゃんと学習させているはずなんですが全く教師画像に似ておらず、どうすればいいのか手詰まりの状況です。
ちゃんとTEが学習されているはずならSDXLのように分けて学習してくれるはずだと思いますので、何かしらバグがあった際には修正をしていただけるでしょうか。よろしくお願いいたします。
The text was updated successfully, but these errors were encountered: