fix optimizer reset for relora sft #1414

winglian · 2024-03-16T11:57:37Z

the relora optimizer reset wasn't pruning anything, this fixes that.

what seemed to be wrong with the original implementation is that iterating over the optimizer states isn't sufficient to determine the optimizer keys.

winglian · 2024-11-21T21:18:54Z

hmm, still doesn't seem to be correct,

[2024-11-21 21:17:08,843] [INFO] [axolotl.relora.reset_optimizer:72] [PID:2840] [RANK:0] Percent of optimizer states zeroed: 0.00                                                                                                                         
[2024-11-21 21:17:08,843] [INFO] [axolotl.relora.reset_optimizer:73] [PID:2840] [RANK:0] absolute n of optimizer states zeroed: 0                                                                                                                         
[2024-11-21 21:17:09,011] [INFO] [axolotl.relora.reset_optimizer:72] [PID:2841] [RANK:1] Percent of optimizer states zeroed: 0.00                                                                                                                         
[2024-11-21 21:17:09,011] [INFO] [axolotl.relora.reset_optimizer:73] [PID:2841] [RANK:1] absolute n of optimizer states zeroed: 0

also, ooms after the first relora restart

winglian · 2024-12-03T01:25:07Z

reference implementation for Relora is here https://github.com/Guitaricet/relora/blob/main/peft_pretraining/training_utils.py#L267-L364

…rror for embeddings

* fix optimizer reset * set states to reset for 8bit optimizers and handle quantile runtime error for embeddings * fix relora test to check grad_norm * use flash attn for relora and tweak hyperparams for test * fix messages field for test dataset

winglian force-pushed the relora-fix-optimizer-reset branch from 571cdd4 to c318c76 Compare April 3, 2024 04:39

winglian force-pushed the relora-fix-optimizer-reset branch from c318c76 to 490ecba Compare November 19, 2024 13:20

winglian added the help wanted Extra attention is needed label Nov 21, 2024

winglian force-pushed the relora-fix-optimizer-reset branch from 490ecba to e0b26f0 Compare December 3, 2024 02:15

winglian changed the title ~~fix optimizer reset~~ fix optimizer reset for relora sft Dec 3, 2024

winglian removed the help wanted Extra attention is needed label Dec 3, 2024

winglian requested a review from NanoCode012 December 3, 2024 03:39

winglian force-pushed the relora-fix-optimizer-reset branch from 04121f5 to cc438c4 Compare December 3, 2024 05:04

winglian and others added 5 commits December 3, 2024 07:47

fix optimizer reset

d9b6ce4

set states to reset for 8bit optimizers and handle quantile runtime e…

9f57eae

…rror for embeddings

fix relora test to check grad_norm

f4cb178

use flash attn for relora and tweak hyperparams for test

4d8a839

fix messages field for test dataset

13b5865

winglian force-pushed the relora-fix-optimizer-reset branch from cc438c4 to 13b5865 Compare December 3, 2024 12:48

winglian added the ready to merge label Dec 3, 2024

winglian merged commit 1ef7031 into main Dec 3, 2024
12 of 13 checks passed

winglian deleted the relora-fix-optimizer-reset branch December 3, 2024 13:58

winglian mentioned this pull request Dec 7, 2024

Should we use master branch or stable version? #2144

Closed

3 tasks

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

fix optimizer reset for relora sft #1414

fix optimizer reset for relora sft #1414

winglian commented Mar 16, 2024 •

edited

Loading

winglian commented Nov 21, 2024

winglian commented Dec 3, 2024

fix optimizer reset for relora sft #1414

fix optimizer reset for relora sft #1414

Conversation

winglian commented Mar 16, 2024 • edited Loading

winglian commented Nov 21, 2024

winglian commented Dec 3, 2024

winglian commented Mar 16, 2024 •

edited

Loading