llama训练时，best状态存储导致训练卡顿，建议删除存储best文件部分代码，望记得更新 #52

baketbek · 2023-04-16T04:41:03Z

No description provided.

jamestch · 2023-04-16T14:47:02Z

大佬好，我在pretrain的时候也碰到了训练卡顿的情况，但不知道啥原因。请问是如何分析确定是存储best的部分代码造成卡顿呢？

baketbek · 2023-04-17T02:03:57Z

大佬好，我在pretrain的时候也碰到了训练卡顿的情况，但不知道啥原因。请问是如何分析确定是存储best的部分代码造成卡顿呢？

你看一下你是多少step存储，然后刚好那个步骤日志显示 saving best 以后就不训练了，就是这个问题，欢迎加微信沟通，437461219

jiangjingyao · 2023-05-04T13:50:21Z

你好，你训练完后文件有多大，我的很小，这是我的执行代码
python pretrain.py --pretrained_model_path models/llama-7b.bin --dataset_path dataset.pt --spm_model_path ../llama.cpp-master/zh-models/tokenizer.model --config_path models/llama/7b_config.json --output_model_path models/llama_zh_7b.bin --world_size 1 --gpu_ranks 0 --data_processor lm --total_steps 100 --save_checkpoint_steps 50 --batch_size 24 --use_lora --lora_dropout 0.0 --vocab_path models/google_zh_vocab.txt

zhanghaok · 2023-05-17T02:51:20Z

你好，你训练完后文件有多大，我的很小，这是我的执行代码 python pretrain.py --pretrained_model_path models/llama-7b.bin --dataset_path dataset.pt --spm_model_path ../llama.cpp-master/zh-models/tokenizer.model --config_path models/llama/7b_config.json --output_model_path models/llama_zh_7b.bin --world_size 1 --gpu_ranks 0 --data_processor lm --total_steps 100 --save_checkpoint_steps 50 --batch_size 24 --use_lora --lora_dropout 0.0 --vocab_path models/google_zh_vocab.txt

你的训练代码中出现了这个参数--vocab_path models/google_zh_vocab.txt请问这个可是我在代码中没有发现这个参数啊，请问是怎么回事呢？

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

llama训练时，best状态存储导致训练卡顿，建议删除存储best文件部分代码，望记得更新 #52

llama训练时，best状态存储导致训练卡顿，建议删除存储best文件部分代码，望记得更新 #52

baketbek commented Apr 16, 2023

jamestch commented Apr 16, 2023 •

edited

Loading

baketbek commented Apr 17, 2023

jiangjingyao commented May 4, 2023

zhanghaok commented May 17, 2023

llama训练时，best状态存储导致训练卡顿，建议删除存储best文件部分代码，望记得更新 #52

llama训练时，best状态存储导致训练卡顿，建议删除存储best文件部分代码，望记得更新 #52

Comments

baketbek commented Apr 16, 2023

jamestch commented Apr 16, 2023 • edited Loading

baketbek commented Apr 17, 2023

jiangjingyao commented May 4, 2023

zhanghaok commented May 17, 2023

jamestch commented Apr 16, 2023 •

edited

Loading