Update Megatron-LM scripts and integration for latest Docker containe…

…r. (#55) * Update megatron-lm and scripts for new container.
databricks · Dec 11, 2023 · 396de2a · 396de2a
1 parent 059542d
commit 396de2a
Show file tree

Hide file tree

Showing 18 changed files with 18 additions and 18 deletions.
diff --git a/exp/dmoe/dmoe_125m_8gpu.sh b/exp/dmoe/dmoe_125m_8gpu.sh
@@ -156,7 +156,7 @@ EVALUATION_ARGUMENTS="\
 --log-interval 100 \
 --eval-interval 1000"
 
-python -m torch.distributed.launch ${DISTRIBUTED_ARGUMENTS} \
+torchrun ${DISTRIBUTED_ARGUMENTS} \
        third_party/Megatron-LM/pretrain_gpt.py \
        ${MOE_ARGUMENTS} \
        ${MODEL_ARGUMENTS} \

diff --git a/exp/dmoe/dmoe_356m_8gpu.sh b/exp/dmoe/dmoe_356m_8gpu.sh
@@ -157,7 +157,7 @@ EVALUATION_ARGUMENTS="\
 --eval-interval 1000"
 
 
-python -m torch.distributed.launch ${DISTRIBUTED_ARGUMENTS} \
+torchrun ${DISTRIBUTED_ARGUMENTS} \
        third_party/Megatron-LM/pretrain_gpt.py \
        ${MOE_ARGUMENTS} \
        ${MODEL_ARGUMENTS} \

diff --git a/exp/dmoe/dmoe_46m_8gpu.sh b/exp/dmoe/dmoe_46m_8gpu.sh
@@ -156,7 +156,7 @@ EVALUATION_ARGUMENTS="\
 --log-interval 100 \
 --eval-interval 1000"
 
-python -m torch.distributed.launch ${DISTRIBUTED_ARGUMENTS} \
+torchrun ${DISTRIBUTED_ARGUMENTS} \
        third_party/Megatron-LM/pretrain_gpt.py \
        ${MOE_ARGUMENTS} \
        ${MODEL_ARGUMENTS} \

diff --git a/exp/dmoe/dmoe_760m_8gpu.sh b/exp/dmoe/dmoe_760m_8gpu.sh
@@ -156,7 +156,7 @@ EVALUATION_ARGUMENTS="\
 --log-interval 100 \
 --eval-interval 1000"
 
-python -m torch.distributed.launch ${DISTRIBUTED_ARGUMENTS} \
+torchrun ${DISTRIBUTED_ARGUMENTS} \
        third_party/Megatron-LM/pretrain_gpt.py \
        ${MOE_ARGUMENTS} \
        ${MODEL_ARGUMENTS} \

diff --git a/exp/gpt2/gpt2_125m_1gpu.sh b/exp/gpt2/gpt2_125m_1gpu.sh
@@ -126,7 +126,7 @@ EVALUATION_ARGUMENTS="\
 --log-interval 100 \
 --eval-interval 1000"
 
-python -m torch.distributed.launch ${DISTRIBUTED_ARGUMENTS} \
+torchrun ${DISTRIBUTED_ARGUMENTS} \
        third_party/Megatron-LM/pretrain_gpt.py \
        ${MODEL_ARGUMENTS} \
        ${TRAINING_ARGUMENTS} \

diff --git a/exp/gpt2/gpt2_125m_8gpu.sh b/exp/gpt2/gpt2_125m_8gpu.sh
@@ -130,7 +130,7 @@ EVALUATION_ARGUMENTS="\
 --log-interval 100 \
 --eval-interval 1000"
 
-python -m torch.distributed.launch ${DISTRIBUTED_ARGUMENTS} \
+torchrun ${DISTRIBUTED_ARGUMENTS} \
        third_party/Megatron-LM/pretrain_gpt.py \
        ${MODEL_ARGUMENTS} \
        ${TRAINING_ARGUMENTS} \

diff --git a/exp/gpt2/gpt2_1315m_1gpu.sh b/exp/gpt2/gpt2_1315m_1gpu.sh
@@ -125,7 +125,7 @@ EVALUATION_ARGUMENTS="\
 --log-interval 100 \
 --eval-interval 1000"
 
-python -m torch.distributed.launch ${DISTRIBUTED_ARGUMENTS} \
+torchrun ${DISTRIBUTED_ARGUMENTS} \
        third_party/Megatron-LM/pretrain_gpt.py \
        ${MODEL_ARGUMENTS} \
        ${TRAINING_ARGUMENTS} \

diff --git a/exp/gpt2/gpt2_1315m_8gpu.sh b/exp/gpt2/gpt2_1315m_8gpu.sh
@@ -129,7 +129,7 @@ EVALUATION_ARGUMENTS="\
 --log-interval 100 \
 --eval-interval 1000"
 
-python -m torch.distributed.launch ${DISTRIBUTED_ARGUMENTS} \
+torchrun ${DISTRIBUTED_ARGUMENTS} \
        third_party/Megatron-LM/pretrain_gpt.py \
        ${MODEL_ARGUMENTS} \
        ${TRAINING_ARGUMENTS} \

diff --git a/exp/gpt2/gpt2_356m_1gpu.sh b/exp/gpt2/gpt2_356m_1gpu.sh
@@ -126,7 +126,7 @@ EVALUATION_ARGUMENTS="\
 --log-interval 100 \
 --eval-interval 1000"
 
-python -m torch.distributed.launch ${DISTRIBUTED_ARGUMENTS} \
+torchrun ${DISTRIBUTED_ARGUMENTS} \
        third_party/Megatron-LM/pretrain_gpt.py \
        ${MODEL_ARGUMENTS} \
        ${TRAINING_ARGUMENTS} \

diff --git a/exp/gpt2/gpt2_356m_8gpu.sh b/exp/gpt2/gpt2_356m_8gpu.sh
@@ -130,7 +130,7 @@ EVALUATION_ARGUMENTS="\
 --log-interval 100 \
 --eval-interval 1000"
 
-python -m torch.distributed.launch ${DISTRIBUTED_ARGUMENTS} \
+torchrun ${DISTRIBUTED_ARGUMENTS} \
        third_party/Megatron-LM/pretrain_gpt.py \
        ${MODEL_ARGUMENTS} \
        ${TRAINING_ARGUMENTS} \

diff --git a/exp/gpt2/gpt2_46m_1gpu.sh b/exp/gpt2/gpt2_46m_1gpu.sh
@@ -126,7 +126,7 @@ EVALUATION_ARGUMENTS="\
 --log-interval 100 \
 --eval-interval 1000"
 
-python -m torch.distributed.launch ${DISTRIBUTED_ARGUMENTS} \
+torchrun ${DISTRIBUTED_ARGUMENTS} \
        third_party/Megatron-LM/pretrain_gpt.py \
        ${MODEL_ARGUMENTS} \
        ${TRAINING_ARGUMENTS} \

diff --git a/exp/gpt2/gpt2_46m_8gpu.sh b/exp/gpt2/gpt2_46m_8gpu.sh
@@ -130,7 +130,7 @@ EVALUATION_ARGUMENTS="\
 --log-interval 100 \
 --eval-interval 1000"
 
-python -m torch.distributed.launch ${DISTRIBUTED_ARGUMENTS} \
+torchrun ${DISTRIBUTED_ARGUMENTS} \
        third_party/Megatron-LM/pretrain_gpt.py \
        ${MODEL_ARGUMENTS} \
        ${TRAINING_ARGUMENTS} \

diff --git a/exp/gpt2/gpt2_760m_1gpu.sh b/exp/gpt2/gpt2_760m_1gpu.sh
@@ -126,7 +126,7 @@ EVALUATION_ARGUMENTS="\
 --log-interval 100 \
 --eval-interval 1000"
 
-python -m torch.distributed.launch ${DISTRIBUTED_ARGUMENTS} \
+torchrun ${DISTRIBUTED_ARGUMENTS} \
        third_party/Megatron-LM/pretrain_gpt.py \
        ${MODEL_ARGUMENTS} \
        ${TRAINING_ARGUMENTS} \

diff --git a/exp/gpt2/gpt2_760m_8gpu.sh b/exp/gpt2/gpt2_760m_8gpu.sh
@@ -130,7 +130,7 @@ EVALUATION_ARGUMENTS="\
 --log-interval 100 \
 --eval-interval 1000"
 
-python -m torch.distributed.launch ${DISTRIBUTED_ARGUMENTS} \
+torchrun ${DISTRIBUTED_ARGUMENTS} \
        third_party/Megatron-LM/pretrain_gpt.py \
        ${MODEL_ARGUMENTS} \
        ${TRAINING_ARGUMENTS} \

diff --git a/exp/moe/moe_125m_8gpu.sh b/exp/moe/moe_125m_8gpu.sh
@@ -160,7 +160,7 @@ EVALUATION_ARGUMENTS="\
 --log-interval 100 \
 --eval-interval 1000"
 
-python -m torch.distributed.launch ${DISTRIBUTED_ARGUMENTS} \
+torchrun ${DISTRIBUTED_ARGUMENTS} \
        third_party/Megatron-LM/pretrain_gpt.py \
        ${MOE_ARGUMENTS} \
        ${MODEL_ARGUMENTS} \

diff --git a/exp/moe/moe_356m_8gpu.sh b/exp/moe/moe_356m_8gpu.sh
@@ -160,7 +160,7 @@ EVALUATION_ARGUMENTS="\
 --log-interval 100 \
 --eval-interval 1000"
 
-python -m torch.distributed.launch ${DISTRIBUTED_ARGUMENTS} \
+torchrun ${DISTRIBUTED_ARGUMENTS} \
        third_party/Megatron-LM/pretrain_gpt.py \
        ${MOE_ARGUMENTS} \
        ${MODEL_ARGUMENTS} \

diff --git a/exp/moe/moe_46m_8gpu.sh b/exp/moe/moe_46m_8gpu.sh
@@ -160,7 +160,7 @@ EVALUATION_ARGUMENTS="\
 --log-interval 100 \
 --eval-interval 1000"
 
-python -m torch.distributed.launch ${DISTRIBUTED_ARGUMENTS} \
+torchrun ${DISTRIBUTED_ARGUMENTS} \
        third_party/Megatron-LM/pretrain_gpt.py \
        ${MOE_ARGUMENTS} \
        ${MODEL_ARGUMENTS} \

diff --git a/third_party/Megatron-LM b/third_party/Megatron-LM
+5 −5		megatron/model/transformer.py
+1 −1		megatron/optimizer/clip_grads.py