Philip's blog #34

p208p2002 · 2024-02-15T09:34:02Z

- tags: gpu-cluster multi-node-training LLM model-training - date: 2024/02/15

LLM訓練非常吃資源，單節點多卡的配置還是會常常遇到算力或記憶體不足的問題。

GPU Cluster 使用上會涉及到許多額外的設定，並且通常會搭配排程系統、容器技術一起使用。

本篇簡單紀錄使用 Azure 平台進行多節點訓練的設定與流程。

重點環境:

可以設置最大節點與最小閒置節點(最小可以=0)，閒置時不收費。

GPU叢集會根據任務需要自動拓展。

p208p2002 added Gitalk az-multi-node-training labels Feb 15, 2024

Provide feedback