Skip to content

Latest commit

 

History

History
41 lines (22 loc) · 941 Bytes

README.md

File metadata and controls

41 lines (22 loc) · 941 Bytes

LearnDeepSpeed 🚀

目的:基于DeepSpeed,突破硬件限制,实现大模型高效训练。

最小示例

  • cifar示例
    • 分布式数据并行DDP的训练pipeline
    • MoE用法
    • 学习率调度器的配置
    • ZeRO零冗余优化器的配置
  • pipeline_parallelism示例
    • 流水并行的训练pipeline
    • 流水模型的保存、加载、指标评估
    • TensorBoard可视化

DeepSpeed训练Tricks

https://zhuanlan.zhihu.com/p/654923210

DeepSpeed训练配置

https://zhuanlan.zhihu.com/p/654925843

参考