Skip to content

Commit

Permalink
seq parallel doc
Browse files Browse the repository at this point in the history
  • Loading branch information
wangbluo committed Sep 27, 2024
1 parent 2f56b5a commit eb93cf1
Showing 1 changed file with 3 additions and 3 deletions.
6 changes: 3 additions & 3 deletions docs/source/zh-Hans/features/sequence_parallelism.md
Original file line number Diff line number Diff line change
Expand Up @@ -152,11 +152,11 @@ for step, batch in enumerate(tqdm(dataloader, desc="Step", disable=not dist.get_
### 结论
在上述序列并行方法中,ring attn和Ulysses各有优劣,我们需要根据情况来选择合适的序列并行方法:

通信方面:Ulysses通信量优于ring attn,Ulysess主要包含三次All2All通信量,而ring attn的通信会随着序列长度增长而平方增长。不过另一方面,all2all对底层硬件的要求也会更高。
通信方面:Ulysses通信量优于ring attn,Ulysess主要包含三次All2All通信量,而ring attn的通信会随着序列长度增长而平方增长。不过另一方面,all2all对底层硬件的要求也会更高。

内存占用:二者类似。
内存占用:二者类似。

模型结构泛化:ring attn优于Ulysses。Ulysses模型泛化性一般,对于head number有要求,需要满足:`head number // (tp group size * sp group size)`,而ring attn没有此限制。
模型结构泛化:ring attn优于Ulysses。Ulysses模型泛化性一般,对于head number有要求,需要满足:`head number // (tp group size * sp group size)`,而ring attn没有此限制。

由于使用简单,对Attention计算不侵入修改,Ulysses目前是序列并行的主流。这些序列并行都可与其他高性能注意力兼容,如flash attention,还可以与ZeRO、TP、PP、DP等多种并行训练策略混合使用。

Expand Down

0 comments on commit eb93cf1

Please sign in to comment.