fix typo

erenup · Aug 19, 2021 · a51fee9 · a51fee9
1 parent 9a712f6
commit a51fee9
Showing 1 changed file with 1 addition and 1 deletion.
diff --git a/docs/深度学习模型基础/transformer基本原理讲解/1.2-图解transformer.md b/docs/深度学习模型基础/transformer基本原理讲解/1.2-图解transformer.md
@@ -218,7 +218,7 @@ torch.nn.MultiheadAttention(embed_dim, num_heads, dropout=0.0, bias=True, add_bi
 
 现在来解释一下，为什么  num_heads 的值需要能够被 embed_dim 整除。这是为了把词的隐向量长度平分到每一组，这样多组注意力也能够放到一个矩阵里，从而并行计算多头注意力。
 
-例如，我们前面说到，8 组注意力可以得到 8 组 Z 矩阵，然后把这些矩阵拼接起来，得到最终的输出。如果最终输出的每个词的向量维度是 512，那么每组注意力的向量维度应该是 。
+例如，我们前面说到，8 组注意力可以得到 8 组 Z 矩阵，然后把这些矩阵拼接起来，得到最终的输出。如果最终输出的每个词的向量维度是 512，那么每组注意力的向量维度应该是64 。
 
 如果不能够整除，那么这些向量的长度就无法平均分配。