资源0:传统ffn
资源1:Mindspore
mixtral的moe结构
资源2:zomi
知乎文章:
Megatron-LM中MOE并行分组策略 - 知乎 (zhihu.com)https://zhuanlan.zhihu.com/p/696389676
图解大模型训练系列之:DeepSpeed-Megatron MoE并行训练(原理篇) - 知乎 (zhihu.com)https://zhuanlan.zhihu.com/p/681154742
图解大模型训练系列之:DeepSpeed-Megatron MoE并行训练(源码解读篇) - 知乎 (zhihu.com)https://zhuanlan.zhihu.com/p/681692152
论文解读
swith-transformer