MoE结构梳理

资源0:传统ffn

一张图说清楚:大模型“大”在哪?ChatGLM模型结构详解-CSDN博客icon-default.png?t=N7T8https://blog.csdn.net/xian0710830114/article/details/138386170?ops_request_misc=&request_id=&biz_id=102&utm_term=ffn%20mlp&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduweb~default-5-138386170.142%5Ev100%5Epc_search_result_base6&spm=1018.2226.3001.4187


资源1:Mindspore

第二十课:MoE_哔哩哔哩_bilibiliicon-default.png?t=N7T8https://www.bilibili.com/video/BV1jH4y177DL/?spm_id_from=333.337.search-card.all.click&vd_source=de16465aaf1f2b33a8c4f5b96fad18d7


mixtral的moe结构

资源2:zomi

大模型算法有哪种结构?怎么样才算大模型呢?从Transformer和MOE结构看大模型发展!【分布式算法】系列第02篇_哔哩哔哩_bilibiliicon-default.png?t=N7T8https://www.bilibili.com/video/BV1Mt4y1M7SE/?spm_id_from=333.999.0.0&vd_source=de16465aaf1f2b33a8c4f5b96fad18d7

知乎文章:

Megatron-LM中MOE并行分组策略 - 知乎 (zhihu.com)icon-default.png?t=N7T8https://zhuanlan.zhihu.com/p/696389676

图解大模型训练系列之:DeepSpeed-Megatron MoE并行训练(原理篇) - 知乎 (zhihu.com)icon-default.png?t=N7T8https://zhuanlan.zhihu.com/p/681154742

图解大模型训练系列之:DeepSpeed-Megatron MoE并行训练(原理篇) - 大模型知识库|大模型训练|开箱即用的企业大模型应用平台|智能体开发|53AIicon-default.png?t=N7T8https://www.53ai.com/news/qianyanjishu/1642.html

图解大模型训练系列之:DeepSpeed-Megatron MoE并行训练(源码解读篇) - 知乎 (zhihu.com)icon-default.png?t=N7T8https://zhuanlan.zhihu.com/p/681692152

论文解读 

swith-transformer

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值