DeepSeek:LLM在MoE训练中的无损平衡

在这里插入图片描述

📖标题:AUXILIARY-LOSS-FREE LOAD BALANCING STRAT-EGY FOR MIXTURE-OF-EXPERTS
🌐来源:arXiv, 2408.15664

摘要

🔸对于混合专家(MoE)模型,不平衡的专家负载将导致路由崩溃或计算开销增加。现有方法通常采用辅助损耗来促进负载平衡,但较大的辅助损耗会在训练中引入不可忽略的干扰梯度,从而损害模型性能。
🔸为了在训练过程中控制负载平衡,同时不产生不希望的梯度,我们提出了无损耗平衡,其特征是辅助无损耗负载平衡策略。具体来说,在做出前K个路由决策之前,无损平衡将首先对每个专家的路由得分应用专家偏见。通过根据每个专家最近的负载动态更新其偏差,无损耗平衡可以始终如一地保持专家负载的平衡分布。此外,由于无损耗平衡不会产生任何干扰梯度,它还提高了从MoE训练中获得的模型性能的上限。我们在MoE模型上验证了无损耗平衡的性能,该模型具有在多达200B个令牌上训练的多达3B个参数。实验结果表明,与传统的辅助损耗控制负载平衡策略相比,无损耗平衡实现了更好的性能和更好的负载平衡。

🛎️文章简介

🔸研究问题:在混合专家系统(MoE)中,不平衡的专家负载将导致路由崩溃或计算开销增加。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值