腾讯:LLM中引入异质专家混合

在这里插入图片描述

📖标题:HMoE: Heterogeneous Mixture of Experts for Language Modeling
🌐来源:arXiv, 2408.10681

摘要

混合专家模型(MoE)通过选择性激活模型参数的子集,提供了出色的性能和计算效率。传统上,MoE模型使用同质专家,每个专家具有相同的能力。然而,输入数据的复杂性差异需要具有不同能力的专家,而同质MoE妨碍了有效的专家专业化和高效的参数利用。在本研究中,我们提出了一种新颖的异质混合专家模型(HMoE),其中专家的大小不同,因此具有不同的能力。这种异质性允许更专业的专家更有效地处理不同的令牌复杂性。为了解决专家激活的不平衡问题,我们提出了一种新的训练目标,鼓励更频繁地激活较小的专家,提高计算效率和参数利用率。广泛的实验表明,HMoE在更少的激活参数下实现了更低的损失,并在各种预训练评估基准上优于传统的同质MoE模型。文章接受后将发布代码。

🛎️文章简介

🔸研究问题:传统的MoE模型使用同质专家,但输入数据的复杂性要求专家具有不同的能力,而同质的MoE阻碍了有效的专家专业化和有效的参数利用。
🔸主要贡献:论文提出了一种新的异质专家混合模型(HMoE)结构,并通过引入参数惩罚损失(P-Penalty)和路由熵损失来优化模型性能。

📝重点思路

🔺相关工作

🔸专家混合(MoE)模型,是每个专家独立学习完整数据集的子集,然后集成到一个统一的系统中。
🔸在此基础上,引入了稀疏门控混合专家层(SMoE),通过门控网络进行专家选择,并提出了top-K路由策略,为每个token选择固定数量的专家。
🔸在MoE模型中,并非所有专家都是平等的,可以丢弃不太重要的专家并找到保持最佳性能的模型。

🔺论文方案

🔸提出了一种新的异质专家混合模型(HMoE)结构,其中专家具有不同的尺寸。
🔸引入了参数惩罚损失(P-Penalty)和路由熵损失来平衡专家的激活,防止大专家被过度使用。
🔸探索了三种不同级别的异质性结构:几何策略、算术策略和混合策略。
🔸进行了广泛的实验评估,包括不同设置下的性能比较和辅助损失的有效性验证。

🔎分析总结

🔸HMoE模型利用Top-K和Top-P路由策略,在几乎所有评估的指标中都优于传统的MoE和密集模型。
🔸Top-P路由策略通常比Top-K路由策略产生更好的结果,表明动态路由策略与异质专家配合良好,将此归因于Top-P路由和异构专家的设计都是为了适应输入的复杂性。
🔸HMoE模型在Top-K和Top-P下,激活参数的数量都很稳定(Top-K略好),并随着时间的推移呈现下降趋势,这有利于大型模型训练。
🔸参数惩罚损失对于HMoE的性能至关重要,能够有效平衡专家的激活,这种转变导致规模较小的专家的角色越来越类似于共享专家(通用能力)。

💡个人观点

论文的核心是异质专家混合结构,并通过引入参数惩罚损失和路由熵损失来解决专家间负载分布不均的问题。

附录

在这里插入图片描述
在这里插入图片描述

  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值