📖标题:Nexus: Specialization meets Adaptability for Efficiently Training Mixture of Experts
🌐来源:arXiv, 2408.15901
摘要
🔸效率、专业化和对新数据分布的适应性是当前大型语言模型中难以结合的品质。混合专家(MoE)架构一直是重要研究的焦点,因为其固有的条件计算能够实现这些理想的特性。
🔸在这项工作中,我们专注于将密集的专家模型“升级”到MoE中,旨在提高专业化程度,同时增加轻松适应新任务的能力。我们介绍了Nexus,这是一种具有自适应路由的增强型MoE架构,其中模型学习从域表示中投影专家嵌入。这种方法允许Nexus在通过单独训练的密集模型进行初始升级后灵活地添加新的专家,而不需要对看不见的数据域进行大规模的MoE训练。
🔸实验表明,Nexus在初始升级周期的基础上实现了高达2.1%的相对增益,在使用有限的微调数据与新专家一起扩展MoE时实现了18.8%的相对增益。Nexus的这种灵活性对于实现一个开源生态系统至关重要,在这个生态系统中,每个用户都可以根据自己的需求不断组装自己的MoE组合。
🛎️文章简介
🔸研究问题:如何有效地将单独训练的密集专家模型改造成一个混合专家模型(MoE),同时保持效率、专门化和适应性?
🔸主要贡献:论文提出了一种新的MoE框架Nexus,通过一种新颖的MoE路由,能够有效地扩展MoE,并在多个轮次后进行稀疏升级,同时保持专家的专门化和适应性。
📝重点思路
🔺相关工作
🔸MoE路由变体:常见的MoE架构具有top-k路由方案,DeepSeek引入永久活跃专家,BASE将专家分配表述为线性分配问题。
🔸重用密集模型做MoE训练:重头训练MoE成本很高且不稳定,稀疏升级将密集模型的FFN权重复制到MoE中的FFN专家,BTX融合多个专家模型,BAM进一步升级了注意力专家。
🔸MoE高效架构:由更小的向量和适配器组成的更高效的专家,取代传统MoE的计算量大的FFN专家。
🔸自适应MoE和模型集成:ModuleFormer冻结现有的MoE参数、仅训练新添加的对路由器具有优化约束的模块来实现适应性,DEMix在专门的数据域上独立训练不同的FFN专家。
🔺论文方案
🔸MoE框架Nexus,其核心组件是一个新颖的MoE路由器。
🔸路由器通过学习从预计算的领域嵌入到专家嵌入的投影层来工作,投影层由一个带有SwiGLU激活函数的两层MLP参数化。
🔸在初始训练阶段后,允许在MoE模型中轻松扩展新的专家,只需要独立地在新数据集上进行训练,而无需从头开始训练路由器。
🔎分析总结
🔸实验结果显示,Nexus在从单独训练的专门化领域专家升级MoE时,优于先前的工作。
🔸Nexus不仅在初始升级阶段表现出色,而且能够通过在新领域上微调较少的令牌,有效地扩展带有新专家的MoE。
🔸Nexus在新的代码领域上相对于基线MoE(线性路由器)实现了18.8%的相对增益,并且在知识任务上相对于种子模型和线性路由器MoE分别实现了22.5%和5.6%的相对增益。
💡个人观点
论文基于领域特定数据训练的路由器,实现了对单独训练的专门化专家的有效结合和适应性扩展,同时保持了专家的专门化和模型的效率。
附录