📖标题:Flexible and Effective Mixing of Large Language Models into a Mixture of Domain Experts
🌐来源:arXiv, 2408.17280
摘要
我们提出了一个工具包,用于从训练好的模型中创建低成本的领域专家混合(MOE),该工具包可用于从模型或适配器创建混合。我们使用该工具包进行了广泛的测试,并为定义最终MOE的架构提供了指导。公共存储库可通过 https://github.ibm.com/Rhui-Dih-Lee/moetify 获得。
🛎️文章简介
🔸研究问题:如何快速且低成本地将大语言模型(LLM)与领域专家模型结合,形成一个灵活有效的混合模型。
🔸主要贡献:论文提供了一个通用的工具包,用于将训练好的模型集成到领域专家混合模型(MOE)中,在不训练路由器的情况下也能实现高性能。
📝重点思路
🔺相关工作
🔸通过微调专门针对特定领域的模型,在其专业领域内优于通才模型。
🔸在MOE模型包含多个领域专业专家模型的情况下,多个专家的混合模型可以优于各自的源专家模型。
🔺论文方案
🔸模型混合方法:通过将不同领域专家模型的前馈神经网络(FFN)层与基础模型的FFN层进行交换,并引入一个路由器(router)来决定每个token由哪个专家处理。
🔸路由器训练:研究了路由器的训练对模型性能的影响,在不同的模型上进行了消融研究,比较了不同路由器策略和专家模型组合的效果。
🔸门控机制:探讨了无门控(Gate-less)和噪声门控(Noisy MOE)的策略,评估了它们在不同专家数量下的表现。
🔸LoRA适配器:研究了使用LoRA适配器作为专家模型的效果,并比较了不同路由器训练策略的影响。
🔎分析总结
🔸路由器训练的效果:在某些任务(如数学)上可以提升性能,但在其他任务上并非必要。
🔸无门控策略的优势:在专家模型数量较少时表现优异,且成本较低。
🔸噪声门控的效果:在专家模型数量较多时表现接近无门控策略,且推理成本更低。
🔸LoRA适配器的效果:作为专家模型时,未训练的路由器表现更好。
🔸模型混合的灵活性:论文提出的工具包允许用户根据需求灵活选择不同的模型混合策略,包括无路由器训练、噪声门控和路由器训练等。
💡个人观点
论文提出了一个灵活且低成本的模型混合工具包,允许用户根据需求快速定制MOE,并探讨了不同混合策略的效果。
附录