IBM：将LLM快速集成到专家混合模型

大模型任我行

于 2024-09-18 10:00:00 发布

阅读量171

点赞数 5

分类专栏：大模型-模型训练文章标签：人工智能自然语言处理语言模型论文笔记

本文链接：https://blog.csdn.net/weixin_46739757/article/details/142307768

版权

大模型-模型训练专栏收录该内容

41 篇文章 1 订阅

订阅专栏

在这里插入图片描述

📖标题：Flexible and Effective Mixing of Large Language Models into a Mixture of Domain Experts
🌐来源：arXiv, 2408.17280

摘要

我们提出了一个工具包，用于从训练好的模型中创建低成本的领域专家混合（MOE），该工具包可用于从模型或适配器创建混合。我们使用该工具包进行了广泛的测试，并为定义最终MOE的架构提供了指导。公共存储库可通过 https://github.ibm.com/Rhui-Dih-Lee/moetify 获得。

🛎️文章简介

🔸研究问题：如何快速且低成本地将大语言模型（LLM）与领域专家模型结合，形成一个灵活有效的混合模型。
🔸主要贡献：论文提供了一个通用的工具包，用于将训练好的模型集成到领域专家混合模型（MOE）中，在不训练路由器的情况下也能实现高性能。

📝重点思路

🔺相关工作

🔸通过微调专门针对特定领域的模型，在其专业领域内优于通才模型。
🔸在MOE模型包含多个领域专业专家模型的情况下，多个专家的混合模型可以优于各自的源专家模型。

🔺论文方案

🔸模型混合方法：通过将不同领域专家模型的前馈神经网络（FFN）层与基础模型的FFN层进行交换，并引入一个路由器（router）来决定每个token由哪个专家处理。
🔸路由器训练：研究了路由器的训练对模型性能的影响，在不同的模型上进行了消融研究，比较了不同路由器策略和专家模型组合的效果。
🔸门控机制：探讨了无门控（Gate-less）和噪声门控（Noisy MOE）的策略，评估了它们在不同专家数量下的表现。
🔸LoRA适配器：研究了使用LoRA适配器作为专家模型的效果，并比较了不同路由器训练策略的影响。

🔎分析总结

🔸路由器训练的效果：在某些任务（如数学）上可以提升性能，但在其他任务上并非必要。
🔸无门控策略的优势：在专家模型数量较少时表现优异，且成本较低。
🔸噪声门控的效果：在专家模型数量较多时表现接近无门控策略，且推理成本更低。
🔸LoRA适配器的效果：作为专家模型时，未训练的路由器表现更好。
🔸模型混合的灵活性：论文提出的工具包允许用户根据需求灵活选择不同的模型混合策略，包括无路由器训练、噪声门控和路由器训练等。