INFINIQ:非对称MoE避免LLM灾难性遗忘

在这里插入图片描述

📖标题:PMoE: Progressive Mixture of Experts with Asymmetric Transformer for Continual Learning
🌐来源:arXiv, 2407.21571

🛎️文章简介

🔸研究问题:大语言模型(LLM)在持续学习过程中容易出现灾难性遗忘。
🔸主要贡献:论文提出了一种渐进的非对称专家混合(PMoE)架构,兼顾了持续学习中的知识保留和适应新知识。

📝重点思路

🔺相关工作

🔸参数高效微调(PEFT):随着模型增大,有效地微调至关重要。PEFT在微调阶段冻结预训练参数、仅更新一小部分参数,包括插入额外的模块(P-Tuning)和低秩适应(LoRA).
🔸持续学习:可以分为三种主要类型,基于重放(使用之前的任务)、基于正则化(仅更新在先前任务上训练的部分权重)和基于架构(隔离先前任务的权重,并逐步增加新任务的权重)

🔺论文方案

🔸关键思想:模型的浅层保留一般知识,深层获取特定于任务的新知识。
🔸模型架构:引入不对称深度设计,通过阈值将网络分为浅层和深层,深层包含不同的专家,浅层和深层中间嵌入一个路由。
🔸知识分配:路由将输入文本的隐藏特征分配给深层专家,引入辅助函数来提高分配效果。
🔸模型训练:使用低秩适应(LoRA)方法,通过更新分解的权重来高效适应预训练模型。

🔎分析总结

🔸非对称设计在保留先前知识的同时,对新知识的适应既有效又参数高效。
🔸PMoE在基准测试中优于基于重放和先前最先进的方法,包括LoRA。
🔸路由分析显示,辅助损失函数在使专家任务特定化方面有效,但在总体性能上略有下降,表明多专家组合对总体性能有积极影响。

💡个人观点

论文的核心是引入LLM的非对称概念,拆分为浅层和深层分别对应通用知识和专业知识,深层结合LoRA来构建专家。

附录

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 6
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值