【论文阅读笔记】MultiLoRA: Democratizing LoRA For Better Multi-Task Learning

论文信息

论文标题

MultiLoRA: Democratizing LoRA For Better Multi-Task Learning

发表刊物

arXiv2023

作者团队

上海蚂蚁集团

关键词

Multi-task Learning、LoRA

文章结构

MultiLoRA
Introduction
Background
PEFT
MLT with PEFT
Method
Background
Difference between LoRA and fine-tuning
Scaling LoRA to Democratize Unitary Transform Contribution
Experiments
Experiment Setups
Training Data
Baselines
Evaluation Results
Resources & Throughput Analysis
Understanding MultiLoRA
Comparison with Fine-tuning
Singular Value Distribution Comparison
Singular Value Distribution Comparison
Comparison among MultiLoRA
Underlying Mechanisms of LoRA and MultiLoRA
Conclusion

引言

研究动机

The explicit low-rank of LoRA limits the adaptation performance in complex multi-task scenarios. LoRA is dominated by a small number of top singular vectors while fine-tuning decomposes into a set of less important unitary transforms. LoRA的显式低秩限制了复杂多任务场景下的自适应性能。LoRA由少数顶级奇异向量主导,而微调则分解为一组不太重要的酉变换。在本文中,我们提出了MultiLoRA,通过减少在LoRA中观察到的顶部奇异向量的优势来更好地适应多任务。

任务背景

  • Intro-P1:LLMs及其优缺点
  • Intro-P2:PEFT->LoRA->Multi-task scenarios
  • Intro-P3:PEFT+Multi-task scenarios的目前方法及缺点:给推理增加负担;NLU任务偏多与当前的生成式LLMs有区别;
  • Intro-P4:主要说明了本文通过SVD方法发现LoRA中顶层奇异值占主要地位,而fine tuning比较平均。为了解决LoRA中的这种情况,MultiLoRA将LoRA沿着秩分解,添加可学习的扩大因子并且改变参数初始化来提高LoRA块的表达能力;
  • Intro-P5:实验;

技术背景

PEFT

略;

MTL with PEFT

表述了adapter系列比LoRA系列多了推理延迟,因为参数不能像LoRA一样合并;

创新方法

LoRA与Finetuning的区别

在这里插入图片描述

  • Analysis on weight update matrices suggest that LoRA work by enhancing existing feature transforms in original model weight 对权值更新矩阵的分析表明,LoRA是通过增强原模型权值中已有的特征变换来实现的 (LoRA的原理)
  • A图是完整的特征值,B图示顶层的奇异值。橘黄色的钟型分布表明微调奇异值分布比较平等,而蓝色的尖端分布表示LoRA对顶层奇异值依赖性特别强,这会伤害在复杂的多任务上的表现。
  • 由于LoRA要求rank不能超过r,导致至少k-r的奇异值为0;
    在这里插入图片描述
  • 一共有n个LoRA块。这是因为增加r表现也大差不差,那就直接将n个lora并行;
    Δ y = ∑ i = 1 n s c a l i n g i B i A i x , \Delta\mathbf{y}=\sum_{i=1}^nscaling_iB_iA_i\mathbf{x}, Δy=i=1nscalingiBiAix,
  • 每个LoRA块中的AB都是从高斯分布初始化的
  • 设置一个scaling系数,即使B不初始化为0,也可以从0开始训练,因为scaling系数是从0开始可训练的参数。

实验环节

阅读思考

简单地将多个LoRA连加在一起,同时将B初始化改为不用0而是引入一个可学习的系数从0开始,感觉方法还是比较简单的。但是另一方面,从LoRA和finetuning的奇异值分布来看LoRA表达能力低的缺点,并改进这个缺点做了很多空间性质的对比还是值得学习的。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值