论文信息
论文标题
MultiLoRA: Democratizing LoRA For Better Multi-Task Learning
发表刊物
arXiv2023
作者团队
上海蚂蚁集团
关键词
Multi-task Learning、LoRA
文章结构
引言
研究动机
The explicit low-rank of LoRA limits the adaptation performance in complex multi-task scenarios. LoRA is dominated by a small number of top singular vectors while fine-tuning decomposes into a set of less important unitary transforms. LoRA的显式低秩限制了复杂多任务场景下的自适应性能。LoRA由少数顶级奇异向量主导,而微调则分解为一组不太重要的酉变换。在本文中,我们提出了MultiLoRA,通过减少在LoRA中观察到的顶部奇异向量的优势来更好地适应多任务。
任务背景
- Intro-P1:LLMs及其优缺点
- Intro-P2:PEFT->LoRA->Multi-task scenarios
- Intro-P3:PEFT+Multi-task scenarios的目前方法及缺点:给推理增加负担;NLU任务偏多与当前的生成式LLMs有区别;
- Intro-P4:主要说明了本文通过SVD方法发现LoRA中顶层奇异值占主要地位,而fine tuning比较平均。为了解决LoRA中的这种情况,MultiLoRA将LoRA沿着秩分解,添加可学习的扩大因子并且改变参数初始化来提高LoRA块的表达能力;
- Intro-P5:实验;
技术背景
PEFT
略;
MTL with PEFT
表述了adapter系列比LoRA系列多了推理延迟,因为参数不能像LoRA一样合并;
创新方法
LoRA与Finetuning的区别
- Analysis on weight update matrices suggest that LoRA work by enhancing existing feature transforms in original model weight 对权值更新矩阵的分析表明,LoRA是通过增强原模型权值中已有的特征变换来实现的 (LoRA的原理)
- A图是完整的特征值,B图示顶层的奇异值。橘黄色的钟型分布表明微调奇异值分布比较平等,而蓝色的尖端分布表示LoRA对顶层奇异值依赖性特别强,这会伤害在复杂的多任务上的表现。
- 由于LoRA要求rank不能超过r,导致至少k-r的奇异值为0;
- 一共有n个LoRA块。这是因为增加r表现也大差不差,那就直接将n个lora并行;
Δ y = ∑ i = 1 n s c a l i n g i B i A i x , \Delta\mathbf{y}=\sum_{i=1}^nscaling_iB_iA_i\mathbf{x}, Δy=i=1∑nscalingiBiAix, - 每个LoRA块中的AB都是从高斯分布初始化的
- 设置一个scaling系数,即使B不初始化为0,也可以从0开始训练,因为scaling系数是从0开始可训练的参数。
实验环节
略
阅读思考
简单地将多个LoRA连加在一起,同时将B初始化改为不用0而是引入一个可学习的系数从0开始,感觉方法还是比较简单的。但是另一方面,从LoRA和finetuning的奇异值分布来看LoRA表达能力低的缺点,并改进这个缺点做了很多空间性质的对比还是值得学习的。