【论文阅读笔记】MultiLoRA: Democratizing LoRA For Better Multi-Task Learning-CSDN博客

本文链接：https://blog.csdn.net/weixin_45225032/article/details/134647805

论文提出MultiLoRA，针对LoRA在多任务场景中的低秩限制，通过分解和学习扩展因子改善其适应性。与微调相比，MultiLoRA通过调整奇异值分布，增强模型在复杂任务中的性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文信息

论文标题

MultiLoRA: Democratizing LoRA For Better Multi-Task Learning

发表刊物

arXiv2023

作者团队

上海蚂蚁集团

关键词

Multi-task Learning、LoRA

文章结构

引言

研究动机

The explicit low-rank of LoRA limits the adaptation performance in complex multi-task scenarios. LoRA is dominated by a small number of top singular vectors while fine-tuning decomposes into a set of less important unitary transforms. LoRA的显式低秩限制了复杂多任务场景下的自适应性能。LoRA由少数顶级奇异向量主导，而微调则分解为一组不太重要的酉变换。在本文中，我们提出了MultiLoRA，通过减少在LoRA中观察到的顶部奇异向量的优势来更好地适应多任务。

任务背景

Intro-P1：LLMs及其优缺点
Intro-P2：PEFT->LoRA->Multi-task scenarios
Intro-P3：PEFT+Multi-task scenarios的目前方法及缺点：给推理增加负担；NLU任务偏多与当前的生成式LLMs有区别；
Intro-P4：主要说明了本文通过SVD方法发现LoRA中顶层奇异值占主要地位，而fine tuning比较平均。为了解决LoRA中的这种情况，MultiLoRA将LoRA沿着秩分解，添加可学习的扩大因子并且改变参数初始化来提高LoRA块的表达能力；
Intro-P5：实验；

技术背景

PEFT

略；

MTL with PEFT

表述了adapter系列比LoRA系列多了推理延迟，因为参数不能像LoRA一样合并；

创新方法

LoRA与Finetuning的区别

在这里插入图片描述

Analysis on weight update matrices suggest that LoRA work by enhancing existing feature transforms in original model weight 对权值更新矩阵的分析表明，LoRA是通过增强原模型权值中已有的特征变换来实现的 (LoRA的原理)
A图是完整的特征值，B图示顶层的奇异值。橘黄色的钟型分布表明微调奇异值分布比较平等，而蓝色的尖端分布表示LoRA对顶层奇异值依赖性特别强，这会伤害在复杂的多任务上的表现。
由于LoRA要求rank不能超过r，导致至少k-r的奇异值为0；
一共有n个LoRA块。这是因为增加r表现也大差不差，那就直接将n个lora并行；
$\Delta\mathbf{y}=\sum_{i=1}^nscaling_iB_iA_i\mathbf{x},$
每个LoRA块中的AB都是从高斯分布初始化的
设置一个scaling系数，即使B不初始化为0，也可以从0开始训练，因为scaling系数是从0开始可训练的参数。