大模型关于Lora论文集合-CSDN博客

本文链接：https://blog.csdn.net/yanqianglifei/article/details/135539644

本文探讨了多项关于LoRA的改进方法，如ChainofLoRA利用残差学习优化语言模型，ASPEN优化单GPU微调，MultiLoRA适应多任务，MixLoRA利用混合专家架构，以及LongLoRA增强长序列处理。这些研究旨在提高语言模型的效率和性能，同时减少计算成本和内存消耗。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

《Chain of LoRA:Efficient Fine-tuning of Language Models via Residual
Learning》

Chain of LoRA (COLA)，这是一种受 Frank-Wolfe 算法启发的迭代优化框架，旨在弥合 LoRA 和全参数微调之间的差距，而不会产生额外的计算成本或内存开销。COLA 采用残差学习过程，将学习到的 LoRA 模块合并到预先训练的语言模型参数中，并重新启动对新诞生的 LoRA 模块的优化。我们提供理论收敛保证以及实证结果来验证我们算法的有效性。

论文地址：https://arxiv.org/pdf/2401.04151.pdf

《ASPEN: High-Throughput LoRA Fine-Tuning of Large Language Models
with a Single GPU》

ASPEN是一个突破性的开源框架，通过采用高效的多种 LoRA/QLoRA 方法，彻底改变了大型语言模型 (LLM) 的微调。它通过优化微调过程、最大限度地减少 GPU 内存使用以及支持多个 LoRA/qLoRA 适配器的并发微调而脱颖而出。

项目链接：https://github.com/TUDB-Labs/multi-lora-fine-tune/tree/main

《MultiLoRA: Democratizing LoRA for Better Multi-Task Learning》
MultiLoRA是一种新的低秩参数更新方式，通过多元化LoRA模块的贡献来更好地适应多任务学习问题。MultiLoRA并行化LoRA模块以减少参数依赖，改变初始化方法来增强表达能力。文中通过奇异值分解分析发现，LoRA主要依赖少量奇异向量，而MultiLoRA可以使更多奇异向量作用。此外，文章使用包含不同领域任务的混合数据集来比较评估各方法，MultiLoRA在MMLU等多种场景下都表现优于LoRA。MultiLoRA达到了与全参数微调相当的多任务适应效果，但只需增加很少参数，这将有利于大规模语言模型的实际应用。

论文地址：https://arxiv.org/pdf/2311.11501.pdf

《MixLoRA: Resource-Efficient Model with Mix-of-Experts Architecture for Enhanced LoRA Performance》

MixLoRA 的基本概念基于所有参数均已冻结的预训练模型，例如 LLaMA-7B。它涉及在其全连接层 (FFN) 之上训练多个 LoRA 专家模块。同时，对路由层（线性门）进行训练，创建更强大的专家混合 (MoE) 语言模型。最近的研究表明，现有 MoE 模型（例如 Mixtral）中的专家权重相对相似，使得 MixLoRA 方法能够以更少的资源实现与现有 MoE 模型相似的性能。

此外，MixLoRA 还允许同时微调注意力层，有助于改善微调结果。在实验中，与由 9 个专家组成的不带注意层适配器的 MixLoRA 模型相比，由 8 个具有注意层适配器的专家组成的 MixLoRA 模型表现出更快的损失减少速度。

MixLoRA 以独特的 LoRA 适配器形式存在于 m-LoRA 中。因此，m-LoRA 能够同时加载、训练和微调多个不同的 MixLoRA 和 LoRA 模型。但是，需要注意的是，这些模型必须基于相同的预训练模型。