大模型基础-简易理解版-LoRA

lucky_Bill

已于 2025-02-16 08:06:36 修改

阅读量1.8k

点赞数 28

分类专栏：大模型学习文章标签：自然语言处理 nlp

于 2025-02-16 00:00:51 首次发布

本文链接：https://blog.csdn.net/weixin_50255595/article/details/145652933

版权

大模型学习专栏收录该内容

2 篇文章

订阅专栏

LoRA（Low-Rank Adaptation） 是一种通过低秩矩阵分解实现参数高效微调的技术。其核心思想是：冻结预训练模型参数，仅通过训练两个低秩矩阵来模拟参数变化量。以下是通俗解释与代码实现：

一、原理图解（3步理解）
1、旁支结构： 在原始模型层（如线性层）旁添加两个小矩阵 $A$ （降维）和 $B$ （升维），其中秩 $r ≪ d$ （原矩阵维度）。

更新后的权重矩阵可以表示为:

$\Delta W = W + A⋅ B$

其中, $\Delta W = A ⋅ B$ 是低秩更新矩阵.

2、训练过程： 只更新 $A$ 和 $B$ ，原始参数 $W$ 保持冻结。
3、推理合并： 训练后将 $\Delta W$ 与 $W$ 合并，不增加推理耗时。
在微调过程中，只训练低秩矩阵 A和B，而冻结原始模型的权重，从而大幅减少计算开销。
在这里插入图片描述

LoRA大大节省微调大模型的参数量；效果和全量微调差不多；微调完的LoRA模型权重可以Merge回原来的权重，不会改变模型结构，推理时不增加额外计算量；你可以通过改变r参数，最高情况等同于全量微调。

特点：
高效性：由于只训练低秩矩阵，参数量大幅减少(通常为原始模型参数的0.1%-1%)，计算和存储开销显著降低。
模块化：LoRA的适配模块(低秩矩阵)可以独立于原始模型保存和加载，便于在不同任务之间切换。
兼容性：可以与多种模型架构(如Transformer)和任务(如文本分类、生成、翻译)结合使用。
避免灾难性遗忘：由于原始模型权重被冻结，LoRA在适配新任务时不会破坏预训练模型的通用知识。
可扩展性：可以与其他高效微调方法(如Adapter、Prefix Tuning)结合使用，进一步提升性能。

应用场景：

资源受限的环境：在计算资源有限的情况下高效微调大模型。
多任务学习：通过为不同任务训练独立的低秩矩阵，快速适配多个任务。
持续学习：在保留预训练知识的同时，逐步适配新任务。

二、Pytorch代码实现（以线性层为例）

import torch
import torch.nn as nn

class LoRALinear(nn.Module):
    def __init__(self, in_dim, out_dim, rank=8, alpha=16):
        super().__init__()
        self.rank = rank
        self.scaling = alpha / rank  # 缩放系数
        
        # 原始权重（冻结）
        self.weight = nn.Parameter(torch.randn(out_dim, in_dim), requires_grad=False)
        
        # LoRA矩阵（可训练）
        self.lora_A = nn.Parameter(torch.randn(rank, in_dim))  # 降维矩阵
        self.lora_B = nn.Parameter(torch.zeros(out_dim, rank)) # 升维矩阵（初始化为0）

    def forward(self, x):
        # 原始输出 + LoRA调整项
        original = x @ self.weight.T
        lora_adjust = (x @ self.lora_A.T) @ self.lora_B.T  # 低秩分解
        return original + self.scaling * lora_adjust

关键点：

lora_B 初始化为0，确保训练开始时旁路无影响
scaling 系数平衡新旧参数权重（通常设为 $α / r$ ）

三、实战示例（Hugging Face场景）

from transformers import AutoModel
from peft import LoraConfig, get_peft_model

# 加载预训练模型
model = AutoModel.from_pretrained("bert-base-uncased")

# 配置LoRA参数（仅微调注意力层的q_proj和v_proj）
lora_config = LoraConfig(
    r=8, 
    lora_alpha=16,
    target_modules=["query", "value"],  # 指定微调模块
    lora_dropout=0.1,
    bias="none"
)

# 应用LoRA
model = get_peft_model(model, lora_config)
print(f"可训练参数量: {model.print_trainable_parameters()}")
# 输出示例：0.8M/110M (仅0.7%参数被训练)