LoRA原理

月涌大江流丶

已于 2024-10-13 00:01:45 修改

阅读量1.7k

点赞数 8

分类专栏： LLM 文章标签： AIGC

于 2023-12-21 23:29:10 首次发布

本文链接：https://blog.csdn.net/zzZ_CMing/article/details/135141992

版权

LLM 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

一、前言

大语言模型（Large Language Model，LLM）的出现，训练参数的级别直接跃迁到数十亿甚至数千亿，在模型微调、迁移学习小样本数据时，使用全量训练的成本是极大的。为优化时间、资源成本，LLM普遍使用的参数高效微调方法（简称PEFT）：LoRA（Low-Rank Adaptation，低秩适配器）方法，其本质就是：基于低秩适应矩阵来调整源领域和目标领域之间的特征表示。

LLM参数个数都是极大的，在实际中发现，深度学习的矩阵维度通常都存在过参数化现象，全矩阵的某个子集可能与全矩阵保存真实或潜在的相似性，这被称为特征的内在维度，这部分高效率保存信息，但它的秩要比实际矩阵的秩小得多，在研究这部分低秩矩阵中发现以下两个现象：

如果我们找到了这个低秩的参数空间表示，再增加参数空间大小也不会对模型有显著的性能提升；
过参数的模型可以进行压缩，这也是LoRA 方法提出的动机；

二、LoRA原理

和其他的串行适配器算法不同，LoRA的做法是在 LLM 某些矩阵的旁边插入一个并行矩阵。并行矩阵由A、B两个矩阵构成；

矩阵A：降维矩阵，将原有矩阵的秩由d 降至r，r << d;
矩阵B：升维矩阵，将秩由r 升至d；

在这里插入图片描述

初始化时，矩阵A使用高斯分布进行初始化，矩阵B使用全0矩阵；
训练时，固定左侧原有LLM的参数，只训练A、B两个矩阵，LoRA的秩r通常是个很小的数（1、2、4、8都行），因此它的训练非常高效，也不会带来显著的显存增加；
训练完成之后，可以直接将矩阵A 和矩阵B 直接加到原参数上，从而在推理时不会产生额外的推理延时；

在LLM大模型的训练中，两个全连接层的神经元个数可能非常大，比如全连接in层、out层各有10,000个神经元，那么在全参数训练中就有10,000 * 10,000个参数需要迭代；

而插入的 LoRA 层是一个维度非常小的低秩矩阵，比如维度是8 * 8，那现在的计算参数就等于10,000 * 8 * 2 + 8* 8，大大缩小了训练参数的个数；

形象的解释是：
LoRA 层就好比是“中介”，将买家与卖家（ in 层与 out 层）各自的需求进行汇总，在“中介”内部完成信息交换，加快匹配速度。

三、LoRA配置参数解析

# # 伪代码
from transformers import AutoModel
from peft import LoraConfig, get_peft_model


def find_all_linear_names(model):
    """
    找出所有全连接层，为所有全连接添加adapter
    """
    cls = bnb.nn.Linear4bit
    lora_module_names = set()
    for name, module in model.named_modules():
        if isinstance(module, cls):
            names = name.split('.')
            lora_module_names.add(names[0] if len(names) == 1 else names[-1])

    if 'lm_head' in lora_module_names:  # needed for 16-bit
        lora_module_names.remove('lm_head')
    return list(lora_module_names)


model = AutoModel.from_pretrained(xxx)
# # 找到需要插入LoRA的所有全连接层，不包括embed_tokens与lm_head层
target_modules = find_all_linear_names(model)
print('append lora layers: {target_modules})
# # 配置LoRA参数
config = LoraConfig(
    r=16, 
    target_modules=target_modules, 
    lora_alpha=16,
    lora_dropout=0.05,
    fan_in_fan_out=False,
    bias="none",
    modules_to_save=None,
)

model = get_peft_model(model, config)
print("--------------------------------")
model.print_trainable_parameters()           # # 打印模型中可训练参数的数量。
print("--------------------------------")
model.config.torch_dtype = torch.float32

常用参数解析：

r (int) ：低秩矩阵的维度，通常是1、2、4、8、16、32、64；
target_modules (Union[List[str],str])：添加lora的目标模块名称；
lora_alpha (int)：缩放参数，控制低秩矩阵的适应程度——越小的值对模型参数进行压缩的越强烈，可能会影响模型性能；越大的值，则减轻了对模型参数的压缩，可能保留了更多的模型性能。不同的模型可能有不同的默认值和具体用法；
lora_dropout (float)：防止过拟合的dropout；
fan_in_fan_out (bool)：是否将层的存储形式替换成 (fan_in, fan_out) 的样子，默认为False；
bias (str)：是否添加偏置。参数选择为：[“none”,“all”,“lora_only”]。如果为"all"或"lora_only"，则相应的偏差将在训练期间更新；
modules_to_save (List[str])：要在训练过程中保存的模块列表，默认为None 表示不保存；