大模型微调｜根据低秩近似理解lora（二）

亅－丿－丶丿丶一l一丶－／^n

已于 2024-09-21 14:11:14 修改

阅读量1.3k

点赞数 19

分类专栏： llm微调文章标签：人工智能自然语言处理深度学习

于 2024-09-21 13:47:22 首次发布

本文链接：https://blog.csdn.net/weixin_43833206/article/details/142400453

版权

llm微调专栏收录该内容

2 篇文章

订阅专栏

概要

lora全称LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS，即大语言模型的低秩适配器，被广泛用于大模型微调来适应私有数据。上篇文章大模型微调｜从原理到实践之lora(一)-CSDN博客照本宣科得讲述了该方法的优点和基本思路，本篇文章重点介绍为何低秩适配行之有效？以及它行之有效的数学原理。

根据SVD理解矩阵的秩

SVD（奇异值分解）能够将矩阵 M表示为两个矩阵的乘积，以一种分解的方式表达 M的信息量。即使 M 是高秩的，仍然可以被两个相乘的低秩矩阵近似。

对于实对称矩阵 $M$ （m×n）,SVD能够将该矩阵分解为

$M=USV^{T}$

其中 U 是 m 阶正交矩阵，V 是 n 阶正交矩阵， $S$ 是由降序排列的非负的对角线元素组成的 m × n 矩形对角矩阵。矩阵 $M$ 的秩等于 $S$ 对角线中非负元素的个数。

我们可以继续将上式等价变换为 $M=U\sqrt{S}\sqrt{S}V^{T}$ ,令 $A=U\sqrt{S}$ 、 $B=\sqrt{S}V^{T}$ ，则

$M=AB$

可以按下图理解该矩阵分解：

如下代码能够帮助你理解这种近似：

import torch

torch.manual_seed(13)
# Original matrix
M = torch.rand(4, 4)
# Perform Singular Value Decomposition
U, S, Vt = torch.svd(M)

print(f'矩阵M有{torch.count_nonzero(S)}个非负的奇异值')
print(f'矩阵M的秩为{torch.linalg.matrix_rank(M)}')

以上代码输出

如下图所示

当我们选取 $S$ 矩阵中top2的对角元素时，对应的 $U_{1}$ 、 $U_{2}$ 以及 $V_{1}$ 、 $V_{2}$ 组成的部分 $A$ 、部分 $B$ 相乘得到的矩阵能够近似 $M$ 矩阵。

# Rank r = 2 for low-rank approximation
# if we set r = 4, we reconstruct the same original matrix
r = 2
Ur = U[:, :r]
Sr = torch.diag(S[:r])
Vtr = Vt.t()[:r, :]

# Initialize A and B using the SVD components
A = torch.mm(Ur, torch.sqrt(Sr))
B = torch.mm(torch.sqrt(Sr), Vtr) #V transpose

# Approximate W from A and B
M_approx = torch.mm(A, B)

print("原始矩阵M:\n", M)
print("仅仅取top2方向的近似矩阵:\n", M_approx)
# print('原始矩阵和近似矩阵的差异\n', M-M_approx)