在lora里矩阵A为什么要用随机高斯分布

最新推荐文章于 2024-10-12 22:00:00 发布

yxx122345

最新推荐文章于 2024-10-12 22:00:00 发布

阅读量1k

点赞数 22

文章标签：矩阵线性代数

本文链接：https://blog.csdn.net/yxx122345/article/details/142056197

版权

在 LoRA（Low-Rank Adaptation）中，矩阵 A 是用来对大模型的权重进行低秩近似的。使用高斯分布随机初始化矩阵 A 是为了提供一种合理的初始值，使得模型能够更快地学习到合适的参数。

具体原因有以下几点：

避免对称性问题：如果矩阵 A 使用零值或某种对称的初始化，可能会导致训练过程中模型无法有效地打破对称性，导致参数无法充分更新。随机高斯分布可以帮助打破这种对称性，使得各个权重可以独立更新。
良好的收敛性：随机高斯分布初始化能够为模型提供较好的初始点，避免陷入梯度消失或梯度爆炸的情况。通常在深度学习中，使用高斯分布随机初始化是为了确保梯度的合理传播。
理论支持：高斯分布在统计上具有良好的性质，其均值为零，方差可控，适合模型进行有效的训练，并且高斯分布可以为初始参数提供均衡的探索空间，使得模型在训练早期更容易找到合适的方向。

因此，矩阵 A 在 LoRA 中采用高斯分布随机初始化，是为了确保训练的稳定性和收敛性，并提供合理的参数探索起点。

什么是随机高斯分布

随机高斯分布，又称为正态分布，是概率论和统计学中非常重要的一种连续概率分布。它描述了一种对称的分布形状，数值集中在均值附近，并且越远离均值，出现的概率越小。

在这里插入图片描述

高斯分布在实际中广泛应用，如在深度学习中用作权重初始化，统计数据分析中常用于描述自然现象的数据分布等。

随机高斯分布就是在一个随机变量服从高斯分布的情况下，生成随机样本。

随机高斯分布就是在正态分布曲线上随机选一个点吗？

是的，随机高斯分布可以理解为在正态分布曲线上根据其概率密度函数生成随机数，或者说“随机选取一个点”。具体来说，就是按照正态分布的概率密度，随机采样一个值。

正态分布（或高斯分布）的概率密度函数呈现为钟形曲线，表示某个值在该分布中出现的概率。曲线中心的点（即均值附近的点）有较高的概率，越远离中心的点概率越低。
当我们说从随机高斯分布中“随机选一个点”，意思是按照该正态分布的概率特性来生成一个随机值——均值附近的值有较大的可能性被生成，而远离均值的值被生成的概率较小。