第一部分:解决的社会问题
随着预训练语言模型变得更大,传统的微调方法需要重新训练所有模型参数,导致计算资源和存储开销极大。
提出了一个叫做 低秩适配(Low-Rank Adaptation, LoRA) 的方法,用于减少训练超大规模预训练语言模型(例如GPT-3)的参数开销
第二部分:核心思想
低秩适配的工作机制 是:
冻结预训练模型的权重(不更新这些权重),并向Transformer架构中的每一层注入可训练的低秩分解矩阵。这些低秩矩阵能够以较小的参数规模对模型进行调整,而无需对整个模型参数进行微调。
核心思想:在 Transformer 层的权重矩阵中引入低秩分解,将更新矩阵 Δ𝑊表示为 𝐵⋅𝐴,其中 𝐴 和 𝐵 是小规模的可训练矩阵。
适配 Transformer 结构:LoRA 主要对 Transformer 的注意力机制权重(如 𝑊𝑞和
𝑊𝑣)进行更新,而不是更新所有参数。
LoRA方法的核心机制:</