【持续学习（十）】Bayesian Parameter-Efficient Fine-Tuning for Overcoming Catastrophic Forgetting

最新推荐文章于 2024-06-13 14:57:09 发布

ZedKingCarry

最新推荐文章于 2024-06-13 14:57:09 发布

阅读量862

点赞数 19

分类专栏：持续学习高效微调大语言模型文章标签：学习机器学习深度学习

本文链接：https://blog.csdn.net/weixin_45225032/article/details/136318062

版权

大语言模型同时被 3 个专栏收录

16 篇文章 0 订阅

订阅专栏

持续学习

15 篇文章 3 订阅

订阅专栏

高效微调

5 篇文章 0 订阅

订阅专栏

一、论文信息

1 标题

Bayesian Parameter-Efficient Fine-Tuning for Overcoming Catastrophic Forgetting

2 作者

Haolin Chen, Philip N. Garner

3 研究机构

Idiap Research Institute, Switzerland

二、主要内容

这篇论文探讨了如何在参数高效的微调（PEFT）过程中克服灾难性遗忘问题。作者提出了一种基于贝叶斯学习的框架，通过在微调过程中保留预训练知识来解决这一问题。论文的核心是展示了现有的贝叶斯学习技术可以应用于PEFT，以防止灾难性遗忘，只要微调层的参数变化可以被可微分地计算。

三、相关研究

论文提到了Laplace近似、参数高效的微调技术（如LoRA）、以及在神经网络优化中的应用。同时，论文还讨论了EWC（Elastic Weight Consolidation）和KFAC（Kronecker Factored Approximation of the Hessian）等技术。

四、解决方案

作者提出了一种基于贝叶斯转移学习的框架，通过在微调过程中引入正则化项来保留预训练知识。这种方法允许在微调时优化模型参数的一个小子集，同时保持其他参数不变，从而显著降低计算和存储成本。论文中使用了LoRA技术，并比较了使用不同Laplace近似方法（包括对角和Kronecker分解方法）的性能。

贝叶斯转移学习的框架的数学理论

贝叶斯转移学习框架基于最大后验概率（MAP）估计，其目标是在给定微调数据的情况下找到最优参数，同时保留预训练模型的知识。在MAP估计中，后验概率可以表示为：

$p(\theta | D_A, D_B) = \frac{p(D_B | \theta, D_A) p(\theta | D_A)}{p(D_B | D_A)}$

其中， $D_A$ 是预训练数据， $D_B$ 是微调数据。第一项 $p(D_B | \theta)$ 是给定参数 $\theta$ 下数据 $D_B$ 的似然，第二项 $p(\theta | D_A)$ 是预训练数据 $D_A$ 下参数的后验概率。为了简化，可以假设 $D_A$ 和 $D_B$ 独立，并且 $p(D_B | D_A)$ 是常数，从而忽略它。后验概率最大化的目标可以转化为最小化以下损失函数：

$\theta^* = \arg \min_\theta L_B(\theta) - \lambda (\theta - \theta_0)^T F(\theta - \theta_0)$

其中， $L_B(\theta)$ 是任务 $B$ 的训练损失， $\lambda$ 是正则化强度， $F$ 是Fisher信息矩阵， $\theta_0$ 是预训练参数。通过这种方式，可以在微调过程中引入正则化项，以保留预训练模型的知识。

对角近似（Diagonal Approximation）的Hessian

对角近似是一种简化的Hessian矩阵估计方法，它只考虑每个参数的方差，忽略了参数之间的相互作用。在Elastic Weight Consolidation (EWC) 中，通过对预训练数据的梯度进行平方和平均来估计Fisher信息矩阵的对角元素。这种方法的损失函数可以表示为：

$L_{EWC}(\theta) = L_B(\theta) + \lambda F_{EWC}(\theta - \theta_0)^2$

其中， $F_{EWC}$ 是梯度平方的期望值。

Kronecker Factored Approximation of the Hessian

Kronecker分解近似是一种更精确的Hessian矩阵估计方法，它考虑了参数之间的相互作用。这种方法通过将Hessian矩阵的对角块（代表单个层内参数的相互作用）近似为两个较小矩阵的Kronecker积。这种方法的损失函数可以表示为：

$L_{KFAC}(\theta) = L_B(\theta) + \lambda \sum_{l=1}^{L} \text{vec}(\Delta W_l)^T F_{l, \text{KFAC}} \text{vec}(\Delta W_l)$

其中， $\Delta W_l$ 是第 $l$ 层的权重变化， $F_{l, \text{KFAC}}$ 是Kronecker分解后的Fisher信息矩阵。

BAYESIAN PEFT

贝叶斯参数高效微调（BAYESIAN PEFT）是将贝叶斯转移学习框架应用于PEFT技术的统一方法。它允许在微调过程中通过可微分的方式修改预训练模型的权重。BAYESIAN PEFT的损失函数可以表示为：

$L_{PEFT}(\theta) = L_B(\theta) + \lambda \sum_{l=1}^{L} \text{vec}(\Delta W_l)^T F_l \text{vec}(\Delta W_l)$

其中， $\Delta W_l$ 是微调层的参数变化， $F_l$ 是相应层的Fisher信息矩阵。

这些数学理论为微调大型预训练模型提供了一种新的方法，可以在保留预训练知识的同时提高微调性能。通过实验，作者证明了这些方法在语言建模和语音合成任务中的有效性。

五、实验环节

论文在语言建模和语音合成任务上进行了一系列的实验。在语言建模任务中，使用了文本分类和因果语言建模任务来定量评估技术的效果。在语音合成任务中，微调了一个预训练的零样本语音合成器以适应新的说话者，并在目标说话者和其他领域外（OOD）说话者上评估了说话者相似性。

六、进一步探索点：

论文指出，当前的工作限制在于：1) 不能应用于添加新组件到模型的PEFT技术；2) 仅在预训练数据至少部分可访问时才可行；3) 由于无法访问这些模型和硬件限制，尚未在更大的（TTS）模型上验证其有效性。作者希望在未来能够对更大的TTS模型进行评估。

七、总结

论文提出了一种新的贝叶斯参数高效微调方法，用于解决在微调大型预训练模型时出现的灾难性遗忘问题。通过在微调过程中保留预训练知识，作者的方法在不降低微调性能的同时，成功克服了灾难性遗忘。实验结果表明，使用Kronecker分解近似的Hessian比对角近似提供了更有效的预训练知识保留和更好的微调性能。尽管存在一些限制，但这项工作为未来在更大模型上的应用提供了有价值的见解。

ZedKingCarry

关注

19
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
【持续学习（十）】Bayesian Parameter-Efficient Fine-Tuning for Overcoming Catastrophic Forgetting

论文提出了一种新的贝叶斯参数高效微调方法，用于解决在微调大型预训练模型时出现的灾难性遗忘问题。通过在微调过程中保留预训练知识，作者的方法在不降低微调性能的同时，成功克服了灾难性遗忘。实验结果表明，使用Kronecker分解近似的Hessian比对角近似提供了更有效的预训练知识保留和更好的微调性能。尽管存在一些限制，但这项工作为未来在更大模型上的应用提供了有价值的见解。
复制链接

扫一扫