【持续学习(十)】Bayesian Parameter-Efficient Fine-Tuning for Overcoming Catastrophic Forgetting

一、论文信息

1 标题

Bayesian Parameter-Efficient Fine-Tuning for Overcoming Catastrophic Forgetting

2 作者

Haolin Chen, Philip N. Garner

3 研究机构

Idiap Research Institute, Switzerland

二、主要内容

这篇论文探讨了如何在参数高效的微调(PEFT)过程中克服灾难性遗忘问题。作者提出了一种基于贝叶斯学习的框架,通过在微调过程中保留预训练知识来解决这一问题。论文的核心是展示了现有的贝叶斯学习技术可以应用于PEFT,以防止灾难性遗忘,只要微调层的参数变化可以被可微分地计算。

三、相关研究

论文提到了Laplace近似、参数高效的微调技术(如LoRA)、以及在神经网络优化中的应用。同时,论文还讨论了EWC(Elastic Weight Consolidation)和KFAC(Kronecker Factored Approximation of the Hessian)等技术。

四、解决方案

作者提出了一种基于贝叶斯转移学习的框架,通过在微调过程中引入正则化项来保留预训练知识。这种方法允许在微调时优化模型参数的一个小子集,同时保持其他参数不变,从而显著降低计算和存储成本。论文中使用了LoRA技术,并比较了使用不同Laplace近似方法(包括对角和Kronecker分解方法)的性能。

贝叶斯转移学习的框架的数学理论

贝叶斯转移学习框架基于最大后验概率(MAP)估计,其目标是在给定微调数据的情况下找到最优参数,同时保留预训练模型的知识。在MAP估计中,后验概率可以表示为:

p ( θ ∣ D A , D B ) = p ( D B ∣ θ , D A ) p ( θ ∣ D A ) p ( D B ∣ D A ) p(\theta | D_A, D_B) = \frac{p(D_B | \theta, D_A) p(\theta | D_A)}{p(D_B | D_A)} p(θDA,DB)=p(DBDA)p(DBθ,DA)p(θDA)

其中, D A D_A DA 是预训练数据, D B D_B DB 是微调数据。第一项 p ( D B ∣ θ ) p(D_B | \theta) p(DBθ) 是给定参数 θ \theta θ 下数据 D B D_B DB 的似然,第二项 p ( θ ∣ D A ) p(\theta | D_A) p(θDA) 是预训练数据 D A D_A DA 下参数的后验概率。为了简化,可以假设 D A D_A DA D B D_B DB 独立,并且 p ( D B ∣ D A ) p(D_B | D_A) p(DBDA) 是常数,从而忽略它。后验概率最大化的目标可以转化为最小化以下损失函数:

θ ∗ = arg ⁡ min ⁡ θ L B ( θ ) − λ ( θ − θ 0 ) T F ( θ − θ 0 ) \theta^* = \arg \min_\theta L_B(\theta) - \lambda (\theta - \theta_0)^T F(\theta - \theta_0) θ=argminθLB(θ)λ(θθ0)TF(θθ0)

其中, L B ( θ ) L_B(\theta) LB(θ) 是任务 B B B 的训练损失, λ \lambda λ 是正则化强度, F F F 是Fisher信息矩阵, θ 0 \theta_0 θ0 是预训练参数。通过这种方式,可以在微调过程中引入正则化项,以保留预训练模型的知识。

对角近似(Diagonal Approximation)的Hessian

对角近似是一种简化的Hessian矩阵估计方法,它只考虑每个参数的方差,忽略了参数之间的相互作用。在Elastic Weight Consolidation (EWC) 中,通过对预训练数据的梯度进行平方和平均来估计Fisher信息矩阵的对角元素。这种方法的损失函数可以表示为:

L E W C ( θ ) = L B ( θ ) + λ F E W C ( θ − θ 0 ) 2 L_{EWC}(\theta) = L_B(\theta) + \lambda F_{EWC}(\theta - \theta_0)^2 LEWC(θ)=LB(θ)+λFEWC(θθ0)2

其中, F E W C F_{EWC} FEWC 是梯度平方的期望值。

Kronecker Factored Approximation of the Hessian

Kronecker分解近似是一种更精确的Hessian矩阵估计方法,它考虑了参数之间的相互作用。这种方法通过将Hessian矩阵的对角块(代表单个层内参数的相互作用)近似为两个较小矩阵的Kronecker积。这种方法的损失函数可以表示为:

L K F A C ( θ ) = L B ( θ ) + λ ∑ l = 1 L vec ( Δ W l ) T F l , KFAC vec ( Δ W l ) L_{KFAC}(\theta) = L_B(\theta) + \lambda \sum_{l=1}^{L} \text{vec}(\Delta W_l)^T F_{l, \text{KFAC}} \text{vec}(\Delta W_l) LKFAC(θ)=LB(θ)+λl=1Lvec(ΔWl)TFl,KFACvec(ΔWl)

其中, Δ W l \Delta W_l ΔWl 是第 l l l 层的权重变化, F l , KFAC F_{l, \text{KFAC}} Fl,KFAC 是Kronecker分解后的Fisher信息矩阵。

BAYESIAN PEFT

贝叶斯参数高效微调(BAYESIAN PEFT)是将贝叶斯转移学习框架应用于PEFT技术的统一方法。它允许在微调过程中通过可微分的方式修改预训练模型的权重。BAYESIAN PEFT的损失函数可以表示为:

L P E F T ( θ ) = L B ( θ ) + λ ∑ l = 1 L vec ( Δ W l ) T F l vec ( Δ W l ) L_{PEFT}(\theta) = L_B(\theta) + \lambda \sum_{l=1}^{L} \text{vec}(\Delta W_l)^T F_l \text{vec}(\Delta W_l) LPEFT(θ)=LB(θ)+λl=1Lvec(ΔWl)TFlvec(ΔWl)

其中, Δ W l \Delta W_l ΔWl 是微调层的参数变化, F l F_l Fl 是相应层的Fisher信息矩阵。

这些数学理论为微调大型预训练模型提供了一种新的方法,可以在保留预训练知识的同时提高微调性能。通过实验,作者证明了这些方法在语言建模和语音合成任务中的有效性。

五、实验环节

论文在语言建模和语音合成任务上进行了一系列的实验。在语言建模任务中,使用了文本分类和因果语言建模任务来定量评估技术的效果。在语音合成任务中,微调了一个预训练的零样本语音合成器以适应新的说话者,并在目标说话者和其他领域外(OOD)说话者上评估了说话者相似性。

六、进一步探索点:

论文指出,当前的工作限制在于:1) 不能应用于添加新组件到模型的PEFT技术;2) 仅在预训练数据至少部分可访问时才可行;3) 由于无法访问这些模型和硬件限制,尚未在更大的(TTS)模型上验证其有效性。作者希望在未来能够对更大的TTS模型进行评估。

七、总结

论文提出了一种新的贝叶斯参数高效微调方法,用于解决在微调大型预训练模型时出现的灾难性遗忘问题。通过在微调过程中保留预训练知识,作者的方法在不降低微调性能的同时,成功克服了灾难性遗忘。实验结果表明,使用Kronecker分解近似的Hessian比对角近似提供了更有效的预训练知识保留和更好的微调性能。尽管存在一些限制,但这项工作为未来在更大模型上的应用提供了有价值的见解。

  • 19
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值