一、论文信息
1 标题
Bayesian Parameter-Efficient Fine-Tuning for Overcoming Catastrophic Forgetting
2 作者
Haolin Chen, Philip N. Garner
3 研究机构
Idiap Research Institute, Switzerland
二、主要内容
这篇论文探讨了如何在参数高效的微调(PEFT)过程中克服灾难性遗忘问题。作者提出了一种基于贝叶斯学习的框架,通过在微调过程中保留预训练知识来解决这一问题。论文的核心是展示了现有的贝叶斯学习技术可以应用于PEFT,以防止灾难性遗忘,只要微调层的参数变化可以被可微分地计算。
三、相关研究
论文提到了Laplace近似、参数高效的微调技术(如LoRA)、以及在神经网络优化中的应用。同时,论文还讨论了EWC(Elastic Weight Consolidation)和KFAC(Kronecker Factored Approximation of the Hessian)等技术。
四、解决方案
作者提出了一种基于贝叶斯转移学习的框架,通过在微调过程中引入正则化项来保留预训练知识。这种方法允许在微调时优化模型参数的一个小子集,同时保持其他参数不变,从而显著降低计算和存储成本。论文中使用了LoRA技术,并比较了使用不同Laplace近似方法(包括对角和Kronecker分解方法)的性能。
贝叶斯转移学习的框架的数学理论
贝叶斯转移学习框架基于最大后验概率(MAP)估计,其目标是在给定微调数据的情况下找到最优参数,同时保留预训练模型的知识。在MAP估计中,后验概率可以表示为:
p ( θ ∣ D A , D B ) = p ( D B ∣ θ , D A ) p ( θ ∣ D A ) p ( D B ∣ D A ) p(\theta | D_A, D_B) = \frac{p(D_B | \theta, D_A) p(\theta | D_A)}{p(D_B | D_A)} p(θ∣DA,DB)=p(DB∣DA)p(DB∣θ,DA)p(θ∣DA)
其中, D A D_A DA 是预训练数据, D B D_B DB 是微调数据。第一项 p ( D B ∣ θ ) p(D_B | \theta) p(DB∣θ) 是给定参数 θ \theta θ 下数据 D B D_B DB 的似然,第二项 p ( θ ∣ D A ) p(\theta | D_A) p(θ∣DA) 是预训练数据 D A D_A DA 下参数的后验概率。为了简化,可以假设 D A D_A DA 和 D B D_B DB 独立,并且 p ( D B ∣ D A ) p(D_B | D_A) p(DB∣DA) 是常数,从而忽略它。后验概率最大化的目标可以转化为最小化以下损失函数:
θ ∗ = arg min θ L B ( θ ) − λ ( θ − θ 0 ) T F ( θ − θ 0 ) \theta^* = \arg \min_\theta L_B(\theta) - \lambda (\theta - \theta_0)^T F(\theta - \theta_0) θ∗=argminθLB(θ)−λ(θ−θ0)TF(θ−θ0)
其中, L B ( θ ) L_B(\theta) LB(θ) 是任务 B B B 的训练损失, λ \lambda λ 是正则化强度, F F F 是Fisher信息矩阵, θ 0 \theta_0 θ0 是预训练参数。通过这种方式,可以在微调过程中引入正则化项,以保留预训练模型的知识。
对角近似(Diagonal Approximation)的Hessian
对角近似是一种简化的Hessian矩阵估计方法,它只考虑每个参数的方差,忽略了参数之间的相互作用。在Elastic Weight Consolidation (EWC) 中,通过对预训练数据的梯度进行平方和平均来估计Fisher信息矩阵的对角元素。这种方法的损失函数可以表示为:
L E W C ( θ ) = L B ( θ ) + λ F E W C ( θ − θ 0 ) 2 L_{EWC}(\theta) = L_B(\theta) + \lambda F_{EWC}(\theta - \theta_0)^2 LEWC(θ)=LB(θ)+λFEWC(θ−θ0)2
其中, F E W C F_{EWC} FEWC 是梯度平方的期望值。
Kronecker Factored Approximation of the Hessian
Kronecker分解近似是一种更精确的Hessian矩阵估计方法,它考虑了参数之间的相互作用。这种方法通过将Hessian矩阵的对角块(代表单个层内参数的相互作用)近似为两个较小矩阵的Kronecker积。这种方法的损失函数可以表示为:
L K F A C ( θ ) = L B ( θ ) + λ ∑ l = 1 L vec ( Δ W l ) T F l , KFAC vec ( Δ W l ) L_{KFAC}(\theta) = L_B(\theta) + \lambda \sum_{l=1}^{L} \text{vec}(\Delta W_l)^T F_{l, \text{KFAC}} \text{vec}(\Delta W_l) LKFAC(θ)=LB(θ)+λ∑l=1Lvec(ΔWl)TFl,KFACvec(ΔWl)
其中, Δ W l \Delta W_l ΔWl 是第 l l l 层的权重变化, F l , KFAC F_{l, \text{KFAC}} Fl,KFAC 是Kronecker分解后的Fisher信息矩阵。
BAYESIAN PEFT
贝叶斯参数高效微调(BAYESIAN PEFT)是将贝叶斯转移学习框架应用于PEFT技术的统一方法。它允许在微调过程中通过可微分的方式修改预训练模型的权重。BAYESIAN PEFT的损失函数可以表示为:
L P E F T ( θ ) = L B ( θ ) + λ ∑ l = 1 L vec ( Δ W l ) T F l vec ( Δ W l ) L_{PEFT}(\theta) = L_B(\theta) + \lambda \sum_{l=1}^{L} \text{vec}(\Delta W_l)^T F_l \text{vec}(\Delta W_l) LPEFT(θ)=LB(θ)+λ∑l=1Lvec(ΔWl)TFlvec(ΔWl)
其中, Δ W l \Delta W_l ΔWl 是微调层的参数变化, F l F_l Fl 是相应层的Fisher信息矩阵。
这些数学理论为微调大型预训练模型提供了一种新的方法,可以在保留预训练知识的同时提高微调性能。通过实验,作者证明了这些方法在语言建模和语音合成任务中的有效性。
五、实验环节
论文在语言建模和语音合成任务上进行了一系列的实验。在语言建模任务中,使用了文本分类和因果语言建模任务来定量评估技术的效果。在语音合成任务中,微调了一个预训练的零样本语音合成器以适应新的说话者,并在目标说话者和其他领域外(OOD)说话者上评估了说话者相似性。
六、进一步探索点:
论文指出,当前的工作限制在于:1) 不能应用于添加新组件到模型的PEFT技术;2) 仅在预训练数据至少部分可访问时才可行;3) 由于无法访问这些模型和硬件限制,尚未在更大的(TTS)模型上验证其有效性。作者希望在未来能够对更大的TTS模型进行评估。
七、总结
论文提出了一种新的贝叶斯参数高效微调方法,用于解决在微调大型预训练模型时出现的灾难性遗忘问题。通过在微调过程中保留预训练知识,作者的方法在不降低微调性能的同时,成功克服了灾难性遗忘。实验结果表明,使用Kronecker分解近似的Hessian比对角近似提供了更有效的预训练知识保留和更好的微调性能。尽管存在一些限制,但这项工作为未来在更大模型上的应用提供了有价值的见解。