对抗性训练(Adversarial training)

对抗性训练是一种优化模型参数的方法,通过在训练过程中引入扰动,使模型在面对轻微干扰时仍能保持高准确性。该方法涉及最大化扰动量和最小化平均损失,目标是增强模型在对抗性样本上的泛化性能。在实际操作中,扰动受到一定约束,以保证对人类视觉的不可辨识性。通过对抗性训练,可以提升深度学习模型在面对现实世界复杂情况时的鲁棒性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

对抗性训练最大最小化公式:
min ⁡ θ E ( x , y ) ∼ D [ max ⁡ Δ x ∈ Ω L ( x + Δ x , y ; θ ) ] \min_{\theta}\mathbb{E}_{(x,y)\sim\mathcal{D}}\left[\max_{\Delta x\in\Omega}L(x+\Delta x, y;\theta)\right] θminE(x,y)D[ΔxΩmaxL(x+Δx,y;θ)]

D \mathcal{D} D表示训练数据, x x x表示输入, y y y表示标签, θ \theta θ表示模型参数, L ( ⋅ ) L(·) L()表示损失函数, Δ x \Delta x Δx表示对抗扰动, Ω \Omega Ω表示扰动空间。

最大化和最小化的对象不同:

  • 最大化扰动量 max ⁡ Δ x \max{\Delta x} maxΔx
  • 最小化平均损失 min ⁡ E ( x , y ) L ( ⋅ ) \min{\mathbb{E}_{(x,y)}L(·)} minE(x,y)L()

最终目的:优化模型参数 θ \theta θ,提高DL模型的泛化性能。

对抗性训练过程如下:

  1. 向输入 x x x里中添加扰动 Δ x \Delta x Δx Δ x \Delta x Δx会使得模型无法得到正确的预测结果 y y y,即 f ( x + Δ x ) ≠ y f(x+\Delta x)≠y f(x+Δx)=y,从而依据损失函数产生相应损失值。其中 Δ x \Delta x Δx的值会被限制在扰动空间 Ω \Omega Ω内,如 ∥ Δ x ∥ ≤ ϵ \|\Delta x\| \leq \epsilon Δxϵ,确保输入样本对人来说无差别。
  2. 模型添加扰动后的输入为 x + Δ x x+\Delta x x+Δx,利用 ( x + Δ x , y ) (x+\Delta x,y) (x+Δx,y)来训练模型,更新模型参数 θ \theta θ来最小化训练数据的平均损失。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值