对抗性训练最大最小化公式:
min
θ
E
(
x
,
y
)
∼
D
[
max
Δ
x
∈
Ω
L
(
x
+
Δ
x
,
y
;
θ
)
]
\min_{\theta}\mathbb{E}_{(x,y)\sim\mathcal{D}}\left[\max_{\Delta x\in\Omega}L(x+\Delta x, y;\theta)\right]
θminE(x,y)∼D[Δx∈ΩmaxL(x+Δx,y;θ)]
D \mathcal{D} D表示训练数据, x x x表示输入, y y y表示标签, θ \theta θ表示模型参数, L ( ⋅ ) L(·) L(⋅)表示损失函数, Δ x \Delta x Δx表示对抗扰动, Ω \Omega Ω表示扰动空间。
最大化和最小化的对象不同:
- 最大化扰动量 max Δ x \max{\Delta x} maxΔx
- 最小化平均损失 min E ( x , y ) L ( ⋅ ) \min{\mathbb{E}_{(x,y)}L(·)} minE(x,y)L(⋅)
最终目的:优化模型参数 θ \theta θ,提高DL模型的泛化性能。
对抗性训练过程如下:
- 向输入 x x x里中添加扰动 Δ x \Delta x Δx, Δ x \Delta x Δx会使得模型无法得到正确的预测结果 y y y,即 f ( x + Δ x ) ≠ y f(x+\Delta x)≠y f(x+Δx)=y,从而依据损失函数产生相应损失值。其中 Δ x \Delta x Δx的值会被限制在扰动空间 Ω \Omega Ω内,如 ∥ Δ x ∥ ≤ ϵ \|\Delta x\| \leq \epsilon ∥Δx∥≤ϵ,确保输入样本对人来说无差别。
- 模型添加扰动后的输入为 x + Δ x x+\Delta x x+Δx,利用 ( x + Δ x , y ) (x+\Delta x,y) (x+Δx,y)来训练模型,更新模型参数 θ \theta θ来最小化训练数据的平均损失。