对于L2 Regulation 和 Weight Decay,假设原来的损失函数是 f f f,
对于有Weight Decay的参数更新规则如下:
θ
t
+
1
=
θ
t
−
α
∇
f
t
(
θ
t
)
−
λ
θ
t
,
\theta_{t+1}=\theta_{t}-\alpha \nabla f_{t}\left(\theta_{t}\right)-\lambda \theta_{t},
θt+1=θt−α∇ft(θt)−λθt,
其中
λ
\lambda
λ是权值衰减的系数,
α
\alpha
α是学习率。
对于有L2 Regulation的参数更新规则如下:
θ
t
+
1
=
θ
t
−
α
∇
f
(
θ
t
)
−
α
λ
′
θ
t
,
\theta_{t+1}=\theta_{t}-\alpha \nabla_{f}\left(\theta_{t}\right)- \alpha\lambda^{\prime} \theta_{t},
θt+1=θt−α∇f(θt)−αλ′θt,
其中
λ
′
\lambda^{\prime}
λ′是L2正则的系数。
可见,只有当 λ = α λ ′ \lambda=\alpha\lambda^{\prime} λ=αλ′,即 λ ′ = λ / α \lambda^{\prime}=\lambda/\alpha λ′=λ/α时,L2 Regulation 和 Weight Decay在数值上才是完全等价的。