权重衰减(weight decay)的理解及Tensorflow的实现
- 概要
- 公式解析
- 为什么会起作用
- Tensorflow的实现
1.概要:
权重衰减即L2正则化,目的是通过在Loss函数后加一个正则化项,通过使权重减小的方式,一定减少模型过拟合的问题。
2.公式解析:
L2正则化的公式如图;
其中 C0 是原来并没有使用L2正则化时的损失函数,比如交叉熵函数等;
后面的:
这一项是正则化项,即计算权重矩阵w的所有项的平方和÷2n,然后× λ(也叫正则化系数),作为最终Loss函数的一项参与梯度下降;这样的话我们在训练的反向传播过程中,得到的权重w就会尽可能小,从而一定程度上减小了模型的复杂度,从而一定程