正则化
两种形式
正则化分为两种形式L1正则化和L2正则化。
L1正则化计算公式如下:
L2正则化计算公式如下:
上面的两种正则化函数都是用来刻画模型的复杂程度,在优化损失时,优化的是J(θ)+λR(w),λ表示模型复杂度在总损失中所占的比例。
基本思想
正则化的基本思想是通过限制权重的大小,使模型不能任意模拟训练数据的噪音。
Dropout
Dropout说的简单一点就是:我们在前向传播的时候,让某个神经元的激活值以一定的概率p停止工作,这样可以使模型泛化性更强,因为它不会太依赖某些局部的特征,如下图所示。
随机去掉不同的隐藏神经元就类似在训练不同的网络,整个dropout过程就相当于对很多个不同的神经网络取平均。而不同的网络产生不同的过拟合,一些互为“反向”的拟合相互抵消就可以达到整体上减少过拟合。