正则化
目的:抑制模型过拟合;
手段:权重衰减;Dropout;
神经网络学习的目的:减少损失函数的值
为损失函数加上权重的平方范数——训练过程中减少损失函数的值——减少权重的值
目的:抑制权重过大
L2范数:1/2å(W^2)
å:控制正则化强度的超参数 设置的越大,对权重施加的惩罚越重
对于所有权重,权值衰减的方法:为损失函数加上1/2å(w^2)
在计算权重梯度的时候,(对损失函数求导寻找其下降最快的方向) 【1/2å(w^2)】‘ = åW
即对结果加上了正则化的导数åW
L2范数相当于各个元素的平方和,对于权重W(w1,w2,w3…wn)
L2范数:sqrt(w12+w22+…+wn^2)
L1范数:各个元素的绝对值之和:|w1|+|w2|+…|wn|
L∞范数:Max范数:各个元素中绝对值最大的那个
常用的正则化项是L2范数
权值衰减——抑制过拟合
复杂的模型:Dropout 学习的过程中随机删除神经元