深层的神经网络往往会出现过拟合的现象,而浅层的神经网络又不能满足我们的要求。利用正则化,我们可以在不太影响偏差的基础上减少方差,更好的使用深层神经网络。
这里直观理解正则化的作用、介绍两种课上提到的正则化方法以及介绍正则化输入:
L2正则化
在原先损失函数的基础上加上lambda*||w||22/(2m),即
这里面L2范数的平方||w||22就是w中各项元素的平方和,lambda是一个超参数。
直观来看,此时为了让损失函数变小,我们的w就不能太大,就会出现很多节点的w值接近0。
第一种直观理解是,当w趋近0时,很多节点相当于不存在,这样相当于减少了节点个数,从而降低了深层神经网络过分强的性能。
另一种直观理解时,当w趋近0时,以tanh为例
激活函数倾向于中间的线性的一段,而通过之前的知识可知,线性激活函数会大大降低神经网络性能(整个网络趋于线性)。
在我看来,当发生过拟合时,往往回出现那种局部突起: