以下我自己学习后所得出的一些结论,若有错误敬请斧正。
正则化为什么可以缓解过拟合问题?
首先了解到,过拟合问题是因为训练过多导致模型过于复杂,从而只能适应训练集不能使用到测试集上。正则化一言蔽之就是让后面训练的权重降低,越靠后的epoch所能改变的越少。使得对模型的改变有限从而避免过拟合。
正则化如何使模型越训练所能改变的参数越小?
我们要理解cost函数,为了让这个函数越来越小是训练模型的准则。正则化就是通过这个函数入手,在原本的cost函数后加上f函数的参数平方和。(图借用吴恩达老师的图)
这样使得每次Wj更新都从图2变为图3(依旧是借的吴恩达老师的公式)
图2
图3
显而易见,每次梯度下降中Wj都会缩小一点点,这就是正则化的工作原理。