机器学习笔记(6)正则化讲解

1.文章内容

本文主要是为了讲解机器学习中正则化的内容,主要包括过拟合讲解,正则化抑制过拟合的数学推导等部分。再看本文内容之前,需要学习范数知识,范数知识传送门

2.过拟合

在这里插入图片描述
如上如所示,其中红色虚线,代表欠拟合。即根据数据拟合出来的模型不能完全反应数据的变化情况。该数学模型为:
在这里插入图片描述
绿色曲线代表拟合的情况正好可以反应数据的变化情况。该数学模型为:
在这里插入图片描述
蓝色曲线代表过拟合,过拟合将所有的数据都拟合在同一个曲线上,但是这样就会使拟合出来的曲线复杂。该数学模型为:
在这里插入图片描述
过拟合虽然可以将所有的数据拟合在一个精确模型中,在机器学习中,这种模型在训练集上得到的准确率也很高,但是在测试集上,其准确率不如第二种拟合结果。机器学习的目的是获得最好的参数w={w1 ,w2, w3⋯w_n }并让模型在训练集和测试集上均表现良好,当模型复杂时,w较多,会产生过拟合。为了降低模型的复杂度,需要适当的减少w。

3.数学理论部分

3.1 损失函数

------首先损失函数定义为:
在这里插入图片描述
其中f为预测值即为上文中提到的几个数学模型,y为实际值。从定义中可以看出,损失值越小,代表预测值与实际值最接近。模型就越好。
加入正则化项损失函数定义为:
在这里插入图片描述

3.2 损失函数与L-1正则化项的关系

------根据上文中关于过拟合的方程式可以看出来,减少w的个数,可以降低模型复杂度。即某些w为0,或者无限趋近0。将此条件以数学方式表示出来就是:
在这里插入图片描述
上式其实就是L-1范数。其中C代表任意常数。结合损失函数我们可以得到:
在这里插入图片描述
这个方程的意思是在L-1范数的条件下求L(W)的最小值。因此,我们使用高数中的拉格朗日乘数法进行求解,即:
在这里插入图片描述
根据高数中的拉格朗日解法:
在这里插入图片描述
可以求得最优解为,假设最优解为w*,α*,将最优解代入minL(w),得:
在这里插入图片描述
由于α* C是一个常数,因此我们可以得到:
在这里插入图片描述
即,最小损失函数和L-1范数呈现比例关系。以上即为L1正则化的过程,证明加入L1范数可以降低模型复杂度。

3.2 损失函数与L-2正则化项的关系

L-2正则化的推导过程与L-1类似,只是约束条件变为:
在这里插入图片描述
最终我们得到的比例关系为:
在这里插入图片描述

4.总结

通过以上的数学理论讲解,从数学原理上解释为什么加入正则化可以 抑制过拟合。其实,正则化就是求在某个条件下的损失函数最小值。

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值