机器学习笔记（6）正则化讲解

最新推荐文章于 2024-05-03 18:33:33 发布

开门儿大弟子

最新推荐文章于 2024-05-03 18:33:33 发布

阅读量270

点赞数 2

分类专栏：机器学习

本文链接：https://blog.csdn.net/weixin_45718019/article/details/106021974

版权

机器学习专栏收录该内容

16 篇文章 5 订阅

订阅专栏

1.文章内容

本文主要是为了讲解机器学习中正则化的内容，主要包括过拟合讲解，正则化抑制过拟合的数学推导等部分。再看本文内容之前，需要学习范数知识，范数知识传送门。

2.过拟合

在这里插入图片描述
如上如所示，其中红色虚线，代表欠拟合。即根据数据拟合出来的模型不能完全反应数据的变化情况。该数学模型为：

绿色曲线代表拟合的情况正好可以反应数据的变化情况。该数学模型为：

蓝色曲线代表过拟合，过拟合将所有的数据都拟合在同一个曲线上，但是这样就会使拟合出来的曲线复杂。该数学模型为：
在这里插入图片描述
过拟合虽然可以将所有的数据拟合在一个精确模型中，在机器学习中，这种模型在训练集上得到的准确率也很高，但是在测试集上，其准确率不如第二种拟合结果。机器学习的目的是获得最好的参数w={w1 ,w2, w3⋯w_n }并让模型在训练集和测试集上均表现良好，当模型复杂时，w较多，会产生过拟合。为了降低模型的复杂度，需要适当的减少w。

3.数学理论部分

3.1 损失函数

------首先损失函数定义为：
在这里插入图片描述
其中f为预测值即为上文中提到的几个数学模型，y为实际值。从定义中可以看出，损失值越小，代表预测值与实际值最接近。模型就越好。
加入正则化项损失函数定义为：

3.2 损失函数与L-1正则化项的关系

------根据上文中关于过拟合的方程式可以看出来，减少w的个数，可以降低模型复杂度。即某些w为0，或者无限趋近0。将此条件以数学方式表示出来就是：
在这里插入图片描述
上式其实就是L-1范数。其中C代表任意常数。结合损失函数我们可以得到：

这个方程的意思是在L-1范数的条件下求L(W)的最小值。因此，我们使用高数中的拉格朗日乘数法进行求解，即：

根据高数中的拉格朗日解法：
在这里插入图片描述
可以求得最优解为，假设最优解为w*,α*,将最优解代入minL(w)，得：

由于α* C是一个常数，因此我们可以得到：

即，最小损失函数和L-1范数呈现比例关系。以上即为L1正则化的过程，证明加入L1范数可以降低模型复杂度。

3.2 损失函数与L-2正则化项的关系

L-2正则化的推导过程与L-1类似，只是约束条件变为：
在这里插入图片描述
最终我们得到的比例关系为：

4.总结

通过以上的数学理论讲解，从数学原理上解释为什么加入正则化可以抑制过拟合。其实，正则化就是求在某个条件下的损失函数最小值。

开门儿大弟子

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习笔记（6）正则化讲解

1.文章内容本文主要是为了讲解机器学习中正则化的内容，主要包括过拟合讲解，正则化抑制过拟合的数学推导等部分。再看本文内容之前，需要学习范数知识。2.过拟合如上如所示，其中红色虚线，代表欠拟合。即根据数据拟合出来的模型不能完全反应数据的变化情况。该数学模型为：绿色曲线代表拟合的情况正好可以反应数据的变化情况。该数学模型为：蓝色曲线代表过拟合，过拟合将所有的数据都拟合在同一个曲线上，但是这样就会使拟合出来的曲线复杂。该数学模型为：过拟合虽然可以将所有的数据拟合在一个精确模型中，在机器学习中，
复制链接

扫一扫

专栏目录