机器学习笔记-10

listen聲

已于 2024-04-25 09:30:42 修改

阅读量1k

点赞数 9

分类专栏：机器学习文章标签：机器学习笔记人工智能

于 2024-04-18 17:34:58 首次发布

本文链接：https://blog.csdn.net/weixin_46081986/article/details/137778948

版权

机器学习专栏收录该内容

23 篇文章 1 订阅

订阅专栏

过拟合问题及其解决方法

在使用逻辑回归和线性回归算法过程中可能会出现过拟合问题。

1.过拟合问题

如果一个算法没有很好的拟合数据，偏差较大，那么称这个问题为欠拟合问题（underfitting）。如果一个算法能够拟合所有的数据但是具有高方差，变量过多而缺少足够的数据去约束，模型过度依赖数据而不能很好的应用于新的样本中，就会出现过拟合问题（overfitting）。

如下图分别是线性回归和逻辑回归的三种情况：第一列是欠拟合问题，第二列正好，第三列则是过拟合问题。

在这里插入图片描述

过拟合问题本质上就类似根据数据设计了一个算法，对于这些数据是拟合的但是其余的数据不能拟合，泛化的不好。

2.解决方法

当我们面对一维或二维数据时，我们一般通过绘制出假设模型的图像研究问题并选择合适的多项式阶数。

当过拟合问题发生时，有两个解决办法。

1.减少变量的个数

可以人工减少变量个数选取也可以使用模型选择算法（后续会讲）进行筛选。

但这种方法可能会舍去我们不想舍弃的条件。


2.正则化

不舍弃变量但是减少量级或者是参数的大小。这个方法在有很多特征量的时候会很有效，其中每个变量都会对预测值产生或大或小的影响。

3.正则化

在这里插入图片描述
如上图，第二个图出现过拟合问题，但是我们同时又不想减少参数的个数想要看到每一个参数对于预测值的影响从而得到更加精准的预测值该怎么办呢？这个时候就可以加入一个惩罚项。

正常的代价函数： $J(\theta)=min\frac{1}{2m}\sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})^2$

产生过拟合问题的假设函数是 $\theta_0+\theta_1x+\theta_2x^2+\theta_3x^3+\theta_4x^4$ ，但是我们又不想舍弃 $x_3$ 和 $x_4$ 这两个特征值，因此对这两个特征值的参数 $\theta_3、\theta_4$ 增加惩罚项。

此时的代价函数： $J(\theta)=\frac{1}{2m}\sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})^2+1000\theta_3^2+1000\theta_4^2$

1000取几都行，也就是后面说到的 $\lambda$ ，会讲到怎么取值。
我理解的 $\theta_3$ 和 $\theta_4$ 取平方的原因是为了防止求最小值让他俩是负无穷代价函数就是负的了。

此时想求得最小的代价 $min\frac{1}{2m}\sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})^2+1000\theta_3^2+1000\theta_4^2$
就需要让 $\theta_3^2$ 和 $\theta_4^2$ 最小，也就是接近于0。当 $\theta_3^2$ 和 $\theta_4^2$ 接近于0时 $\theta_3$ 和 $\theta_4$ 也就接近于0，假设函数 $\theta_0+\theta_1x+\theta_2x^2+\theta_3x^3+\theta_4x^4$ 就相当于 $\theta_0+\theta_1x+\theta_2x^2+$ 一个很小的数，做到了没有缩减特征值的数量又减小了出现过拟合问题的概率。这就是正则化。