机器学习-吴恩达过拟合问题与正则化

最新推荐文章于 2024-08-05 20:31:58 发布

稀奇_

最新推荐文章于 2024-08-05 20:31:58 发布

阅读量236

点赞数

分类专栏：机器学习文章标签：机器学习人工智能 python

本文链接：https://blog.csdn.net/zxq1_/article/details/126137267

版权

机器学习专栏收录该内容

6 篇文章 4 订阅

订阅专栏

本文深入探讨了机器学习中的过拟合问题，解释了欠拟合、高偏差和高方差的概念。介绍了如何通过收集更多数据、特征选择和正则化来防止过拟合。正则化通过添加惩罚项来调整模型参数，以降低过拟合风险，同时保持模型的泛化能力。文章还讨论了正则化参数λ的作用，以及如何在线性回归和逻辑回归中应用正则化。

摘要由CSDN通过智能技术生成

过拟合问题

现在我们来认识什么是：欠拟合，过拟合

欠拟合

我们使用线性回归函数预测下面这张图中的数据，我们发现它并没有很好地拟合到数据上，这就叫做欠拟合（underfit），或者叫做高偏差（high bias）。

在这里插入图片描述
分类问题举例：

在这里插入图片描述

过拟合

当我们选择了一个函数，它完全拟合了训练数据。比如说下图，我们采用了多项式函数：

在这里插入图片描述
虽然上图中的函数完全拟合了所有数据点，但是却没有办法很好的预测新的数据，这种情况我们成为：过拟合（overfit），或者叫做高方差（high variance）。

分类问题举例：
在这里插入图片描述

高偏差和高方差

偏差：说人话就是模型预测出的点和测试数据点的距离，可以用来形容这个模型的预测能力。
方差：指的是模型的预测值的变化范围，离散程度。可以用来表示模型的泛化能力：方差越大，预测出来的数据的分布越散，泛化能力越差；方差越小，模型的泛化能力越强。

泛化

选择合适的函数是很重要的，当它很好的拟合到数据上的时候，我们就认为它有很好的泛化能力（genelization）。指的是：模型依据训练时采用的数据，对新出现的数据做出正确预测的能力。
在这里插入图片描述

分类问题举例：

在这里插入图片描述

解决过拟合

1. 收集更多的训练数据

这个方法非常简单直观：
在这里插入图片描述

2. 减少或增加选择的特征

大部分时候我们没有办法获得更多的训练数据，那么我们就可以选择更多或者更少的特征。
举个例子：
现在我们要预测一个房子的价格，并有一百个特征可以选择：
在这里插入图片描述
如果我们选择全部的特征，那么就会有很多无效的数据，会使得我们的函数非常复杂，导致过拟合问题：

但如果我们只选择一些重要的特征，那么可能就会更好的拟合我们的数据：（在后面的课程中会学习到一些自动选择最合适的特征用于预测任务的算法）
在这里插入图片描述

缺点： 但这有可能造成一些有用的特征被丢掉

3. 正则化

当我们发现我们的模型过拟合的时候，我们尝试减少特征的选择，但是我们发现这可能导致有用的特征被丢弃：
在这里插入图片描述
这个时候我们可以使用正则化：也就是把我们想要丢弃的特征（在这里我们假设是x3和x4）的w值设为非常小的值，这样我们即保留了特征，又不会让这个特征对整个模型造成过大的影响，导致过拟合：

正则化

正则化代价函数

现在我们已经知道，正则化的主要思想就是：通过减小w的值在不丢失特征的同时避免过拟合的产生。

举个例子：

在这里插入图片描述
我们在上图中看见，如果我们想要右边的图变得比较像左边的图并且不丢弃x3和x4的话，我们就要让w3和w4的值变得很小

那么如何减小w的值呢？

让我们先看看原来的代价函数：
在这里插入图片描述
这个原来的代价函数能够使用梯度下降法来让它达到最小，但不能解决它可能过拟合的问题（也就是不能让w3和w4变小），所以我们要给它增加两个惩罚项（也叫正则化项 regularization term）：

我刚刚看到上面的函数的时候非常疑惑，为什么给w3和w4乘上1000，它们俩反而会变小呢？