吴恩达《机器学习》笔记（3）正则化

最新推荐文章于 2022-01-20 17:09:13 发布

Zhang Weijian

最新推荐文章于 2022-01-20 17:09:13 发布

阅读量160

点赞数

分类专栏：机器学习学习笔记

本文链接：https://blog.csdn.net/weixin_43656083/article/details/97168591

版权

学习笔记同时被 2 个专栏收录

5 篇文章 0 订阅

订阅专栏

机器学习

4 篇文章 0 订阅

订阅专栏

学习引导：正则化是防止过拟合的一个重要方法，并且过拟合在神经网络也很重要。
简要说明什么是过拟合以及过拟合的危害。

Regularization

Solving the Problem of Overfitting

The Problem of Overfitting

-w500

如上图，这是一个单变量回归问题。通过使用高次项，我们可以的到不同的拟合曲线。
左 1 使用一次函数 $\theta_0 + \theta_1x$ 来拟合曲线。可以看到，效果并不好。这种情况称之为欠拟合（under-fitting）。
中间使用二次函数 $\theta_0 + \theta_1x + \theta_2x^2$ 来拟合。效果不错。
右 1 使用五次函数 $\sum_{j=0}^5\theta_jx^j$ 来拟合。对于训练集的拟合效果极好，但是在测试集，很可能得到很差的结果。这种情况称为过拟合（over-fitting）

欠拟合，或高偏差（high-bias），指的是猜想函数 h 不能很好的映射模型。它一般是因为函数过于简单或使用了过少的特征。
过拟合，或高方差（high-variance），指的是函数很好得拟合了训练数据，但是不能很好地泛化来预测新数据。他是因为使用过于复杂的函数，产生了不必要的曲线和角度。

过拟合同时适用于 linear 和 logistic regression。

一般有2种方法来解决这个问题：

Reduce the number of features: 减少特征的数量
- Manually select which features to keep. 手动选择保留那些特征
- Use a model selection algorithm (studied later in the course). 使用模型选择算法
Regularization 正则化
- Keep all the features, but reduce the magnitude of parameters $\theta_j$ . 保留所有特征，但是减少参数的大小（权重）
- Regularization works well when we have a lot of slightly useful features. 正则化在使用很多稍微有点作用的特征时，能得到很好的效果

Cost function (regularized)

如果函数产生过拟合，可以通过增加项的代价来减少降低项的权重。

详细的说，假设现在猜想函数 $\theta_0 + \theta_1x + \theta_2x^2 + \theta_3x^3 + \theta_4x^4 + \theta_5x^5$

我们想要消除 $\theta_3$ 和 $\theta_4$ 的影响。我们可以对代价函数作出如下改变：

$J(\theta) = min_\theta \frac{1}{2m}\sum_{i=1}^m(h(x^{(i)}) - y^{(i)})^2 + 1000 \cdot {\theta_3}^2 + 1000 \cdot {\theta_4}^2$

可以看到， $\theta_3$ 和 $\theta_4$ 的成本极高。所以为了最小化 $J(\theta)$ ， $\theta_3,\ \theta_4\approx 0$ 。

因为不知道到底要消除哪一个特征的影响，我们可以同时减小所有权重：

$J(\theta) = min_\theta \frac{1}{2m}\sum_{i=1}^m(h(x^{(i)}) - y^{(i)})^2 + \lambda \sum_{j=0}^n{\theta_n}^2$

$\lambda$ 称作是正则化参数（regularization parameter）

通过减小权重，函数变得平滑，以此减小过拟合。如果 $\lambda$ 过大，那么会变得过于平滑，从而导致欠拟合。如果 $\lambda$ 过小，那就没什么效果。

Regularized Linear Regression

Gradient Descent

对代价函数偏微分得到：

$KaTeX parse error: No such environment: align* at position 7: \begin{̲a̲l̲i̲g̲n̲*̲}̲ & \text{Repeat…$

注意 $\frac{\lambda}{m}\theta_j$ 项。

将公式整理后可以得到：

$\theta_j := \theta_j(1-\alpha\frac{\lambda}{m}) - \alpha\frac{1}{m}\sum_{i=1}^m (h_\theta(x^{(i)}) - y^{(i)})x_j^{(i)}$

可以看到，第一项的系数 $(1-\alpha\frac{\lambda}{m})$ 总是稍微小于1，所以每次把 $\theta$ 减小一点点。第二项则和正则化之前完全一样。

Normal Equation

$KaTeX parse error: No such environment: align* at position 7: \begin{̲a̲l̲i̲g̲n̲*̲}̲& \theta = \lef…$

之前提到，当 $m < n$ 时， $X^TX$ 是不可逆的。但是当添加这一项后， $X^TX + \lambda \cdot L$ 可逆。

Regularized Logistic Regression

如上图，可以用类似的方法对对数几率回归模型进行正则化。

左上蓝线表示过拟合的曲线。紫线表示正则化之后的曲线
右上是高次猜想函数
下方是添加了正则项的代价函数

Cost Function

$J(\theta) = -\frac{1}{m}\sum_{i=1}^{m}[y^{(i)}\log(h_\theta(x^{(i)})) + (1-y^{(i)})\log(1-h_\theta(x^{(i)}))] + \frac{\lambda}{2m}\sum_{j=1}^n{\theta_j}^2$

注意 $\sum_{j=1}^n{\theta_j}^2$ 显式排除了 $\theta_0$ 的影响

Gradient Descent

回答章前问题

简要说明什么是过拟合以及过拟合的危害。

过拟合是使用了过高次幂的函数，导致函数出现不必要的曲线和角度。使得其虽然能很好的拟合训练数据，但不能拟合测试数据，也就无法很好的预测模型。

Zhang Weijian

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
吴恩达《机器学习》笔记（3）正则化

学习引导：正则化是防止过拟合的一个重要方法，并且过拟合在神经网络也很重要。简要说明什么是过拟合以及过拟合的危害。RegularizationSolving the Problem of OverfittingThe Problem of Overfitting如上图，这是一个单变量回归问题。通过使用高次项，我们可以的到不同的拟合曲线。左 1 使用一次函数 y=θ0+θ1xy = ...
复制链接

扫一扫