机器学习(3)--正则化

最新推荐文章于 2022-06-11 20:29:57 发布

williamyi96

最新推荐文章于 2022-06-11 20:29:57 发布

阅读量358

点赞数 1

分类专栏：机器学习基础理论‘ 文章标签：机器学习正则实例算法

本文链接：https://blog.csdn.net/williamyi96/article/details/52748655

版权

机器学习基础理论‘ 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

正则化–《机器学习》课程笔记

过拟合问题

这里写图片描述
如图，第一个就是一个欠拟合(underfitting)的实例，第三个就是一个过拟合的实例(overfitting),往往过拟合和欠拟合都不能很好地反映逻辑回归以及线性回归问题的情况。
如图：

面对这种问题，我们可以采取两种方法来进行解决：

丢弃一些不能帮助我们正确解决问题的特征，或者是手工选择保留哪些特征，使用模型选择的算法来帮忙(如PCA–主成分分析算法)
正则化，保留所有的特征，但是减少参数的大小
（思考为何这种方法可以有效地避免过拟合的现象）

以下我们使用正则化的方法来解决过拟合的现象：

代价函数

由于要减小高阶项的系数，因此可以使用如下代价函数：

$min_\theta\frac{1}{2m}\sum_{i=1}^{m}((h_\theta(x^{(i)})-y^{(i)})^2+1000\theta_3^2+10000\theta_4^2)$

相当于我们对除 $\theta_0$ 以外的参数进行惩罚。
于是有代价函数：

$\jmath(\theta)=\frac{1}{2m}[\sum_{i=1}^{m}((h_\theta(x^{(i)})-y^{(i)})^2+\lambda\sum_{j=1}^{n}\theta_j^2)]$

其中， $\lambda$ 称为正则化参数(Regularization Parameter), 如果其过大，那么会将所有 $\theta$ 都最小化，那么会呈现出一条 $y=\theta_0$ 的直线，但是如果正则化参数过小，那么又不能很好地解决过拟合的问题。

我们如何将正则化的思想引入到逻辑回归和线性回归之中呢，下面就进行详细的介绍：

正则化线性回归

使用梯度下降算法对于含有正则化参数的代价函数进行初始化。
算法描述：

$repeat\ until\ convergence\ \{$
$\qquad\theta_0:=\theta_0-\alpha\frac{1}{m}\sum_1^m(h_\theta(x^{(i)})-y^{(i)})x_0^{(i)}$
$\qquad\theta_j:=\theta_j-\alpha\frac{1}{m}\sum_1^m((h_\theta(x^{(i)})-y^{(i)})x_j^{(i)}+\frac {\lambda}{m}\theta_j)$
$\qquad \qquad for\ i = 1 \to n$
$\}$

对 $\theta_j$ 进行整理得到：

$\theta_j:=\theta_j(1-\frac {\lambda}{m}\theta_j)-\alpha\frac{1}{m}\sum_1^m((h_\theta(x^{(i)})-y^{(i)})x_j^{(i)}$

若使用正规化方程来求解，则为：
这里写图片描述
(细致分析其中各个参数值之间的含义)

正则化逻辑回归模型

代价函数为：

$\jmath(\theta)=-\frac{1}{m}[\sum_{(i=1)}^my^{(i)}\ log(h_\theta(x^{(i)}))+(1-y^{(i)})log(1-h_\theta(x^{(i)})]+\lambda\sum_{j=1}^{n}\theta_j^2$

使用梯度下降算法可以得到：

$repeat\ until\ convergence\ \{$
$\qquad\theta_0:=\theta_0-\alpha\frac{1}{m}\sum_1^m(h_\theta(x^{(i)})-y^{(i)})x_0^{(i)}$
$\qquad\theta_j:=\theta_j-\alpha\frac{1}{m}\sum_1^m((h_\theta(x^{(i)})-y^{(i)})x_j^{(i)}+\frac {\lambda}{m}\theta_j)$
$\qquad \qquad for\ i = 1 \to n$
$\}$