公式书写的问题测试 @WRITE站点

最新推荐文章于 2022-01-22 14:24:19 发布

Miykael_xxm

最新推荐文章于 2022-01-22 14:24:19 发布

阅读量309

点赞数

分类专栏： markdown

markdown 专栏收录该内容

25 篇文章 0 订阅

订阅专栏

七、正则化（Regularization）

7.1 过拟合的问题

参考视频 : 7 - 1 - The Problem of Overfitting (10 min).mkv

我们目前学习了线性回归和逻辑回归算法，它们能有效地解决问题，但将其应用到特定的机器学习应用是，会遇到过拟合（over-fitting）的问题，导致模型的预测效果变差。

用线性回归中的预测房价举例：
over fitting
第一个模型是一个线性模型，属于欠拟合；第三个是一个四次方的模型，过分地拟合了原始数据，丢失了算法的本质：预测新数据，它预测新数据的表现一定会很差！

分类问题举例：
over fitting2

以多项式理解，x的次数越高，拟合的越好，但相应的预测新数据的能力就变得很差！

发现了过拟合问题，我们应该如何处理？
1. 丢弃一些不能帮助我们正确预测的特征。可以手工选择保留那些特征，或使用一些模型选择的算法（PCA等）来帮助清洗数据
2. 正则化。保留所有的特征，但是减小参数的大小（magnitude）

7.2 代价函数

参考视频 : 7 - 2 - Cost Function (10 min).mkv

在回归问题中假设模型是： $h_{\theta}(x)=\theta_0+\theta_1x_1+\theta_2x_2^2+\theta_3x_3^3+\theta_4x_4^4$ ，我们可以看出来：正是那些高次项导致了过拟合的产生。所以如果我们能让这些高次项的系数接近于0的话，我们就能很好的拟合了。

如何减小高次项的系数 $\theta$ 值呢？这就是正则化的基本方法。如果要减小 $\theta_3,\theta_4$ ，我们需要修改代价函数，为 $\theta_3,\theta_4$ 设置惩罚项。修改后的代价函数如下：

J (θ) = 1 2 m \sum i = 1 m (h θ (x (i)) - y (i)) 2 + 10000 θ 23 + 10000 θ 24 m i n θ J (θ)

$J(\theta)=\frac{1}{2m}\sum_{i=1}^{m}(h_{\theta}(x^{(i)})-y{(i)})^2+10000\theta_3^2+10000\theta_4^2 \\ \underset{\theta}{min}J(\theta)$ 之后在最小化代价函数时也会把惩罚项考虑在内，导致选择较小的

θ3,θ4 θ 3 , θ 4 $\theta_3,\theta_4$ 。

假如我们有非常多的特征，而且不知道哪些特征需要进行惩罚，我们将对所有的特征进行惩罚，一般化的代价函数如下：

J (θ) = 1 2 m [\sum i = 1 m (h θ (x (i)) - y (i)) 2 + λ \sum j = 1 n θ 2 j]

$J(\theta)=\frac{1}{2m}\left [ \sum_{i=1}^{m}(h_{\theta}(x^{(i)})-y{(i)})^2+\lambda\sum_{j=1}^n\theta_j^2 \right ]$ 其中

λ λ $\lambda$ 称为正则化参数（Regularization Parameter）。注：根据惯例，我们不对

θ0 θ 0 $\theta_0$ 进行惩罚。经过正则化出里的模型与原模型的可能对比如下图所示：
这里写图片描述

如果选择的正则化参数过大，则会把所有的参数都最小化了，导致模型变成

hθ(x)=θ0 h θ ( x ) = θ 0 $h_{\theta}(x)=\theta_0$ ，也就是上图中的红色直线，是欠拟合。

所以对于正则化，我们要取一个合理的正则化参数值，这样才能取得比较好的效果。

7.3 正则化线性回归

之前介绍过两种求解线性回归的算法：一种基于梯度下降，一种基于正规方程。

（一）基于梯度下降求解正则化线性回归：

J (θ) = 1 2 m [\sum i = 1 m (h θ (x (i)) - y (i)) 2 + λ \sum j = 1 n θ 2 j] m i n θ J (θ)

$J(\theta)=\frac{1}{2m}\left [\sum_{i=1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})^2+\lambda\sum_{j=1}^n\theta_j^2 \right ] \\ \underset {\theta}{min}J(\theta)$

梯度下降算法为：

R e p e a t {θ j : = θ j - α \partial \partial θ j J (θ)}

$Repeat \{ \ \theta_j := \theta_j-\alpha\frac {\partial }{\partial \theta_j}J(\theta) \ \}$

求偏导数，分为j=0无惩罚和j≠0有惩罚：

⎧ ⎩ ⎨ ⎪ ⎪ j = 0, \partial \partial θ 0 J (θ) = 1 m \sum m i = 1 (h θ (x (i)) - y (i)) \cdot x (i) 0 j \neq 0, \partial \partial θ j J (θ) = 1 m [\sum m i = 1 (h θ (x (i)) - y (i)) \cdot x (i) j + λ θ j]

$\left\{\begin{matrix}j=0, \frac {\partial }{\partial \theta_0}J(\theta)=\frac{1}{m}\sum_{i=1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})\cdot x^{(i)}_0 \\ j\neq 0, \frac {\partial }{\partial \theta_j}J(\theta)=\frac{1}{m}\left[\sum_{i=1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})\cdot x^{(i)}_j+\lambda \theta_j \right] \end{matrix}\right.$

所以正则化线性回归的梯度下降算法为：
$Repeat \{$

θ 0 : = θ 0 - α 1 m \sum i = 1 m (h θ (x (i)) - y (i)) \cdot x (i) 0 θ j : = θ j - α 1 m [\sum i = 1 m (h θ (x (i)) - y (i)) \cdot x (i) j + λ θ j]

$\theta_0 := \theta_0-\alpha\frac{1}{m}\sum_{i=1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})\cdot x^{(i)}_0 \\ \theta_j := \theta_j - \alpha \frac{1}{m}\left[\sum_{i=1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})\cdot x^{(i)}_j+\lambda \theta_j \right]$

} } $\}$

（二）基于正规方程求解正则化线性回归：

θ = ⎛ ⎝ ⎜ ⎜ ⎜ X T X + λ ⎡ ⎣ ⎢ ⎢ ⎢ 0111 ⎤ ⎦ ⎥ ⎥ ⎥ ⎞ ⎠ ⎟ ⎟ ⎟ - 1 X T y

$\theta=\left( X^TX+\lambda\begin{bmatrix} 0& & & \\ & 1& & \\ & & 1& \\ & & & 1 \end{bmatrix}\right)^{-1}X^Ty$ 其中矩阵大小为(n+1)*(n+1)

7.4 正规化逻辑回归

参考视频：7 - 4 - Regularized Logistic Regression (9 min).mkv

这里写图片描述
逻辑回归的代价函数：

J (θ) = - 1 m \sum i = 1 m [y (i) l o g h θ (x (i)) + (1 - y (i)) l o g (1 - h θ (x (i)))]

$J(\theta)=-\frac {1}{m}\sum_{i=1}^{m} [y^{(i)}log h_{\theta}(x^{(i)}) + (1-y^{(i)})log(1-h_{\theta}(x^{(i)}))]$

正则化后的代价函数：

J (θ) = - 1 m \sum i = 1 m [y (i) l o g h θ (x (i)) + (1 - y (i)) l o g (1 - h θ (x (i)))] + λ 2 m \sum j = 1 n θ 2 j

$J(\theta)=-\frac {1}{m}\sum_{i=1}^{m} [y^{(i)}log h_{\theta}(x^{(i)}) + (1-y^{(i)})log(1-h_{\theta}(x^{(i)}))]+\frac{\lambda}{2m}\sum_{j=1}^{n}\theta_j^2$

所以正则化逻辑回归的梯度下降算法为：
$Repeat \{$