线性回归

最新推荐文章于 2024-06-06 23:15:00 发布

奇而思

最新推荐文章于 2024-06-06 23:15:00 发布

阅读量1.2k

点赞数

分类专栏：机器学习文章标签：线性回归机器学习

本文链接：https://blog.csdn.net/zhao_cq/article/details/80808296

版权

机器学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

假设函数

hypothesis是指拟合的函数，表示为 $h_{\theta}(x)=\theta^Tx$ , 其中 $\theta=[\theta_0,\theta_1,\cdots,\theta_n,]$ , $x=[x_0,x_1,\cdots,x_n],x_0=1$

$\begin{align*}h_\theta(x) =\begin{bmatrix}\theta_0 \hspace{2em} \theta_1 \hspace{2em} ... \hspace{2em} \theta_n\end{bmatrix}\begin{bmatrix}x_0 \newline x_1 \newline \vdots \newline x_n\end{bmatrix}= \theta^T x\end{align*}$

这里需要注意的是，为了形式简洁，将 $x_0$ 放入向量中，并且赋值为1.

损失函数

定义线性回归的损失函数为：（均方误差）

J (θ) = 1 2 m \sum i = 1 m (h θ (x (i)) - y (i)) 2

$J(\theta) = \frac{1}{2m}\sum_{i=1}^{m}\big( h_\theta\,(x^{(i)})-y^{(i)}\big)^2$

对于线性回归，均方误差损失是一个凸函数，具有全局最小值。

优化方法

梯度下降法

这个比较常规

对于损失函数 $J(\theta)$ , 对于每个 $\theta_j$ ，进行更新：

repeat until converge:

$\theta_j=\theta_j-\alpha \dfrac{\partial}{\partial \theta_j}J(\theta)$

这里需要注意的是，所有的 $\theta_j$ 是同时更新的，也就是上式中的 $\theta$ 向量都采用同一个向量，直到下次更新。

对于线性回归的损失函数而言，上面的式子可以进一步写为：

$\theta_j = \theta_j - \alpha[\frac{1}{m}\sum_{i=1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})x_j^{(i)}],(j=0,1,2,,\cdots,n)$

由于上式中，对所有样本进行了求和，即涉及了所有样本，因此这种梯度下降法又称为“Batch gradient decent”

Normal Equation

这个方法就是梯度等于零，直接求解。但是使用了向量形式。对于线性迭代推导如下：

假定有m个样本，样本feature个数为n，那么可以定义:

$x^{(i)}=\begin{bmatrix}x_0^{(i)} \newline x_1^{(i)} \newline \vdots \newline x_n^{(i)}\end{bmatrix}$ , $\theta=\begin{bmatrix}\theta_0 \newline \theta_1 \newline \vdots \newline \theta_n\end{bmatrix}$ , $y=\begin{bmatrix}y_0 \newline y_1 \newline \vdots \newline y_m\end{bmatrix}$

可以看到 $x^{(i)} \in \mathbb{R}^{n+1}, \theta \in \mathbb{R}^{n+1}, y \in \mathbb{R}^{m}$ ,定义：

$X=\begin{bmatrix} (x^{(1)})^T \newline (x^{(2)})^T \newline \vdots \newline (x^{(m)})^T \end{bmatrix}$ , $X \in \mathbb{R}^{m \times (n+1)}$

由损失函数定义可以得到其向量形式为：

J (θ) = 1 2 m (X θ - y) T (X θ - y) = 1 2 m (θ T X T X θ - 2 y T X θ + y T y)

$\begin{split} J(\theta) &=\frac{1}{2m}(X \theta-y)^T(X \theta -y) \\ &= \frac{1}{2m}(\theta ^T X^TX \theta-2y^TX \theta + y^Ty)\end{split}$
因此求导得：

\partial \partial θ J (θ) = 1 2 m (2 X T X θ - 2 X T y)

$\begin{split}\frac{\partial}{\partial \theta} J(\theta) &=\frac{1}{2m}(2X^TX \theta - 2X^Ty)\end{split}$
如果

XTX X T X $X^TX$ 可逆，得到

θ=(XTX)−1XTy θ = ( X T X ) − 1 X T y $\theta = (X^TX)^{-1}X^Ty$ 。这个方法称为Normal Equation。

在使用Octave计算时，上式可以写为：pinv(X'*X)*X'*y

使用Normal Equation时，不需要考虑feature scaling.

与梯度下降法相比如下：

Gradient Descent	Normal Equation
Need to choose alpha	No need to choose alpha
Needs many iterations	No need to iterate
$O (kn^2)$	$O (n^3)$ , need to calculate inverse of $X^TX$
Works well when n is large	Slow if n is very large

从他们的时间复杂度可以看出，当n比较大时，用梯度下降法时间上更有优势。这里的大，吴恩达给出的建议是，当n < 10000时，可以考虑Normal Equation，当n >10000时，使用梯度下降更好。

不可逆

当 $X^TX$ 不可逆时，称为singular 或 degenerate, 可能是由于两个原因：

有线性相关的feature
feature 太多，使得 $m \le n$

解决办法是删除一些feature或者使用正则化方法。

在Octave中，有两个求逆函数qinv inv ，使用qinv 会在 $X^TX$ 不可逆返回其逆矩阵，其中涉及一些数学操作。

过拟合和正则化

欠拟合（under-fitting, high bias）：模型没有很好地捕捉数据特征，不能很好地拟合数据

过拟合（over-fitting, high varience) ：

过拟合的表现：对于训练集，预测非常准确，对于新数据预测很差，也就是泛化能力差（generalize）。

如何避免过拟合，有两种方式：

减少特征维度，有两种方法：
- 手动选择特征
- 通过模型选择
缺点：损失了部分信息
正则化（regularization）：保留所有特征，但是减小参数 $\theta$ 的值，对于具有很多特征，每个特征都对预测值有贡献的问题，有很好的效果。

正则化是一种避免过拟合的手段，其思想是通过在损失函数中添加参数“惩罚”，控制参数幅度，限制参数搜索空间。从而达到以下目的：

简化预测函数（hypothesis) $h_{\theta}(x)$
减小过拟合倾向

正则化后，损失函数可以写为下式：可以看到这里的正则化项从1开始，没有对 ${\theta}_0$ 进行约束。在实际操作时，加上 ${\theta}_0$ 对结果的影响也很小。

J (θ) = 1 2 m [\sum i = 1 m (h θ (x (i)) - y (i)) 2 + λ \sum j = 1 n θ 2 j]

$J(\theta) = \frac{1}{2m}\big[\sum_{i=1}^{m}\big( h_\theta\,(x^{(i)})-y^{(i)}\big)^2+\lambda\sum_{j=1}^n\theta^2_j\big]$

这将损失函数分成了两个部分：拟合训练集、减小参数值。这两部分的权重通过 $\lambda$ 来调节，因此如何挑选合适的 $\lambda$ 也是十分重要的，有相关算法后续会介绍。

梯度下降法

正则化后，如果使用梯度下降法进行迭代有以下迭代公式：

$\theta_0 = \theta_0 - \frac{\alpha}{m}\sum_{i=1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})x_0^{(i)}$

$\theta_j = \theta_j - \alpha[\frac{1}{m}\sum_{i=1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})x_j^{(i)}+\frac{\lambda}{m}\theta_j],(j=1,2,,\cdots,n)$

可以写成：

$\theta_j = (1-\alpha\frac{\lambda}{m})\theta_j - \alpha[\frac{1}{m}\sum_{i=1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})x_j^{(i)}],(j=1,2,,\cdots,n)$

其中， $(1-\alpha\frac{\lambda}{m}) <1$ ，因此可以将上式理解成：首先将 $\theta_j$ 缩小一点，然后按照正常的梯度下降法进行处理。这样就可以保证 $\theta_j$ 不会太大，从而减小了overfitting 的可能。

Normal Equation

当含有L2正则化项后，损失函数的向量形式可以写为：

J (θ) = 1 2 m (X θ - y) T (X θ - y) + λ 2 m θ T L θ = 1 2 m (θ T X T X θ - 2 y T X θ + y T y + λ L θ)

$\begin{split} J(\theta) &=\frac{1}{2m}(X \theta-y)^T(X \theta -y) +\frac{\lambda}{2m}\theta^T L \theta\\ &= \frac{1}{2m}(\theta ^T X^TX \theta-2y^TX \theta + y^Ty+\lambda L\theta)\end{split}$
因此求导得：

\partial \partial θ J (θ) = 1 2 m (2 X T X θ - 2 X T y + 2 λ L θ)

$\begin{split}\frac{\partial}{\partial \theta} J(\theta) &=\frac{1}{2m}(2X^TX \theta - 2X^Ty+2\lambda L \theta)\end{split}$
如果

XTX+λL X T X + λ L $X^TX+\lambda L$ 可逆，得到

θ=(XTX+λL)−1XTy θ = ( X T X + λ L ) − 1 X T y $\theta = (X^TX+\lambda L)^{-1}X^Ty$ 。

注意，由于不需要对 $\theta_0$ 进行正则化，因此，

L = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ 000 . . . 0 010 . . . 0 001 . . . 0 ⋮ ⋮ ⋮ ⋮ ⋮ 000 . . . 1 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

$L = \begin{bmatrix}0 \hspace{1em} 0 \hspace{1em} 0 \hspace{1em} ... \hspace{1em} 0 \\ 0 \hspace{1em} 1 \hspace{1em} 0 \hspace{1em} ... \hspace{1em} 0 \\ 0 \hspace{1em} 0 \hspace{1em} 1 \hspace{1em} ... \hspace{1em} 0 \\ \vdots \hspace{1em} \vdots \hspace{1em} \vdots \hspace{1em} \vdots \hspace{3em} \vdots \\ 0 \hspace{1em} 0 \hspace{1em} 0 \hspace{1em} ... \hspace{1em} 1 \end{bmatrix}$
正则化后还有一个好处：当

XTX X T X $X^TX$ 不可逆时，通过加上

λL λ L $\lambda L$ ，

XTX+λL X T X + λ L $X^TX+\lambda L$ 一般是可逆的。

技巧

技巧1：feature scaling

确保所有的属性值都在同一个量级上，梯度下降法会更快收敛。

一般使得每个属性大概满足 $x_i \in [-1.1]$ ，距离此范围不大的可以不用处理。

处理方法有：

除以最大值
mean normalization:

将 $x_i$ 替换为 $x_i-\mu_i$ 或者 $\frac{x_i-\mu_i}{s_i}$ ，使得属性值的均值大约为0.（不对 $x_0$ 进行处理），其中， $\mu_i$ 为均值， $s_i=max-min$ 或标准差。

注意：如果使用了scaling技巧，那么在预测时，同样需要对样本值进行相同的处理！

技巧2：判断收敛和选择步长

通过画 $J(\theta)$ 随迭代次数的图来判断，正常应该是逐渐下降的。如果逐渐上升，应该减小步长。但是步长太小就会导致收敛太慢。

吴恩达给出的选择步长的方法是：从小到大试，首先确定太小的和太大的，然后从这之间按照3倍关系试，例如可以选择0.001,0.003,0.01,0.03,0.1,0.3,1,这个序列。

属性选择和多项式回归

可以有很多方式来改进假设函数，例如

属性选择（feature choice）

有时会面对很多属性，不一定按照原属性进行拟合，而是应该根据实际情况对属性进行一些处理或计算。

比如可以将两个属性相乘得到新属性
多项式回归（polynomial regression）

假设函数可能不是线性的，这时只需要构造新属性，然后在这个属性上进行拟合即可。例如拟合 $h_\theta(x) = \theta_0 + \theta_1 x_1 + \theta_2 x_1^2 + \theta_3 x_1^3$ , 构造 $x_1=x_1, x_2=(x_1)^2,x_3=(x_1)^3$ 即可。这时，就需要注意feature scaling的问题了。

奇而思

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
线性回归

假设函数损失函数优化方法梯度下降法Normal Equation不可逆过拟合和正则化梯度下降法Normal Equation技巧技巧1：feature scaling技巧2：判断收敛和选择步长属性选择和多项式回归假设函数hypothesis是指拟合的函数，表示为hθ(x)=θTxhθ(x)=θTxh_{\theta}(x)=\...
复制链接

扫一扫