机器学习笔记（三）-多变量线性回归

997and

已于 2022-07-11 21:02:46 修改

阅读量278

点赞数

分类专栏：机器学习文章标签：机器学习

于 2021-09-22 19:20:21 首次发布

本文链接：https://blog.csdn.net/zxq997997/article/details/120416923

版权

机器学习专栏收录该内容

16 篇文章 0 订阅

订阅专栏

本次学习笔记主要记录学习机器学习时的各种记录，包括吴恩达老师视频学习、李宏毅老师视频学习、周志华老师的《机器学习》（西瓜书）以及李航老师的《统计学习方法》。作者能力有限，如有错误等，望联系修改，非常感谢！

机器学习笔记（三）-多变量线性回归

一、多维特征
二、多变量梯度下降
三、多元梯度下降-特征缩放(feature scaling)
- 均值归一化(mean normalization)
四、多元梯度下降-学习率(learning rate)
五、特征和多项式回归
六、正规方程(Normal Equation)
- 梯度下降和正规方程比较
- 正规方程及不可逆性

第一版 2021-09-22 初稿

一、多维特征

在这里插入图片描述
1.n代表特征的数量
2. $x^{\left( i \right)}$ 代表第i个训练实例，是特征矩阵中的第i行，是一个向量。
3. ${x_j}^{\left( i \right)}$ 代表第i行的第j个特征。

4.支持多变量的假设h表示为：（n+1个参数，n个变量）
$h_{\theta}\left( x \right) \,\,=\,\,\theta _0+\theta _1x_1+...+\theta _nx_n$
引入x0=1，则（n+1维向量）
$h_{\theta}\left( x \right) \,\,=\,\,\theta _0x_0+\theta _1x_1+...+\theta _nx_n$
公式可简化为
$h_{\theta}\left( x \right) \,\,=\,\,\theta ^Tx\,\,=\,\,\left[ \begin{matrix} \theta _0& ...& \theta _n\\ \end{matrix} \right] \left[ \begin{array}{c} x_0\\ ...\\ x_n\\ \end{array} \right]$

二、多变量梯度下降

代价函数为：
$J\left( \theta _1,...\theta _n \right) \,\,=\,\,\frac{1}{2m}\sum_{i=1}^m{\left( h_{\theta}\left( x^{\left( i \right)} \right) \,\,-\,\,y^{\left( i \right)} \right) ^2}$
批量梯度下降算法为：
$repeat\\\left\{ \theta _j\,\,:=\,\,\theta _j-\alpha \frac{\partial}{\partial \theta _j}J\left( \theta _0,...\theta _n \right) \right\}$
(n >= 1)：
$repeat\\\left\{ \begin{array}{c} \theta _j\,\,:=\,\,\theta _j-\alpha \frac{1}{m}\sum_{i=1}^m{\left( h_{\theta}\left( x^{\left( i \right)} \right) -y^{\left( i \right)} \right)}{x_j}^{\left( i \right)}\\ \left( simu;\tan eously\,\,update\,\,\theta _j\,\,for\,\,j=0,...n \right)\\\end{array} \right\}$

三、多元梯度下降-特征缩放(feature scaling)

前提：以房价问题为例，假设我们使用两个特征，房屋的尺寸和房间的数量，尺寸的值为 0-2000 平方英尺，而房间数量的值则是 0-5，以两个参数分别为横纵坐标，绘制代价函数的等高线图能，看出图像会显得很扁，梯度下降算法需要非常多次的迭代才能收敛。
解决的方法：尝试将所有特征的尺度都尽量缩放到-1 到 1 之间。
在这里插入图片描述

均值归一化(mean normalization)

$x_n\,\,=\,\,\frac{x_n-\mu _n}{S_n}$
其中un是平均值，是Sn是max-min(或标准差)。

四、多元梯度下降-学习率(learning rate)

迭代次数和代价函数的图表可以看出何时收敛：
在这里插入图片描述
在机器学习笔记（二）中提到过α的影响，在此复习，梯度下降算法的每次迭代受到学习率的影响：
（1）如果学习率 α 过小，则达到收敛所需的迭代次数会非常高；
（2）如果学习率 α 过大，每次迭代可能不会减小代价函数，可能会越过局部最小值导致无法收敛。

建议的α值：… , 0.001 , 0.003 , 0.01 , 0.03 , 0.1 , 0.3 , 1 , …

五、特征和多项式回归

在这里插入图片描述
$h_{\theta}\left( x \right) =\theta _0+\theta _1x_1+\theta _2x_2 \\ \text{可代替}h_{\theta}\left( x \right) =\theta _0+\theta _1\left( size \right) +\theta _2\left( size \right) ^2 \\ \text{或}h_{\theta}\left( x \right) =\theta _0+\theta _1\left( size \right) +\theta _2\sqrt{\left( size \right)}$
采用多项式回归模型，进行梯度下降算法前，特征缩放是必要的。

六、正规方程(Normal Equation)

某些线性回归问题会用到正规方程，而不是梯度下降。
在这里插入图片描述
正规方程是通过求解下面的方程来找出使得代价函数最小的参数的：
$\frac{\partial}{\partial \theta _j}J\left( \theta _j \right) =0$
假设训练集特征矩阵为X，训练集结果为向量 y，则利用正规方程解出向量：
$\theta =\left( X^TX \right) ^{-1}X^Ty$
以上求导得θ的推导过程：
推导过程参考
 推到过程

梯度下降和正规方程比较

梯度下降	正规方程
需要选择学习率α	不需要
需要多次迭代	一次运算得出
当特征数量 n 大时也能较好适用	需要计算 $\left( X^TX \right) ^{-1}$ 如果特征数量 n 较大则运算代价大，因为矩阵逆的计算时间复杂度为O(n³)，通常来说当 n 小于 10000 时还是可以接受的
适用于各种类型的模型	只适用于线性模型，不适合逻辑回归模型等其他模型