回归问题经典算法 | 线性回归：梯度下降法

ToBeCertain

已于 2024-02-23 22:01:25 修改

阅读量1.4k

点赞数 29

分类专栏：机器学习文章标签：回归算法线性回归人工智能机器学习

于 2024-02-22 15:18:11 首次发布

本文链接：https://blog.csdn.net/weixin_49613115/article/details/136163384

版权

机器学习专栏收录该内容

27 篇文章 4 订阅

订阅专栏

上一篇文章中我们通过对表达式的推导，得到了精度值最高模型参数 $\theta$
然而，解析解法并不是工程中的最佳解法，那么究竟哪种解法更用呢？下面我们来接着讲：

一. 线性回归梯度下降法

结合上一篇文章的推导，我们最终得到
$L(\theta )=m\ast ln\frac{1}{\sqrt{2\pi}\sigma}-\frac{1}{\sigma ^{2} } \ast \frac{1}{2}\sum_{i=1}^{m}{(y^{(i)}-\theta^{T}x^{(i)})^{2} }$

其中，损失函数就是：
$J(\theta)=\frac{1}{2}\sum_{i=1}^{m}{(y^{(i)}-\theta^{T}x^{(i)})^{2} }$

结合我们前面对损失函数的讨论，通过分析可以得出：

线性回归中，该损失函数必定是凸函数

当 $\theta$ 逐渐接近真值时，J值会变小
当 $\theta$ 逐渐原理真值时，J值会变大

这里我们再来重申梯度下降的更新公式：
${\theta _{i} }' =\theta _{i}-\alpha \tfrac{\partial J}{\partial \theta _{i}}$

这样就解决了线性回归的基本问题，确定模型参数！！！

下面，我们先来计算梯度：

$J(\theta)=\frac{1}{2}\sum_{i=1}^{m}{(y^{(i)}-\theta^{T}x^{(i)})^{2} }$

$=\frac{1}{2\ast m}\sum_{i=1}^{m}(\hat{y}^{(i)}-y^{(i)})^{2}$

若想求得凸函数的最小值，即 $\theta$ 最小值，方法非常明确：求偏导
对于每一个 $\theta _{i}$ （ $0\le i\le N$ ）求导，即为：
$\begin{cases} \\\frac{\partial J}{\partial \theta _{0}}=\frac{1}{m}\left [ (\hat{y} ^{(1)}-y^{(1)})x_{0}^{(1)}+...+ (\hat{y} ^{(m)}-y^{(m)}) x_{0}^{(m)} \right ] \\\frac{\partial J}{\partial \theta _{1}}=\frac{1}{m}\left [ (\hat{y} ^{(1)}-y^{(1)})x_{1}^{(1)}+...+ (\hat{y} ^{(m)}-y^{(m)}) x_{1}^{(m)} \right ] \\...\\\frac{\partial J}{\partial \theta _{N}}=\frac{1}{m}\left [ (\hat{y} ^{(1)}-y^{(1)})x_{N}^{(1)}+...+ (\hat{y} ^{(m)}-y^{(m)}) x_{N}^{(m)} \right ]\end{cases}$

这里简单解释下上面这组公式：

首先明确，整个公式只有 $\hat{y}$ 含有未知数 $\theta$
$\hat{y}=\theta _{0}x_{0} +\theta _{1}x_{1}+\theta _{2}x_{2} +...$
那么就会得到
$J(\theta)=\frac{1}{2\ast m}\sum_{i=1}^{m}(\theta _{0}x_{0} +\theta _{1}x_{1}+\theta _{2}x_{2} +...+\theta _{N}x_{N} -y^{(i)} )^{2}$

假设，现在我想求 $\theta _{0}$ 的梯度，也就相当于
我需要求所有样本中 $\theta _{0}$ 的梯度之和
则：

第一个样本 $\theta _{0}$ 的梯度值为： $\frac{1}{m}(\hat{y} ^{(1)}- y^{(1)})x_{0}^{(1)}$
第二个样本 $\theta _{0}$ 的梯度值为： $\frac{1}{m}(\hat{y} ^{(2)}- y^{(2)})x_{0}^{(2)}$
…
PS：复合函数求导

因此， $\frac{1}{m}\left [ (\hat{y} ^{(1)}-y^{(1)})x_{0}^{(1)}+...+ (\hat{y} ^{(m)}-y^{(m)}) x_{0}^{(m)} \right ]$ 为m个样本求得的平均梯度

【注意】
求导结果中的 $\frac{1}{m}$ 作用为：避免受到样本数量的影响

然而，在数据不变的前提下，无论是否有 $\frac{1}{m}$ ，公式求得的样本总梯度是不变的；