线性回归（详细推导）

最新推荐文章于 2023-06-08 06:11:07 发布

Ugo宇

最新推荐文章于 2023-06-08 06:11:07 发布

阅读量295

点赞数

分类专栏： # 机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/yokeyzyy/article/details/107893705

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本文主要介绍了线性回归的建模与求解。

模型假设

假设数据（m个特征为d维的样本）符合线性关系：
$h_\theta(x)=\theta_0+\theta_1*x_1+...+\theta_d*x_d\\ h_\theta(x)=\sum_{j=0}^{d+1}\theta_j*x_j=x^T\theta$

损失函数

目标是使在训练数据上，模型输出离真实的y尽可能近，采取均方误差：
$J(\theta)=\frac{1}{2}\sum_i^{m}(h_\theta(x^{(i)})-y^{(i)})^2$
优化目标：
$\theta^* = \arg\min_{\theta} J(\theta)$

求解

梯度下降法

参数更新公式：
$\theta_j = \theta_j - \alpha * \frac{\partial J(\theta)}{\partial \theta_j}$
计算梯度：
$\begin{aligned} \frac{\partial J(\theta)}{\partial \theta_j}&=\frac{\partial }{\partial \theta_j}(\frac{1}{2}\sum_i^{m}(h_\theta(x^{(i)})-y^{(i)})^2) \\ &=\sum_i^{m}(h_\theta(x^{(i)})-y^{(i)})\frac{\partial}{\partial \theta_j}(\sum_j^{d+1}\theta_j*x_j^{(i)}-y^{(i)}) \\ &=\sum_i^{m}(h_\theta(x^{(i)})-y^{(i)})x_j^{(i)} \end{aligned}$

批量梯度下降

$\begin{aligned} &\text{repeat until convergence} \{ \\ &\text{for j=0 : d+1}\{\\ &\theta_j =\theta_j+\alpha*\sum_i^{m}(y^{(i)}-h_\theta(x^{(i)}))x_j^{(i)}\\ &\} \} \end{aligned}$

每次迭代需要对所有样本计算梯度，开销大，但是可以使用矩阵操作实现并行
每次迭代的方向能更好地代表全体样本，能更准确收敛到极值

随机梯度下降

$\begin{aligned} &\text{repeat until convergence} \{\\ &\text{for i=1 : m}\{\\ &\text{for j=0 : d+1}\{\\ &\theta_j =\theta_j + \alpha*(y^{(i)}-h_\theta(x^{(i)}))x_j^{(i)}\\ &\}\}\} \end{aligned}$

每轮迭代只需计算一个样本的梯度，更新速度大大加快
准确度下降，即使目标函数为强凸函数也可能无法收敛到全局最优值
不易于并行实现

小批量梯度下降

假设 $b a t c h s i z e$
$\begin{aligned} &\text{repeat until convergence} \{\\ &\text{for i=1 : m//batchsize}\{\\ &\text{for j=0 : d+1}\{\\ &\theta_j =\theta_j + \alpha*(y^{(i)}-h_\theta(x^{(i)}))x_j^{(i)}\\ &\}\}\} \end{aligned}$

通过矩阵运算，每次在一个batch上优化参数并不会比单个数据慢太多。
每次使用一个batch可以大大减小收敛所需要的迭代次数，同时可以使收敛到的结果更加接近梯度下降的效果。
batch_size的不当选择可能会带来一些问题。

在合理地范围内，增大batch_size的好处：
– 内存利用率提高了，大矩阵乘法的并行化效率提高。
– 跑完一次epoch（全数据集）所需的迭代次数减少，对于相同数据量的处理速度进一步加快。
– 在一定范围内，一般来说 Batch_Size 越大，其确定的下降方向越准，引起训练震荡越小。
盲目增大batch_size的坏处：
– 内存利用率提高了，但是内存容量可能撑不住了。
– 跑完一次 epoch（全数据集）所需的迭代次数减少，要想达到相同的精度，其所花费的时间大大增加了，从而对参数的修正也就显得更加缓慢。
– Batch_Size 增大到一定程度，其确定的下降方向已经基本不再变化。

正规方程法

$\begin{aligned} J(\theta)&=\frac{1}{2}\sum_i^{m}(h_\theta(x^{(i)})-y^{(i)})^2\\ &=\frac{1}{2}\sum_i^{m}({x^{(i)}}^T\theta-y^{(i)})^2 \\ &=\frac{1}{2}\sum_i^{m}({x^{(i)}}^T\theta-y^{(i)})^T({x^{(i)}}^T\theta-y^{(i)}) \\ &=\frac{1}{2}\begin{bmatrix}{x^{(1)}}^T\theta-y^{(1)}\\ ...\\{x^{(m)}}^T\theta-y^{(m)}\end{bmatrix}^T\begin{bmatrix}{x^{(1)}}^T\theta-y^{(1)}\\...\\{x^{(m)}}^T\theta-y^{(m)}\end{bmatrix}\\ &=\frac{1}{2}(X\theta-Y)^T(X\theta-Y) \end{aligned}$
令梯度等于零：
$\begin{aligned} \frac{\partial J(\theta)}{\partial \theta}&=\frac{\partial }{\partial \theta}(\frac{1}{2}(X\theta-Y)^T(X\theta-Y)) \\ &=\frac{1}{2}\frac{\partial }{\partial \theta}(\theta^TX^TX\theta-Y^TX\theta-\theta^TX^TY+Y^TY) \\ &=X^TX\theta-X^TY=0\\\\ &\Rightarrow \theta^*=(X^TX)^{-1}X^TY \end{aligned}$
其中 $X^TX$ 必须可逆，若不可逆：

梯度法求解
先降维，去相关
加扰动

概率解释

假设
$y^{(i)}=\theta^Tx^{(i)}+\epsilon^{(i)}\\ \epsilon^{(i)}\sim^{iid} N(0, \delta^2)$
则有
$\begin{aligned} p(\epsilon^{(i)})&=\frac{1}{\sqrt{2\pi}\delta}\exp\{-\frac{(\epsilon^{(i)})^2}{2\delta^2}\}\\ &=\frac{1}{\sqrt{2\pi}\delta}\exp\{-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\delta^2}\}\\ &=p(y^{(i)}|x^{(i)};\theta) \end{aligned}$
log似然函数为
$\begin{aligned} l(\theta)&=\log p(Y|X;\theta)\\ &=\log\prod_{i=1}^{m}p(y^{(i)}|x^{(i)};\theta)\\ &=\sum_{i=1}^{m}\log p(y^{(i)}|x^{(i)};\theta)\\ &=\sum_{i=1}^{m}\log (\frac{1}{\sqrt{2\pi}\delta}\exp\{-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\delta^2}\})\\ &=m\log \frac{1}{\sqrt{2\pi}\delta} - \sum_{i=1}^{m}\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\delta^2} \end{aligned}$
根据最大似然法估计参数，则有
$\theta^* = \arg\max_\theta l(\theta)=\arg\min_\theta \frac{1}{2}\sum_{i=1}^{m}(y^{(i)}-\theta^Tx^{(i)})^2$
因此，之前使用均方误差是自然的选择。