梯度下降的理解

最新推荐文章于 2024-09-07 16:10:07 发布

你认识的陌生人

最新推荐文章于 2024-09-07 16:10:07 发布

阅读量977

点赞数 28

文章标签：机器学习

本文链接：https://blog.csdn.net/wjj2586590669/article/details/137675476

版权

梯度下降的理解

损失函数 $L(\vec{W})$ 其实就是把参数向量 $\vec{\theta}$ 当作自变量，每一个样本的预测值 $H_i(\vec{W})$ 和真实值 $Y_i$ 之间差作为因变量。求出关于参数 $\vec{\theta}$ 取什么值时，使得损失函数最小化。这些参数构造就得到了模型。
$\vec{W}=[\theta^1,\theta^2,...,\theta^j,...,\theta^p]$
根据函数导数的定义， $L(\vec{W})$ 在对每个参数求偏导为0时，即 $\frac{\partial L(\theta^1_n)}{\partial \theta^1_n}=0,\frac{\partial L(\theta^2_n)}{\partial \theta^2_n}=0,...,\frac{\partial L(\theta^p_n)}{\partial \theta^p_n}=0$ 可以得到最小值。

假设损失函数为
$L(\vec{W})=(H_1(\vec{W})-Y_1)^{2} +(H2(\vec{W})-Y_2)^2+...+(Hm(\vec{W})-Y_m)^2$

梯度下降一般是设置一个初始的参数向量 $\vec{W_0}$
$\vec{W_0}=[\theta^1_0,\theta^2_0,...,\theta^j_0,...,\theta^p_0]$

参数 $\vec{W_0}$ 一步步更新，使得最终的每一个参数 $\frac{\partial L(\theta^j_n)}{\partial \theta^j_n}=0$

权重参数 $\theta^j$ 更新的式子
$\theta^j_1=\theta^j_0-\alpha \frac{\partial L(\theta^j_0)}{\partial \theta^j_0}$
$\cdots$
$\theta^j_k=\theta^j_{k-1}-\alpha \frac{\partial L(\theta^j_{k-1})}{\partial \theta^j_{k-1}}$ $* * Eq 1 * *$
$\cdots$
$\theta^j_n=\theta^j_{n-1}-\alpha \frac{\partial L(\theta^j_{n-1})}{\partial \theta^j_{n-1}}$

那为什么这么更新呢
可以理解为，要使得 $L(\vec{W})$ 达到极小值，那么每一个参数 $\frac{\partial L(\theta^j_k)}{\partial \theta^j_k}$ 都是在不断的逼近到0，即 $\frac{\partial L(\theta^j_k)}{\partial \theta^j_k}\longrightarrow 0$

$L(\vec{W})$ 在对参数 $\theta^j_k$ 求偏导为0时等价于 $\theta^j_k$ 对步长 $\alpha$ 的变化率为0。即 $\theta^j_k$ 相对于步长 $\alpha$ 的变化不再变化时。
可以根据极限的定义来看这一步
$\frac{\partial L(\theta^j_k)}{\partial \theta^j_k}=\frac{L(\theta^j_k)-L(\theta^j_{k+1})}{\theta^j_k-\theta^j_{k+1}}=\frac{\theta^j_k-\theta^j_{k+1}}{\alpha} \ \ \ Eq2$

$\alpha$ 就是步长，学习率learning rate。由Eq2可知， $\alpha$ 与 $L(\theta^j_k)-L(\theta^j_{k+1})$ 同号， $\alpha$ 取正数，决定了下一步更新的函数值会下降，此时参数会沿着极小值不断更新。（参考下图理解，把x轴换成 $\theta$ 轴思考）
在这里插入图片描述
总体来说 $\theta$ 从两边向内收，分为两种情况：

斜率为负时， $\theta$ 往右更新，即 $\theta^j_k-\theta^j_{k+1}<0$ ， $L(\theta^j_k)-L(\theta^j_{k+1})>0$
斜率为正时， $\theta$ 往左更新，即 $\theta^j_k-\theta^j_{k+1}>0$ ， $L(\theta^j_k)-L(\theta^j_{k+1})>0$
故Eq1成立。
当 $\alpha<0$ 时， $L(\theta^j_k)-L(\theta^j_{k+1})<0$ 。函数值会增大，参数会往函数极大值的方向更新， $\theta$ 整体往两边跑（此时变成梯度上升🤣）。

你认识的陌生人

关注

28
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
梯度下降的理解

取正数，决定了下一步更新的函数值会下降，此时参数会沿着极小值不断更新。（参考下图理解，把x轴换成。取什么值时，使得损失函数最小化。这些参数构造就得到了模型。就是步长，学习率learning rate。梯度下降一般是设置一个初始的参数向量。一步步更新，使得最终的每一个参数。当作自变量，每一个样本的预测值。在对每个参数求偏导为0时，即。可以根据极限的定义来看这一步。达到极小值，那么每一个参数。都是在不断的逼近到0，即。根据函数导数的定义，
复制链接

扫一扫