深度学习基础（三）：梯度下降

最新推荐文章于 2023-03-16 20:45:27 发布

'仰望星空,脚踏实地'-菱

最新推荐文章于 2023-03-16 20:45:27 发布

阅读量172

点赞数

分类专栏：深度学习基础

本文链接：https://blog.csdn.net/weixin_44365744/article/details/112243983

版权

深度学习基础专栏收录该内容

5 篇文章 0 订阅

订阅专栏

深度学习（三）梯度下降

Gradiect Descent 梯度下降

Gradiect Descent 梯度下降

什么是梯度下降？

顾名思义，梯度下降法的计算过程就是沿梯度下降的方向求解极小值（也可以沿梯度上升方向求解极大值）。求解优化问题。

使用场景？

求最小损失函数(Loss function) $L$ 使用梯度下降，目的寻找最优参数 $\theta$

公式解释？

假设 $\theta$ 有两个参数{ $\theta_1,\theta_2$ }，随机选取起始参数 $\theta_0$
计算偏微分
$\begin{bmatrix} \theta_1^1 \\ \theta_2^1 \\ \end{bmatrix}=\begin{bmatrix} \theta_1^0 \\ \theta_2^0 \\ \end{bmatrix}-\eta \begin{bmatrix} \frac {\partial L \theta_1^0 }{\partial \theta_1^0} \\ \frac {\partial L \theta_2^0 }{\partial \theta_2^0} \\ \end{bmatrix}$ $\eta$ 为learning rate 控制步幅，反复进行

简化写法，批量梯度下降
$\nabla L(\theta)= \begin{bmatrix} \frac {\partial C \theta_1 }{\partial \theta_1} \\ \frac {\partial C \theta_2 }{\partial \theta_2} \\ \end{bmatrix}$ 表示步子方向， $\theta^1=\theta^0-\eta \nabla L(\theta ^0)$

步骤

1. learning rate $\eta$ 选取

可视化参数改变时loss的改变情况
选取思想
起始状态，learning rate选大些；在几代后，learning rate减少

2. 随机梯度下降 Stochastic Gradient Descent

只算单个样本得loss，让训练更快
在这里插入图片描述

弊端
偶尔失效，每部信息量有限，对梯度估计出现偏差
解决之道
惯性保持、环境感知
经典方法
AdaGrad、动量Momentum、Adam

Momentum

$\theta^{t+1}=\theta^t-v^{t+1}$ $v^{t+1}=\mu v^t+\eta g^t$ 前进步伐由两部分组成：学习速率乘当前估计梯度和衰减的前一次步伐， $\mu$ 代表衰减系数

在这里插入图片描述

AdaGrad——历史梯度平方和

在这里插入图片描述
简化后learning rate为
$\frac{\eta}{\sqrt{\sum_{i=0}^t (g^i)^2 }}$ i代表当前时刻

Adam——梯度一阶矩和二阶矩m

公式表示：
$\theta^{t+1}=\theta^t-\frac{\eta}{\sqrt{v^t+\varepsilon}}\hat{m^t}$ $\hat{m^t}=\frac{m^t}{1-\beta_1^t},\hat{v^t}=\frac{v^t}{1-\beta_2^t}$ 其中， $\hat{m^t}$ 是一阶矩， $\hat{v^t}$ 是二阶矩， $\beta_1$ 和 $\beta_2$ 是衰减系数