深度学习中的优化算法如何理解--SGD

文章目录


学了很久的深度学习,忽然感觉对于知识的摄入只是填鸭式学习,少了主动思考,因此准备就简单问题的理解出发对已经学习知识做系统整理。

提到优化算法那么就要涉及到优化问题,简单介绍一下什么是凸集、凸函数、凸优化。
凸集:集合中任意两个样本连接后的线段仍然属于集合,那么就是凸集。
凸函数:两个自变量的函数值求和总是大于等于自变量中值的函数值。
凸优化:给定变量属于凸集,目标函数是凸函数,那么求解这一问题就是属于凸优化问题。
在这里插入图片描述

(但是深度学习中大多数都是非凸问题…,简单理解,多多指正)

1. SGD算法

【是什么?】SGD算法在深度学习中十分常见,中文名叫随机梯度下降。
【训练流程】首先简单回顾一下深度学习训练流程,模型中参数初始化,一个前向传递(就是过一遍模型),然后计算损失,然后损失进行反向传递计算梯度,最后是优化器对参数进行更新(当然更新之前需要对参数梯度进行清零)。SGD算法就是参数优化策略问题,也就是这里优化器中所指定的优化算法。
【理论】
w ← w − η ∂ L ∂ w (1) w\leftarrow{w-\eta\frac{\partial{L}}{\partial{w}}}\tag{1} wwηwL(1)

由于为了理解原理,所以下标等没有那么严格表示,简单理解即可,简单充实一下:随机梯度下降就是梯度是对一个样本求梯度梯度下降是对所有样本梯度求和再取均值;小批量随机梯度下降是小批次中样本梯度求均值,大多数使用的都是小批量梯度下降

其实之前只是默认了这个更新规则,忽然看见李沐老师对于这个规则进行了进一步的解释。我就简单写一下流程:
在这里插入图片描述
未完待续…

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值