DIDL1_基础优化算法

最新推荐文章于 2024-11-02 09:55:19 发布

Mafia.M.A

最新推荐文章于 2024-11-02 09:55:19 发布

阅读量631

点赞数

分类专栏：深度学习文章标签：算法深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45427596/article/details/128426732

版权

深度学习专栏收录该内容

16 篇文章 0 订阅

订阅专栏

基础优化算法

梯度下降
总结

梯度下降

挑选一个初始值 $w_0$
重复迭代参数 t=1，2，3

$w_t$ 等于上一个时刻 $w_t-1$ 减去一个（学习率标量和损失函数关于 $w_t-1$ 处的梯度）
沿梯度方向将增加损失函数值
学习率：步长的超参数

选择学习率

不能太小：每一次走的步长很有限，到达一个点需要走非常多步，计算梯度次数太多（贵）
不能太长：步长太大，迈过了梯度下降的地方，使得一直在震荡并没有在下降

小批量随机梯度下降

在整个训练集上算梯度太贵（损失函数是对所有样本的统计）
一个深度神经网络模型可能需要数分钟至数小时
我们可以随机采样b个样本 $i_1,i_2,..., i_b$ 来近似损失

b是批量大小，另一个重要的超参数

选择批量大小Batch_size

不能太小：每次计算量太小，不适合并行来最大利用计算资源
不能太大：内存消耗增加浪费计算，例如如果所有样本都是相同的

总结

梯度下降通过不断沿着反梯度方向更新参数求解
小批量随机梯度下降时深度学习默认的求解算法
两个重要的超参数是批量大小和学习率

初始化模型参数、定义模型、定义损失函数、定义优化算法、训练

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。