优化算法 优化器

目录

数据量的角度 3个:

一般用的梯度下降方法:

数学角度 梯度下降: 

一般梯度下降:

随机梯度下降:

小批量梯度下降:

梯度下降 学习率比较:

 

从梯度大小方向上考虑:

都是基于股票上的EMS思想  (Exponential Moving Average)是指数移动平均值。  动量梯度下降法 + RMSprop =Adam

动量梯度下降法:加快梯度下降

RMSprop:减少纵向 摆动  直面最小点 加快梯度下降   允许使用较大的学习率

总结:梯度决定下降方向   学习率决定下降大小   两者结合高效


 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

求出某个参数梯度(偏导)形状 和 原始参数形状相同

数据量的角度 3个:

一般用的梯度下降方法:

随机梯度下降

adam

随机梯度下降+动量

 

数学角度 梯度下降: 

 

 

 

 

一般梯度下降:

每次要对所有数据求梯度 在求平均  计算量太大  开销与数据成比例增长

 

随机梯度下降:

随机的从数据中选取一个数据 计算梯度   其实是对梯度的一个估计  还是无偏估计

 

 

 

小批量梯度下降:

 

梯度下降 学习率比较:

随机梯度下降比梯度下降更快一些

批量取得过小1   随机梯度下降不稳定  在前面一段图像会抖

批量取一般:10         耗时少    收敛平缓

 

批量取所有样本:1000    后面变化很缓   形状像梯子

 

学习率过大 最后损失可能会爆

学习率非常小:递减的非常慢  收敛速度慢    可能需要很多步 才能达到最好的地方

 

从梯度大小方向上考虑:

都是基于股票上的EMS思想  (Exponential Moving Average)是指数移动平均值。  动量梯度下降法 + RMSprop =Adam

动量梯度下降法:加快梯度下降

 

RMSprop:减少纵向 摆动  直面最小点 加快梯度下降   允许使用较大的学习率

方法:对微分平方在开方

 

Adam是 动量梯度下降法   RMSprop的结合

 

 

 

 

 

 

 

 

 

 

 

 

 

 

总结:梯度决定下降方向   学习率决定下降大小   两者结合高效

 

 

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值