目录
都是基于股票上的EMS思想 (Exponential Moving Average)是指数移动平均值。 动量梯度下降法 + RMSprop =Adam
RMSprop:减少纵向 摆动 直面最小点 加快梯度下降 允许使用较大的学习率
求出某个参数梯度(偏导)形状 和 原始参数形状相同
数据量的角度 3个:
一般用的梯度下降方法:
随机梯度下降
adam
随机梯度下降+动量
数学角度 梯度下降:
一般梯度下降:
每次要对所有数据求梯度 在求平均 计算量太大 开销与数据成比例增长
随机梯度下降:
随机的从数据中选取一个数据 计算梯度 其实是对梯度的一个估计 还是无偏估计
小批量梯度下降:
梯度下降 学习率比较:
随机梯度下降比梯度下降更快一些
批量取得过小1 随机梯度下降不稳定 在前面一段图像会抖
批量取一般:10 耗时少 收敛平缓
批量取所有样本:1000 后面变化很缓 形状像梯子
学习率过大 最后损失可能会爆
学习率非常小:递减的非常慢 收敛速度慢 可能需要很多步 才能达到最好的地方
从梯度大小方向上考虑:
都是基于股票上的EMS思想 (Exponential Moving Average)是指数移动平均值。 动量梯度下降法 + RMSprop =Adam
动量梯度下降法:加快梯度下降
RMSprop:减少纵向 摆动 直面最小点 加快梯度下降 允许使用较大的学习率
方法:对微分平方在开方
Adam是 动量梯度下降法 RMSprop的结合
总结:梯度决定下降方向 学习率决定下降大小 两者结合高效