神经网络优化方法

优化失败--loss不再下降

梯度消失:卡在驻点(局部极小值、鞍点)

判断:求黑塞矩阵H(多元函数的二阶偏导)

正定(特征值恒正)--局部极小值   特征值有正有负--鞍点

鞍点处可沿着负的特征值--特征向量对应的方向梯度下降

如何逃离局部极小值

一、batch size selection(每个周期后需要重排shuffle)

相比于小的batch,大的batch单次更新慢,一个周期更新快,更稳定,但准确度低

解释:大的batch更容易卡在驻点,小的batch可更新逃离驻点

即使优化大的batch使其在训练数据上与小的batch准确度相近 ,在测试数据上依旧是小的batch的准确度更高

解释:train loss和test loss间有横向偏差,大的batch倾向于在陡峭sharp的局部极小值,小的batch倾向于在平坦flat的局部极小值,大的batch的偏差更大(小的batch易于跳出窄的峡谷)

二、momentum动量

惯性的应用

下降方向为梯度的反方向再合成之前一步下降的方向,更容易越出局部极小值

学习率调整--自适应

反复横跳导致无法到达谷底

不同参数需要设置不同的学习率

均方根差:

对于i号参数 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值