优化失败--loss不再下降
梯度消失:卡在驻点(局部极小值、鞍点)
判断:求黑塞矩阵H(多元函数的二阶偏导)
正定(特征值恒正)--局部极小值 特征值有正有负--鞍点
鞍点处可沿着负的特征值--特征向量对应的方向梯度下降
如何逃离局部极小值
一、batch size selection(每个周期后需要重排shuffle)
相比于小的batch,大的batch单次更新慢,一个周期更新快,更稳定,但准确度低
解释:大的batch更容易卡在驻点,小的batch可更新逃离驻点
即使优化大的batch使其在训练数据上与小的batch准确度相近 ,在测试数据上依旧是小的batch的准确度更高
解释:train loss和test loss间有横向偏差,大的batch倾向于在陡峭sharp的局部极小值,小的batch倾向于在平坦flat的局部极小值,大的batch的偏差更大(小的batch易于跳出窄的峡谷)
二、momentum动量
惯性的应用
下降方向为梯度的反方向再合成之前一步下降的方向,更容易越出局部极小值
学习率调整--自适应
反复横跳导致无法到达谷底
不同参数需要设置不同的学习率
均方根差:
对于i号参数