神经网络优化方法

最新推荐文章于 2024-07-22 11:48:26 发布

编制彩虹的鱼

最新推荐文章于 2024-07-22 11:48:26 发布

阅读量293

点赞数

文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46263532/article/details/118888049

版权

优化失败--loss不再下降

梯度消失：卡在驻点（局部极小值、鞍点）

判断：求黑塞矩阵H（多元函数的二阶偏导）

正定（特征值恒正）--局部极小值特征值有正有负--鞍点

鞍点处可沿着负的特征值--特征向量对应的方向梯度下降

如何逃离局部极小值

一、batch size selection（每个周期后需要重排shuffle）

相比于小的batch，大的batch单次更新慢，一个周期更新快，更稳定，但准确度低

解释：大的batch更容易卡在驻点，小的batch可更新逃离驻点

即使优化大的batch使其在训练数据上与小的batch准确度相近，在测试数据上依旧是小的batch的准确度更高

解释：train loss和test loss间有横向偏差，大的batch倾向于在陡峭sharp的局部极小值，小的batch倾向于在平坦flat的局部极小值，大的batch的偏差更大（小的batch易于跳出窄的峡谷）

二、momentum动量

惯性的应用

下降方向为梯度的反方向再合成之前一步下降的方向，更容易越出局部极小值

学习率调整--自适应

反复横跳导致无法到达谷底

不同参数需要设置不同的学习率

均方根差：

对于i号参数

最低0.47元/天解锁文章

编制彩虹的鱼

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
神经网络优化方法

优化失败--梯度消失卡在驻点（局部极小值、鞍点）判断：求黑塞矩阵H（多元函数的二阶偏导）正定（特征值恒正）--局部极小值特征值有正有负--鞍点鞍点处可沿着负的特征值--特征向量对应的方向梯度下降batch size selection相比于小的batch，大的batch单次更新慢，一个周期更新快，更稳定，但准确度低解释：大的batch更容易卡在驻点，小的batch可更新逃离驻点即使优化大的batch使其在训练数据上与小的batch准确度相近，在测试数据上依旧是...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。