类神经网络训练不起来怎么办

最新推荐文章于 2024-09-27 20:57:01 发布

GraysonCheng

最新推荐文章于 2024-09-27 20:57:01 发布

阅读量434

点赞数 1

分类专栏：李宏毅2021/2022春机器学习课程文章标签：神经网络深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_51516836/article/details/126258881

版权

李宏毅2021/2022春机器学习课程专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Optimization Fails because…(优化为什么会失败？)

随着参数的不断更新，但是training loss下降到某个地方不会再下降，但是对现在的loss不满意，所以优化是有问题的。或者是一开始不管怎么样更新参数，training loss不会发生什么样的改变，过去的一个猜想是gradient 接近于0.当微分是0的时候gradient descent就没办法更新参数了，但并不是卡在了local minima处，并不是只有再local minima处的gradien它等于0 ，还有其他的地方也会出现gradient等于0的情况，比如说saddle point（鞍点）。让gradient等于0的点，统称为critical point（临界点）
在这里插入图片描述
现在要知道的是gradient等于0 的点是local minima还是saddle point？

Tayler Series Approximation

如果是卡在local minima的话，loss现在就是没有路可以走了，但是如果卡在saddle point处的话，还是有路可以走的。
在这里插入图片描述
这个g和H都是用来弥补L（θ)和L（{θ }'）之间的距离的。H里面放的是L的第i个微分。

所以L(θ)和L（{θ }'）之间的关系是由gradient（一次微分）和hessian（二次微分）组成

Batch Normalization技术补充

思想：铲平大山，让不同维度的数据有相同范围

标准化方法：

实际操作时对batch处理
在这里插入图片描述

但是实际应用时，平均值和方差只是一个batch的，测试时使用下面的参数（训练时更新）作者：ASH丶零 https://www.bilibili.com/read/cv13085529/ 出处：bilibili

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。