梯度消失与爆炸

本文探讨了深度学习中常见的梯度消失和梯度爆炸问题,提出了解决方案,包括使用ReLU激活函数、ResNet深度残差网络、批标准化以及随机初始化策略。此外,还提到了在Kaggle房价预测任务中应用这些方法处理数据预处理和模型训练。
摘要由CSDN通过智能技术生成

梯度消失问题的解决方法
梯度消失问题
Sigmoid函数
在这里插入图片描述
在这里插入图片描述
梯度范围可能变得越来越小
在这里插入图片描述
在反向传播超过5层后,梯度可能会消失
激活函数
ReLU函数(rectified linear unit)
在这里插入图片描述
在这里插入图片描述
导数:
在这里插入图片描述
ReLU可被近似为softplut函数
在这里插入图片描述
x增加时ReLU的梯度不会消失,可以用来对正值输入进行建模,由于无需计算指数函数所以它的计算速度很快,使用它可以不再需要“预训练”过程。

ResNet:深度残差网络
训练深度网络的困难性:
在这里插入图片描述
有时,即使是在训练数据上更深层的网络性能也可能比较浅层的网络差。
一个ResNet的构造块
在这里插入图片描述
残差网络在ImageNet上的表现
在这里插入图片描述
在这里插入图片描述
细线表示训练误差,粗线表示中心裁剪(Center Crops)的验证误差,与普通网络相比&

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值