RNN 训练时梯度爆炸和梯度消失的理解

最新推荐文章于 2022-07-23 15:53:31 发布

larkii

最新推荐文章于 2022-07-23 15:53:31 发布

阅读量472

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44795555/article/details/102867555

版权

梯度爆炸

比方说当前点刚好在悬崖边上, 这个时候计算这个点的斜率就会变得非常大, 我们跟新的时候是按斜率 × 学习率来的, 那么这时候参数的跟新就会非常非常大, loss也会非常大

应对办法就是当斜率超过某个值比如15时, 设定斜率为15.

造成梯度爆炸的原因并不是来自激活函数 --- sigmoid , 如果把激活函数换为 ReLU 通常模型表现会更差

梯度消失

可以理解为 RNN 把 weight 变化的程度放大了

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
RNN 训练时梯度爆炸和梯度消失的理解

梯度爆炸比方说当前点刚好在悬崖边上, 这个时候计算这个点的斜率就会变得非常大, 我们跟新的时候是按斜率 × 学习率来的, 那么这时候参数的跟新就会非常非常大, loss也会非常大应对办法就是当斜率超过某个值比如15时, 设定斜率为15.造成梯度爆炸的原因并不是来自激活函数 --- sigmoid , 如果把激活函数换为 ReLU 通常模型表现会更差梯度消失可以理解为 ...
复制链接

扫一扫

larkii CSDN认证博客专家 CSDN认证企业博客

码龄5年

128: 原创

25万+: 周排名

81万+: 总排名

11万+: 访问

: 等级

1708: 积分

14: 粉丝

47: 获赞

18: 评论

128: 收藏

私信

关注

热门文章

分类专栏

最新评论

BDPK: Bayesian Dehazing Using Prior Knowledge （翻译）
棫菀: 很多信息领域的论文都可以去IEEE Xplore官网找，这篇论文可以在上面找到：https://ieeexplore.ieee.org/document/8464077
场景文本识别模型综述
Mr.Q: TPS是真的慢，推理一张图片要1-5s
BDPK: Bayesian Dehazing Using Prior Knowledge （翻译）
蓝格路: 你好，请问一下https://www.researchgate.net/profile/Can_Ding3/ 这个网址它我打不开你们能吗
P(A,B|C) and P(A|B,C)
蹦的一下就没了: 请问博主这个内容是转载于哪个资料呀？对条件独立有些疑惑想多看看
理解RNN的输入
八岁爱玩耍: 能再好好理解一下再发出来吗

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。