梯度裁减---学习笔记

最新推荐文章于 2024-01-05 15:33:59 发布

Wsyoneself

最新推荐文章于 2024-01-05 15:33:59 发布

阅读量416

点赞数 1

分类专栏： deeplearning 文章标签：深度学习 pytorch python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45647721/article/details/126593480

版权

deeplearning 专栏收录该内容

99 篇文章 10 订阅

订阅专栏

神经网络是通过梯度下降来学习的。而梯度爆炸问题一般会随着网络层数的增加而变得越来越明显。如果发生梯度爆炸，那么就是学过了，会直接跳过最优解。
例如：在反向传播中，假设第一层倒数乘以权重> 1，随着向前网络的传播的层数越多，梯度可能会越来越大。（梯度消失相反）
所以需要梯度裁剪，避免模型越过最优点。
梯度裁剪的使用：常见的梯度裁剪有两种
1. 确定一个范围，如果参数的gradient超过了，直接裁剪：比较直接，对应于pytorch中的
```
nn.utils.clip_grad_value(parameters, clip_value)
```
  . 将所有的参数剪裁到 [ -clip_value, clip_value]
2. 根据若干个参数的gradient组成的的vector的L2 Norm进行裁剪：也更常见，对应于pytorch中
```
clip_grad_norm_(parameters, max_norm, norm_type=2)
```
  。如果所有参数的gradient组成的向量的L2 norm 大于max norm，那么需要根据L2 norm/max_norm 进行缩放。从而使得L2 norm 小于预设的 clip_norm
梯度裁剪的使用位置：在backward得到梯度之后，step()更新之前，使用梯度剪裁。从而完成计算完梯度后，进行裁剪，然后进行网络更新的过程。

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。