深度学习之梯度裁剪（Gradient Clipping）

最新推荐文章于 2025-03-29 23:50:47 发布

WTIAW.TIAW

最新推荐文章于 2025-03-29 23:50:47 发布

阅读量1k

点赞数 2

文章标签：深度学习人工智能机器学习

原文链接：https://zhuanlan.zhihu.com/p/203085892

版权

梯度剪裁是解决神经网络训练中梯度爆炸问题的有效方法。通过限制梯度的范围或基于L2范数进行缩放，可以防止模型在优化过程中越过最优解。在PyTorch中，这通常在backward计算梯度后，step更新权重之前进行。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

梯度剪裁的原因

神经网络是通过梯度下降来学习的。而梯度爆炸问题一般会随着网络层数的增加而变得越来越明显。如果发生梯度爆炸，那么就是学过了，会直接跳过最优解。

例如：在反向传播中，假设第一层倒数乘以权重> 1，随着向前网络的传播的层数越多，梯度可能会越来越大。（梯度消失相反）

所以需要梯度裁剪，避免模型越过最优点。

梯度裁剪的使用

常见的梯度裁剪有两种

确定一个范围，如果参数的gradient超过了，直接裁剪
根据若干个参数的gradient组成的的vector的L2 Norm进行裁剪

第一种方法，比较直接，对应于pytorch中的nn.utils.clip_grad_value(parameters, clip_value). 将所有的参数剪裁到 [ -clip_value, clip_value]

第二中方法也更常见，对应于pytorch中clip_grad_norm_(parameters, max_norm, norm_type=2)。如果所有参数的gradient组成的向量的L2 norm 大于max norm，那么需要根据L2 norm/max_norm 进行缩放。从而使得L2 norm 小于预设的 clip_norm

梯度裁剪的使用位置

在backward得到梯度之后，step()更新之前，使用梯度剪裁。从而完成计算完梯度后，进行裁剪，然后进行网络更新的过程。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。