【深度学习】梯度截断（grad_clip）

西瓜你个我特么冷

已于 2022-05-22 13:01:44 修改

阅读量3.9k

点赞数 2

分类专栏：深度学习文章标签： pytorch 深度学习 python

于 2022-05-22 11:17:32 首次发布

本文链接：https://blog.csdn.net/weixin_43822507/article/details/124908306

版权

深度学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

【深度学习】梯度截断（grad_clip）

神经网络在反向传播的过程中会产生梯度消失/梯度爆炸的问题，梯度消失/爆炸会导致网络中的参数长时间无法更新，模型进而无法得到很好的训练效果

梯度截断，就是要解决梯度消失/梯度爆炸的问题，也就是设定阈值，当预更新的梯度小于阈值时，那么将预更新的梯度设置为阈值

梯度截断通常发送在，损失函数反向传播计算完之后，优化器梯度更新之前。

在 pytorch 中通过 clip_grad_norm 方法来实现

# measure accuracy and record loss
self.optimizer.zero_grad()
loss = self.forward_loss(img_emb, cap_emb) 

# compute gradient and do SGD step 
loss.backward() 

# 梯度截断，设置阈值，当要更新的梯度小于阈值时，更新的梯度为阈值
if self.grad_clip > 0:     
    clip_grad_norm(self.params,self.grad_clip) 

# 根据梯度更新参数 
self.optimizer.step()

西瓜你个我特么冷

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
【深度学习】梯度截断（grad_clip）

神经网络在反向传播的过程中会产生梯度消失/梯度爆炸的问题，梯度消失/爆炸会导致网络中的参数长时间无法更新，模型进而无法得到很好的训练效果梯度截断，就是要解决梯度消失/梯度爆炸的问题，也就是设定阈值，当预更新的梯度小于阈值时，那么将预更新的梯度设置为阈值梯度截断通常发送在，损失函数反向传播计算完之后，优化器梯度更新之前。在 pytorch 中通过 clip_grad_norm 方法来实现
复制链接

扫一扫