[CNN-grad]1. 梯度爆炸实操|梯度消失|模型坍塌初识

最新推荐文章于 2023-07-11 15:25:36 发布

呼啦圈正在输入中...

最新推荐文章于 2023-07-11 15:25:36 发布

阅读量2.2k

点赞数 1

分类专栏：神经网络-梯度深度学习-卷积

本文链接：https://blog.csdn.net/weixin_45745378/article/details/113619483

版权

神经网络-梯度同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

深度学习-卷积

2 篇文章 0 订阅

订阅专栏

1. 神经网络梯度爆炸实操

在深度学习中，网络常见的问题有两种，一个是梯度消失（也称梯度弥散），另一个是梯度爆炸，其实还有一个就是模型坍塌（这个模型坍塌在网络设计的较为合理的前提下，会在生成模型GAN系列中出现）。

一、梯度消失

在损失下降的时候，我们希望损失下降到0，但是，神经网络实际上损失下降到0是有问题的，

其一：就是损失到0是一种过拟合的现象；
其二：在训练时，如果损失到0，然后突然出现NAN，那么就意味着，梯度不能更新了，有一种很大的可能就是梯度消失。
解决梯度消失，我们通常会加入BN，加入残差，会在很大的一定程度上解决这个问题，通过跳跃连接（残差），还有就是在对数据进行归一化。

二、梯度爆炸

下面是梯度爆炸的实操，下面会导致梯度爆炸，在训练时，梯度爆炸的现象是，第一轮损失是比较低的，例如下面这种情况：第一轮损失比较小，第二轮就猛增，这种在训练开始的时候出现的现象，就会导致梯度爆炸，因为在验证的时候也加了梯度更新，梯度就不停的累加，导致梯度很大，损失也会变大，因此在写代码的时候要注意验证集不能使用梯度更新的三步。

[opoch=1] tain_avg_loss : 6.223523
[opoch=2] tain_avg_loss : 40.223523
[opoch=2] tain_avg_loss : 45.223523
[opoch=2] tain_avg_loss : 50.223523

for epoch in range(EPOCH):

	net.train()
	for x, y in train_loader:
		out = net(x)
		loss = loss_func(out, y)
		
		# 训练时使用梯度更新的三步
		optimizer.zero_grad()
		loss.backward()
		optimizer.step()
		
		print(loss.item())
		
	net.eval()
	for x, y in val_loader:
		out = net(x)
		loss = loss_func(out, y)
		
		# 测试时不能加梯度更新的三步
		optimizer.zero_grad()
		loss.backward()
		optimizer.step()

三、模型坍塌

在生成模型中，例如GAN中，需要通过调参，才能将网络的训练的比较好，GAN中，出现模型坍塌的情况，损失会突然变成NAN，这样有可能是模型坍塌的，这个模型坍塌，在自己设计的生成模型中，可能会出现，因此，要注意。

呼啦圈正在输入中...

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
[CNN-grad]1. 梯度爆炸实操|梯度消失|模型坍塌初识

1. 神经网络梯度爆炸实操在深度学习中，网络常见的问题有两种，一个是梯度消失（也称梯度弥散），另一个是梯度爆炸，其实还有一个就是模型坍塌（这个模型坍塌在网络设计的较为合理的前提下，会在生成模型GAN系列中出现）。一、梯度消失在损失下降的时候，我们希望损失下降到0，但是，神经网络实际上损失下降到0是有问题的，其一：就是损失到0是一种过拟合的现象；其二：在训练时，如果损失到0，然后突然出现NAN，那么就意味着，梯度不能更新了，有一种很大的可能就是梯度消失。解决梯度消失，我们通常会加入BN，加
复制链接

扫一扫

专栏目录