实验小测 BatchNorm2D 层对梯度传导的影响 (batchnorm层减去均值和除以标准差这两个步骤所使用的tensor是否detach)

这不是荒野

已于 2022-03-29 16:57:32 修改

阅读量865

点赞数 1

分类专栏：深度学习文章标签： pytorch

于 2022-03-28 14:54:48 首次发布

本文链接：https://blog.csdn.net/weixin_45878768/article/details/123794901

版权

深度学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

如今BatchNorm层已经广泛被应用于各种神经网络内，为了更加深入的了解该层的输出结果反向传播梯度的细节，提出问题：batchnorm层减去均值和除以标准差这两个步骤所使用的tensor是否做了detach处理？做了简单的测试，测试过程如下：
首先建立好实验所需数据，图片的batchsize=2，其CHW三个属性都为1，方便计算。对于bn层，为了更直观的得到结果，将affine设置为False，eps设置为0.

from torch.nn import functional as F
import torch.nn as nn
import torch

img  = torch.tensor([0, 2.0]).view(2, 1, 1, 1)
conv = nn.Conv2d(in_channels=1, out_channels=1, kernel_size=1, bias=False)
conv.weight.data = torch.tensor([1.0]).view(1, 1, 1, 1)
bn   = nn.BatchNorm2d(num_features=1, affine=False, eps=0.0)

out = conv(img)
print(out)
out = bn(out)
print(out)
out[1][0][0][0].backward()
print(conv.weight.grad)
#打印结果
tensor([[[[0.]]],


        [[[2.]]]], grad_fn=<MkldnnConvolutionBackward>)
tensor([[[[-1.]]],


        [[[ 1.]]]], grad_fn=<NativeBatchNormBackward>)
tensor([[[[0.]]]])

Process finished with exit code 0

结果中的梯度值为0，如果batchnorm层减去均值和除以标准差这两个步骤所使用的tensor做了detach处理，即(ax - m) / var中m和war是常数梯度值不应为 0 而应该为 x / var = 2，batchnorm层减去均值和除以标准差这两个步骤所使用的tensor没有进行detach处理。

这不是荒野

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
实验小测 BatchNorm2D 层对梯度传导的影响 (batchnorm层减去均值和除以标准差这两个步骤所使用的tensor是否detach)

        如今BatchNorm层已经广泛被应用于各种神经网络内，为了更加深入的了解该层的输出结果反向传播梯度的细节，提出问题：batchnorm层减去均值和除以标准差这两个步骤所使用的tensor是否做了detach处理？做了简单的测试，测试过程如下：        首先简历好实验所需数据，图片的batchsize=2，其CHW三个属性都为
复制链接

扫一扫