Unormalized Resnet

最新推荐文章于 2023-04-04 15:34:31 发布

MarDino

最新推荐文章于 2023-04-04 15:34:31 发布

阅读量387

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/weixin_44106928/article/details/113803251

版权

本文探讨了ResNet中批量归一化(BN)的优缺点，并通过信号传播可视化方法分析了ResNetV2中BN-ReLU结构下通道均值平方和方差的线性增长。提出Normalizer-Free ResNet结构，解决信号传播问题。通过Scaled weight standardization消除均值偏移，实现不依赖BN的网络训练。实验结果显示，无规范化ResNet在不同Batchsize下表现稳定。

摘要由CSDN通过智能技术生成

介绍

现在BN层被广泛应用于图像分类网络，批量归一化的特性能保证信号不会过大，能良好的传播到下一层神经网络当中。但它也有一些缺点，如：

依赖bachsize，当batchsize较小时，效果不好
破坏一个batch内样本之间的独立性
带来额外的计算和显存开销
导致奇怪的Bug

本文试图从信号传播可视化，合适的权重初始化等角度，摆脱CNN对BN层的依赖，保证每一层网络的信号传播（不至于信号幅度过大，爆炸）。

绘制信号传播(Signal Propagation Plots)

为了更加直观看到信号在Resnet内传播时的变化，我们提出了一种信号可视化的方法。即给定一个服从高斯分布的随机输入（或者真实样本数据），给网络一个固定的随机初始化，然后统计网络中各个地方的激活值，主要观察以下三个统计量

通道均值平方（Average Channel Squared Mean），在NHW维度上计算均值的平方，然后在通道维度上取平均
通道平均方差（Average Channel Variance），在NHW维度上计算方差，然后在通道维度上取平均。该统计量可以反应信号是爆炸还是弥散了。
残差分支上的通道平均方差（Average Channel Variance on the end of the residual branch），这可以反应残差分支（即残差块的主分支）是否被正确初始化了。

此外ResNet关于BN和ReLU激活的放置位置一直以来都有争议，在这次实验内，我们也分别记录了两种不同放置位置的统计量（以600层的ResNetV2为测试模型，注意不是原版ResNet）

ResNetV2

这是何恺明等人提出的一个变种，通过预先BN和激活，再输入到卷积层等结构，其优点是收敛速度比原版的快。下面是一个示意图
ResnetV2
统计图
其中蓝线画的是 BN接ReLU 的结构，红线画的是 ReLU接BN 的结构，黑色点表示一个stage的结束。
我们可以观察到：

BN-ReLU结构下，Average Channel Variance线性增长

在BN-ReLU结构中，Average Channel Variance的方差在一个Stage内，呈现线性增长，然后到了第二个stage的第一个Block（我们也称Transition Block），又被重置。这是因为在普通的Block下，跨层连接是将输入连接到输出的
普通Block
这个残差块的公式可以写成
$X_{l+1}=F_l(X_l)+X_l$
对应的方差可写为
$Var(X_{l+1})=Var(F_l(X_l))+Var(X_l)$
由于跨层连接的分支没有经过BN，进而导致方差呈线性增长