论文阅读|Soft-gated Skip Connections

最新推荐文章于 2022-09-03 11:26:35 发布

xiaoweiyuya

最新推荐文章于 2022-09-03 11:26:35 发布

阅读量1.3k

点赞数

分类专栏：人体姿态估计文章标签：深度学习计算机视觉目标检测

本文链接：https://blog.csdn.net/weixin_45782047/article/details/123165041

版权

人体姿态估计专栏收录该内容

19 篇文章 14 订阅

订阅专栏

原文：Toward fast and accurate human pose estimation via soft-gated skipconnections

2002.11098.pdf (arxiv.org)

参考资料：论文笔记_人体姿态估计：soft-gated skip connections - 知乎 (zhihu.com)

Abstract

虽然FCN内的残差连接已被证明是实现高精度的关键，但我们在提高精度和效率方面重新分析了这一设计选择。
贡献：
- 我们提出了带有每个通道可学习参数的 skip connections，以控制宏模块内每个通道的数据流。
- 引入了一个混合网络，它结合了沙漏和U-Net结构，在相同的参数预算下最小化了网络中的身份连接（identity connections）数量，并提高了性能。
该模型在MPII和LSP数据集上实现了SOTA。此外，在模型大小和复杂度降低3倍的情况下，与原始沙漏网络相比，性能没有下降。

Introduction

虽然越来越多的高精度方法被提出，但在内存（参数数量）和计算能力（FLOPS）限制的情况下，没有任何方法可以接近这一精度。这篇文章的重点就是在这些限制下提供对现有技术的改进。
低内存和低计算能力下的人体姿态估计问题目前还很少受到研究界的关注，最新的方法当中都是通过引入新颖的架构变化来提高人体姿态估计的准确性。
残差网络已经被证明是FCN中提升精度的典型，因此在人体姿态估计的背景下进行新的分析，证明通过简单的改进可以获得复杂性和准确性的提升。

本文贡献：

提出了具有每个通道可学习参数的门控跳过连接，以控制模块内每个通道的数据流，可以了解每个通道有多少来自前一个阶段的信息传播到下一个通道，并鼓励每个模块学习更复杂的功能。
我们引入了一种混合网络结构，它结合了HourGlass和U-Net架构。新提出的架构最大限度地减少了网络中的身份连接数量，并显示在相同数量的参数预算内提高性能。
与原始 HourGlass 网络相比，我们的方法能够减少 65% 的模型大小和复杂度（即快两倍以上），节点性能提高。我们模型的更大版本在 MPII 和 LSP 数据集上实现了最先进的结果。

Related work

Efficient neural networks

深层网络的深度是它们性能的一个关键方面，但不断增加的深度也会使得训练网络变得困难，参数数目增加并且会产生梯度消失或者爆炸。通过在神经网络中引入跳跃连接，允许信息在网络中更容易地流动，从而缓解消失或者爆炸的现象。

HPE

HourGlass 和 U-Net 架构都由一堆编码器-解码器全卷积网络组成，在编码器和解码器部分之间有跳跃连接。在它们之间的每个跳跃连接上，通常都会放置一个残差块。分辨率降低，分别提高了 4 倍(从 64×64px 到 4×4px).

Method

A.Soft-gated residual connections

残差网络常被认为是实现深层网络训练的关键，成为当前先进的神经网络架构中必不可少的模块，但作者认为尽管如此，在某些情况下，identity connection（shrotcut种采用恒等映射）可能会有一些坏处并且阻碍模型的性能。

为了训练深层次的网络，ResNetv2和Highway Network中引入了hard gate门控网络， $g(x)=\sigma (W_{g}x+b_{g})$ ,

$W_{g}$ 和 $b_{g}$ 代表给定的门控变换的权重和偏差。通常g(x)是使用1×1的卷积核来实现，而这样的门控结构引入ResNet结构当中时，会导致低于恒等映射的原始结构的结果，甚至是无法收敛。

目前所有类似沙漏架构的网络都认为使用跳过连接skip connection的好处是理所当然的，然而我们认为这并不是普遍正确的，并且在HPE的情况下讨论了它们的影响，表明我们的方法可以更好。

普遍认为ResNets 每个残差单元学习相对于前一个单元的小修正。因此，只要保留第一个和最后一个单元，删除宏模块内的任意剩余单元导致的性能下降微不足道。由于在HourGlass Stack中，通常在编码器和解码器内部的每个分辨率级别使用非常少量的残差块(通常是一个)，强制块学习关于输入的校正阻碍了学习过程，并且与[16]的发现相反，后者建议在分辨率之间的转换级别需要由网络学习新功能。通过解决这个问题，我们将在下面展示一个 4 堆栈 HG 网络匹配并优于通常使用 8 个或更多堆栈的所有先前方法，这表明我们的网络可以学习更强大和更多样化的功能。

本文提出了一种使用channel-wise soft gating的机制来改进残差单元，它的定义为：

$x_{l}\in \mathbb{R} ^{C\times w\times h}$ 是来自前一层的输入， $W_{l}$ 是与第l个残差块相关的一组权重，F是使用一组卷积层实现的残差函数（本文中使用图1中描述的模块）。 $\alpha \in \mathbb{R}^{C\times1 }$ 是通过反向传播学习的channel-wise soft gate（缩放因子）。

在这里，我们将新提出的软门控机制（soft-gating）应用于 [4] 中的最先进模块，该模块以前用于量化神经网络。在这个过程中，我们探索了两种不同的设置：（a）对所有通道使用单个软门，（b）为每个输入通道学习一个值。如表 II 的结果所示，由于不同的通道编码不同类型的信息，所以channel-wise版本可以获得最佳结果，该版本相对于baseline（ $\alpha =1$ ）的整体性能提高了1%。

为了可视化我们在skip connection中添加的比例因子 $\alpha$ 的效果以允许soft-gating，我们在Figure3中绘制了比例因子的输出分布。有趣的是，我们注意到大多数值都聚集在 0 附近，这意味着大部分信息是不需要的，甚至可能对训练有害。无论深度如何，在网络的所有层都观察到这种现象。

这些观察结果证实了这个soft-gating参数的重要性及其过滤冗余信息的能力。这在图 4 中得到了进一步的加强，在图4中，本文提出的残差模块变化学习到的特征在求和后被保留，因为缩放因子允许模块只选择来自前一阶段的有用信息。我们也可视化了这种比例因子如何影响补充材料中权重的分布。请注意，来自前一个块的大部分特征都被引入的channel-wise scaling factor缩放因子过滤。

图 4：baseline（图 4a）和proposed（图 4b）的残差块输出特征分布的比较。请注意，所提出的方法在soft-gating function的帮助下，可以保留残差模块l学习到的函数。相反，baseline被迫合并来自前一个模块的所有信息，因此限制了它的表示能力。

B.Improved network architecture

采用了一种新的混合架构，结合了沙漏和U-Net的网络结构。通过最小化网络当中identity connection的数量，我们能够在与现有网络相同数量的参数的情况下获得卓越的性能。

2.a baseline:来自编码器的特征在解码器中使用元素求和进行合并，得到相同的维度 N
2.b concatenation:首先将特征连接起来,然后经过一个具有 3×3 内核的卷积层将它们的维数降低回 N。
2.c concatenation+grouped convolution:将特征连接起来，然后使用具有大小为 3×3 的内核的分组卷积层进行处理。（分组卷积可以减少参数量）

[23] 中介绍的 HourGlass 架构如图 2 所示，由一系列编码器-解码器宏模块组成，其中预测在每个阶段逐渐细化。编码器中特定分辨率级别的每个残差模块都与解码器中的对应模块相连。可以使用identity function（U-Net）或使用另一个残差模块（HG）来实现连接。通常在 HG 中，此数据使用元素求和进行融合。

然而，在这里我们认为直接添加来自两个不同分布的特征不是最优的，因此我们探索了聚合来自不同来源（即网络中的位置）的数据的各种方法。因此，我们探索了以下选项：

连接特征(concat)，然后在残差模块内部使用带有 3×3 过滤器的卷积层处理它们（图2.b)
连接特征(concat)，然后在残差模块内使用分组卷积层组合它们，其中组的数量与数据源的数量相对应（此处为2，如图2.c）。最后，我们探讨了编码器和解码器部分之间skip connection的各种块选择

如表IV中的结果所示，对于相同的参数预算(约分布在2个堆栈上的3.4M)，连接这些特征并对它们进行联合分析(groups=1)会产生最好的结果。在MPII验证集上进行评估时，在baseline之上改进了0.5%。

虽然我们探索了放置在编码器和解码器之间的skip connection的变换层的一系列不同选择，例如：[BatchNorm→Relu→1×1 Conv2D]、[BatchNorm→Relu→3×3 Conv2D]、[1×1 Conv2D]等，但我们发现，只要整个网络上的参数数量保持大致相同，它们在多次运行中没有明显的差异。这表明，在big-skip connections上发现的层简单地学习了一个特征投影。

Conclusion

提出的块具有geted per-channel skip connections，其中每个通道都有一个可学习的参数，用于控制当前和前一个残差模块之间的数据流。
介绍了一种混合网络结构，它结合了沙漏和U-Net体系结构。新提出的架构最小化了网络中的identity connections的数目，并在相同的参数预算数下提高了性能。
我们的模型在 MPII 和 LSP 数据集上获得了最先进的结果。此外，模型大小和复杂度减少了 65%，与原始沙漏网络相比，我们的性能没有下降。