Deformable ConvNets v2 论文笔记

最新推荐文章于 2024-07-25 09:42:27 发布

Tianchao龙虾

最新推荐文章于 2024-07-25 09:42:27 发布

阅读量1k

点赞数

分类专栏：网络Tricks 文章标签：深度学习神经网络计算机视觉

本文链接：https://blog.csdn.net/wuchaohuo724/article/details/120865755

版权

关键词由CSDN通过智能技术生成

15 篇文章 0 订阅

订阅专栏

Deformable ConvNets v2: More Deformable, Better Results

Deformable ConvNets v2

论文链接: https://arxiv.org/abs/1811.11168

通过对deformable convolution的适应性行为研究，作者观察到，虽然其神经特征的空间支持比常规卷积更符合对象结构，但这种支持可能远远超出感兴趣的区域，导致特征受到无关图像内容的影响。因此想提高可变形卷积的能力，使得其更关注于有关的区域。

提出了两个方法:

Increase modeling power
通过使用更多的deformable convolution和引入一个modulation mechanism，使得每个样本不仅学习的偏移，而且还被学习的特征振幅所调整。因此，网络模块能够改变其样本的空间分布和相对影响。
Stronger training
通过mimicking scheme来辅助网络取学习特征。利用R-CNN feature mimicking去除冗余的context信息。(本文不关注这部分)

Deformable Convolution v1 只在backbone的最后几个卷积层使用了。本文就想在更多的地方使用可变形卷积，分别在ResNet-50中替换conv3，conv4，conv5 层级中的3x3的卷积层，而原先知识conv5层级中被替换。

Deformable ConvNets模块不仅仅可以调整offsets来感知输入特征，而且还可以调整来自不同空间位置或者bins输入特征的幅度。也就是说modulation mechanism提供网络另一个维度来调整它空间支持区域。回顾一下deformable convnet v1的公式:

$y(p_0) = \sum_{p_n \in \R} w(p_n) \cdot x(p_0 + p_n + \Delta p_n)$

deformable convnet v2 比之前多了一个 modulation scalar， $\Delta m_n$

$y(p_0) = \sum_{p_n \in \R} w(p_n) \cdot x(p_0 + p_n + \Delta p_n) \cdot \Delta m_n$

这个 $\Delta m_n$ 范围是 $[0, 1]$ 。也就是说，旁支的输出是 $3 N$ channels。 前面 $2 N$ 通道还是对应Offsets的学习，后面的一个通道输入到sigmoid layer后，输出的就是modulation scalars。

对于modulated deformable RoIpooling如下所示:

$\sum_{p \in bin(i, j)}x(p_0+p+\Delta p_{ij}) \cdot \Delta m_{ij}/n_{ij}$
也就是知识蒸馏。(本文不涉及这个部分)
也是比上一个版本多了一个modulation scalars。

改进Deformable ConvNets。

关注

专栏目录