Deformable ConvNets v2: More Deformable, Better Results
Deformable ConvNets v2
论文链接: https://arxiv.org/abs/1811.11168
一、 Problem Statement
通过对deformable convolution的适应性行为研究,作者观察到,虽然其神经特征的空间支持比常规卷积更符合对象结构,但这种支持可能远远超出感兴趣的区域,导致特征受到无关图像内容的影响。因此想提高可变形卷积的能力,使得其更关注于有关的区域。
二、 Direction
提出了两个方法:
- Increase modeling power
通过使用更多的deformable convolution和引入一个modulation mechanism,使得每个样本不仅学习的偏移,而且还被学习的特征振幅所调整。因此,网络模块能够改变其样本的空间分布和相对影响。 - Stronger training
通过mimicking scheme来辅助网络取学习特征。利用R-CNN feature mimicking去除冗余的context信息。(本文不关注这部分)
三、 Method
1. Stacking More Deformable Conv Layers
Deformable Convolution v1 只在backbone的最后几个卷积层使用了。本文就想在更多的地方使用可变形卷积,分别在ResNet-50中替换conv3,conv4,conv5 层级中的3x3的卷积层,而原先知识conv5层级中被替换。
2. Modulated Deformable Modules
Deformable ConvNets模块不仅仅可以调整offsets来感知输入特征,而且还可以调整来自不同空间位置或者bins输入特征的幅度。也就是说modulation mechanism提供网络另一个维度来调整它空间支持区域。回顾一下deformable convnet v1的公式:
y ( p 0 ) = ∑ p n ∈ R w ( p n ) ⋅ x ( p 0 + p n + Δ p n ) y(p_0) = \sum_{p_n \in \R} w(p_n) \cdot x(p_0 + p_n + \Delta p_n) y(p0)=pn∈R∑w(pn)⋅x(p0+pn+Δpn)
deformable convnet v2 比之前多了一个 modulation scalar, Δ m n \Delta m_n Δmn
y ( p 0 ) = ∑ p n ∈ R w ( p n ) ⋅ x ( p 0 + p n + Δ p n ) ⋅ Δ m n y(p_0) = \sum_{p_n \in \R} w(p_n) \cdot x(p_0 + p_n + \Delta p_n) \cdot \Delta m_n y(p0)=pn∈R∑w(pn)⋅x(p0+pn+Δpn)⋅Δmn
这个 Δ m n \Delta m_n Δmn范围是 [ 0 , 1 ] [0,1] [0,1]。也就是说,旁支的输出是 3 N 3N 3N channels。 前面 2 N 2N 2N 通道还是对应Offsets的学习,后面的一个通道输入到sigmoid layer后,输出的就是modulation scalars。
对于modulated deformable RoIpooling如下所示:
y
(
i
,
j
)
=
∑
p
∈
b
i
n
(
i
,
j
)
x
(
p
0
+
p
+
Δ
p
i
j
)
⋅
Δ
m
i
j
/
n
i
j
y(i,j) = \sum_{p \in bin(i, j)}x(p_0+p+\Delta p_{ij}) \cdot \Delta m_{ij}/n_{ij}
y(i,j)=p∈bin(i,j)∑x(p0+p+Δpij)⋅Δmij/nij
也就是知识蒸馏。(本文不涉及这个部分)
也是比上一个版本多了一个modulation scalars。
四、 Conclusion
改进Deformable ConvNets。