Deformable Convolution应用于目标分类(占坑)

最新推荐文章于 2024-04-19 16:15:28 发布

yucicheung

最新推荐文章于 2024-04-19 16:15:28 发布

阅读量1.9k

点赞数

分类专栏：深度学习知识树文章标签： github 深度学习 deformable 目标识别

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yucicheung/article/details/78113843

版权

深度学习知识树专栏收录该内容

2 篇文章 0 订阅

订阅专栏

摘要

Deformable Convnets自从被提出以后就受到了广泛的关注，文章将网络应用于目标检测取得里很好的成果，那本人好奇的是如果将这个网络的思想应用在目标分类任务中会取得怎样的结果呢？

这个坑占了有段时间了，现在才来填，略感抱歉。

本文所有源码可以从本人的github个人主页上获取到。

Deformable convolution的概念

2D的卷积包括两个步骤：1)用一个规则的网格 $\mathcal{R}$ 在输入特征图上进行采样；2)对于采样的值用w进行加权再求和。网格 $\mathcal{R}$ 定义了感受野大小和扩张量。比如

 = {(- 1, - 1), (- 1, 0), \dots, (0, 1), (1, 1)}

$\mathcal{R}=\{(-1,-1),(-1,0),\ldots,(0,1),(1,1)\}$ 定义了一个

3×3 $3\times 3$ 的核并且扩张量(空洞)为1。
对于在输出特征图

y $y$ 上的每一个位置

p0 $p_0$ 来说，我们有

y (p 0) = \sum p n \in  ? (? n) \cdot ? (? 0 + ? n), (1)

$\mathbf y(p_0)=\sum_{p_n\in \mathcal{R}}\Bbb{w}(\Bbb p_n)·\Bbb x(\Bbb p_0+\Bbb p_n),\ \ \ (1)$ 其中

pn $p_n$ 会穷举在

 $\mathcal{R}$ 中的位置。
在可变形卷积中，用偏移

{Δpn|n=1,…,N} $\{\Delta \mathcal p_n \vert n=1,\ldots,N\}$ 对规则的网格

 $\mathcal{R}$ 进行扩充，其中

N=||. $N=\vert\mathcal{R}\vert.$ 公式(1)就变成

y (p 0) = \sum p n \in  ? (? n) \cdot ? (? 0 + ? n + Δ ? n) . (2)

$\mathbf y(p_0)=\sum_{p_n\in \mathcal{R}}\Bbb{w}(\Bbb p_n)·\Bbb x(\Bbb p_0+\Bbb p_n+\Delta \Bbb p_n).\ \ \ (2)$
现在，采样就在不规则有偏移的位置

?n+Δ?n $\Bbb p_n+\Delta \Bbb{p}_n$ 上进行。因为这个偏移

Δ? $\Delta \Bbb p$ 通常是小数，等式(2)要按以下进行双线性插值

? (?) = \sum ? G (?, ?) \cdot ? (?), (3)

$\Bbb{x(p)}=\sum_\Bbb qG\Bbb{(q,p)·x(q)},\ \ \ (3)$ 其中

? $\Bbb p$ 表示一个任意的（小数）位置(对于等式(2)

?=?0+?n+Δ?n $\Bbb p=\Bbb p_0+\Bbb p_n+\Delta \Bbb p_n$ )，

? $\Bbb q$ 穷举在特征图

? $\Bbb x$ 上的所有整数空间位置，并且

G(·，·) $G(·，·)$ 是双线性插值的核。注意

G $G$ 是二维的。它被分成两个一维的核

G (?, ?) = g (q x, p x) \cdot g (q y, p y), (4)

$G(\Bbb {q,p})=g(q_x,p_x)·g(q_y,p_y),\ \ \ (4)$ 其中

g(a,b)=max(0,1−|a−b|). $g(a,b)=max(0,1-\vert a-b\vert).$ 等式(3)
的计算会很快因为

G(?,?) $G(\Bbb{q,p})$ 只在几个

? $\Bbb q$ 上是非零的。
Fig2

Fig2

正如在图2中描述的一样，偏移是通过在同一个输入特征图上再应用一个卷积层来获得的。卷积核的空间分辨率和扩张量和目前的卷积层一样（比如，在图2中也是

3×3 $3\times 3$ 扩张量为1）。输出的偏移的域的和输入的特征图有相同的空间分辨率。通道维度

2N $2N$ 对应着

N $N$ 个2D的偏移。在训练中，用于产生输出特征和偏移的卷积核同时在进行学习。要学习到偏移量，梯度通过等式(3)和(4)中的双线性操作进行反向传播。详情参见附录A.

2.3 Deformable ConvNets
deformable convolution和RoI pooling模块与它们的平凡版本有相同的输入和输出，因此，就能方便地替换现有CNN中对应的普通模块。在实际训练中，这些添加的用于学习偏移的conv和fc层都以零权重初始化。学习率设为现有层的学习率的 $\beta$ 倍(默认 $\beta=1$ ，在Faster R-CNN中的fc层设 $\beta=0.01$ )。它们要利用等式(3)和(4)中的双线性插值，通过BP的方法训练。最终的CNN就叫做deformable ConvNets。
要把deformable ConvNets和目前为止最好的CNN架构结合起来，我们注意到这些架构都是由两个阶段组成：第一，一个深度的全卷积网络在整张输入图上产生特征图；第二，一个范围窄的针对特定任务的网络由特征图来生成结果。我们在以下内容中对这两点进行详细说明。
Deformable Convolution for Feature Extraction

应用于MNIST数据集的分类结果

应用于distorted MNIST数据集的分类结果

结论

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Deformable Convolution应用于目标分类(占坑)

摘要Deformable Convnets自从被提出以后就受到了广泛的关注，文章将网络应用于目标检测取得里很好的成果，那本人好奇的是如果将这个网络的思想应用在目标分类任务中会取得怎样的结果呢？这个坑占了有段时间了，现在才来填，略感抱歉。本文所有源码可以从本人的github个人主页上获取到。Deformable convolution的概念2D的卷积包括两个步骤：1)用一个规...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。