Deformable - DETR—DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION可变形的DERT

程序小旭

于 2024-10-11 22:24:41 发布

阅读量845

点赞数 12

分类专栏：深度学习人工智能算法文章标签：目标检测人工智能计算机视觉

本文链接：https://blog.csdn.net/weixin_46167190/article/details/142863166

版权

人工智能算法同时被 2 个专栏收录

65 篇文章 3 订阅

订阅专栏

深度学习

52 篇文章 0 订阅

订阅专栏

Deformable - DETR用于端到端物体检测的可变形的DERT解析

Deformable Convolution 可变形卷积

首先我们要先掌握好普通卷积的定义公式为：

$\mathbf{y}\left(\mathbf{p}_{0}\right)=\sum_{\mathbf{p}_{n} \in \mathcal{R}} \mathbf{w}\left(\mathbf{p}_{n}\right) \cdot \mathbf{x}\left(\mathbf{p}_{0}+\mathbf{p}_{n}\right)$

其中我们的p0代表的是进行卷积操作的时候，卷积核与输入图像重合区域的中心点坐标

在这里插入图片描述

同时公式中提到了pn是属于R的 R定义了卷积操作的kernel size和dilation 可以理解是一个相对位置矩阵。

R = {(-1, -1), (-1,0), … , (0, 1),(1, 1)}

在这里插入图片描述

可变形卷积的定义公式为：

$\mathbf{y}\left(\mathbf{p}_{0}\right)=\sum_{\mathbf{p}_{n} \in \mathcal{R}} \mathbf{w}\left(\mathbf{p}_{n}\right) \cdot \mathbf{x}\left(\mathbf{p}_{0}+\mathbf{p}_{n}+\Delta \mathbf{p}_{n}\right)$

△pn 是学习到的值，是浮点型数据,由图像经过普通卷积计算得到（通常也将其称为位置偏移）

既然说△pn是一个可以学习到浮点数值，那么第一步我们就应该明确如何的得到我们的△pn的值用来参与可变形卷积的计算呢？

我们列举下面的一个示例来进行进一步的说明：

conv3x3
in channel=3
outchannel=18 (outchannel=2*kernelsize*kernelsize)
stride=1
padding =1

在这里插入图片描述

我们的卷积核在黄色的位置处来进行普通的卷积运算。（每一个卷积核与3通道的输入进行计算的结果即为18个通道中的一个通道的黄色区域位置。）

我们将两个通道看成是一个整体：计算得到的值分别作为x和y

我们经过展平处理之后就可以得到kernelsize*kernelsize个（x,y）坐标信息，可以将其看作是一个矩阵。

在这里插入图片描述

每一个的位置的xy坐标即为我们需要的△pn 的值，它就对应的是卷积核同样的位置处的△pn的值。

到此我们就了解到了△pn值的由来了。

可变形卷积的操作过程

之后我们就需要关注可变形卷积的操作过程了。

在这里插入图片描述

我们首先将得到的△pn的结果带入到可变形卷积后面的那部分公式中

$\mathbf{p}=\mathbf{p}_{0}+\mathbf{p}_{n}+\Delta \mathbf{p}_{n}=(3,4)+(-1,1)+(1.6,3.2)=(3.6,8.2)$

得到的就是我们蓝色的像素点偏移之后的位置坐标 （紫色位置处的红点）因为是浮点数近似为一个亚像素位置

(3.6，8.2）临近的4个像素点分别为（3，8）、（3，9）、（4，8）、(4，9)

我们根据同样的方式就可以得到另外的8个亚像素点的位置信息。

在这里插入图片描述

我们通过矩阵计算的方式得到这种情况下的可变形卷积运算所得到值，将其放入的输出的指定位置。

那么问题就产生了，偏移过的亚像素点的像素值是什么？又该如何得到呢？

其是通过双线性插值的方法来求得（最后我们在对这个双线性插值算法来进行一个补充说明。）

论文简介

DETR—DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION

是2021年发表在ICLR上的论文，作者来自商汤科技，中科大，和香港中文大学。

DETR has been recently proposed to eliminate the need for many hand-designed components in object detection while demonstrating good performance. However, it suffers from slow convergence and limited feature spatial resolution, due to the limitation of Transformer attention modules in processing image feature maps. To mitigate these issues, we proposed Deformable DETR, whose attention modules only attend to a small set of key sampling points around a reference. Deformable
DETR can achieve better performance than DETR (especially on small objects) with 10× less training epochs. Extensive experiments on the COCO benchmark demonstrate the effectiveness of our approach. Code is released at https://github.com/fundamentalvision/Deformable-DETR.

DERT-存在的问题