0. 前言
DETR是首个将Transformer应用到2D目标检测任务中的算法,由Facebook于2020年在论文《End-to-End Object Detection with Transformers》中提出。与传统目标检测算法不同的是,DETR将目标检测任务视为一个直接的集合预测问题,采用基于集合的全局损失通过二分匹配实现一对一的预测输出,不需要非极大值抑制(NMS)和手工设计Anchor这些操作,基于Transformer的编码器-解码器架构实现了端到端的目标检测,整个实现流程非常简单明了。

如果对Transformer还不是很了解的话可以看我之前的这篇文章:
1. 实现细节
1.1 网络结构
DETR的网络结构非常简单,主要包括三个部分:一个用于提取图像特征的CNN骨干网络,一个基于编码器-解码器的Transformer结构,一个用于实现最终检测预测的前馈网络(FFN)。

骨干网络
对于一张输入图片 x i m g ∈ R 3 × H 0 × W 0 x_{img} \in \mathbb{R} ^{3 \times H_{0} \times W_{0}} ximg∈R3×H0×W0,基于传统CNN的骨干网络会输出多个通道的低分辨率特征图 f ∈ R C × H × W f \in \mathbb{R} ^{C \times H \times W} f∈RC×H×W,其中 C = 2048 C=2048 C=2048, H = H 0 / 32 H=H_{0}/32 H=H0/32, W = W 0 / 32 W=W_{0}/32 W=W0/32。
Transformer编码器
首先通过 1 × 1 1 \times 1 1×1的卷积层将特征图 f f f的通道数由 C C C减少到 d d d,得到新的特征图 z 0 ∈ R d × H × W z_{0} \in \mathbb{R} ^{d \times H \times W} z0∈Rd×H×W,由于Transformer需要输入一个序列,因此还需要特征图 z 0
最低0.47元/天 解锁文章
3267

被折叠的 条评论
为什么被折叠?



