Transformer目标检测 | DETR论文解读

0. 前言

DETR是首个将Transformer应用到2D目标检测任务中的算法,由Facebook2020年在论文《End-to-End Object Detection with Transformers》中提出。与传统目标检测算法不同的是,DETR将目标检测任务视为一个直接的集合预测问题,采用基于集合的全局损失通过二分匹配实现一对一的预测输出,不需要非极大值抑制(NMS)和手工设计Anchor这些操作,基于Transformer的编码器-解码器架构实现了端到端的目标检测,整个实现流程非常简单明了。

如果对Transformer还不是很了解的话可以看我之前的这篇文章:

Transformer模型结构解析与Python代码实现

1. 实现细节

1.1 网络结构

DETR的网络结构非常简单,主要包括三个部分:一个用于提取图像特征的CNN骨干网络,一个基于编码器-解码器的Transformer结构,一个用于实现最终检测预测的前馈网络(FFN)。

骨干网络

对于一张输入图片 x i m g ∈ R 3 × H 0 × W 0 x_{img} \in \mathbb{R} ^{3 \times H_{0} \times W_{0}} ximgR3×H0×W0,基于传统CNN的骨干网络会输出多个通道的低分辨率特征图 f ∈ R C × H × W f \in \mathbb{R} ^{C \times H \times W} fRC×H×W,其中 C = 2048 C=2048 C=2048 H = H 0 / 32 H=H_{0}/32 H=H0/32 W = W 0 / 32 W=W_{0}/32 W=W0/32

Transformer编码器

首先通过 1 × 1 1 \times 1 1×1的卷积层将特征图 f f f的通道数由 C C C减少到 d d d,得到新的特征图 z 0 ∈ R d × H × W z_{0} \in \mathbb{R} ^{d \times H \times W} z0Rd×H×W,由于Transformer需要输入一个序列,因此还需要特征图 z 0

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

DeepDriving

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值