Conditional DETR 论文笔记

最新推荐文章于 2024-05-30 17:49:51 发布

什度学习

最新推荐文章于 2024-05-30 17:49:51 发布

阅读量780

点赞数

分类专栏： DETR系列论文文章标签：论文阅读人工智能

本文链接：https://blog.csdn.net/zero2255/article/details/128947045

版权

DETR系列论文专栏收录该内容

7 篇文章 1 订阅

订阅专栏

Conditional DETR for Fast Training Convergence

论文连接：https://arxiv.org/abs/2108.06152v2
源码连接：https://github.com/Atten4Vis/ConditionalDETR

DETR中的交叉注意力模块高度依赖于内容嵌入来定位四端和预测方框，这增加了对高质量内容嵌入的需求，从而增加了训练的难度

Conditional DETR的主要内容是从decoder embedding学习出一个conditional spatial query（条件空间查询）

其好处是，通过条件空间查询，每个交叉注意头都能够关注一个不同区域，例如，一个对象的末端或对象框内的一个区域

这缩小了定位对象类别和盒子区域的空间范围，从而放松了对内容嵌入的依赖，简化了训练

DETR方法的训练收敛速度缓慢，需要500个epochs才能获得良好的性能

在交叉注意力中，内容嵌入是起着最主要的作用，空间嵌入是作为次要的贡献
如果在DETR中，移除key中的空间位置编码，，移除第二个decoder以后的object queries
只使用内容嵌入和query，mAP下降的不多

请添加图片描述
第一行是Conditional 训练50轮
第二行是DETR训练50轮
第三行是DETR训练500轮

可以看出第二行最后两个预测还没有学习好

原因为:

空间查询，即对象查询，只给出一般的注意力权重图，而没有利用特定的图像信息
由于训练时间较短，content queries不足以很好地匹配spatial keys，因为它们也被用于匹配content keys

Conditional DETR方法，该方法从相应的解码器输出嵌入中学习每个查询的条件空间嵌入，以形成所谓的解码器多头交叉注意的条件空间查询

条件空间查询是通过将回归对象框的信息映射到嵌入空间

Conditional DETR

请添加图片描述
Conditional DETR的模型构成与DETR相同：

backbone
encoder
decoder
ffn

Conditional DETR主要是修改了decoder部分，其他部分是相同的

$\mathbf{b}=\operatorname{sigmoid}\left(\mathrm{FFN}(\mathbf{f})+\left[\mathbf{s}^{\top} 00\right]^{\top}\right)$

DETR Decoder Cross-Attention

DETR解码器交叉注意机制采用三种输入：query，key，value。

每个键（key）由内容键（content key ）（Ck）（来自编码器的content embedding输出）和一个空间键（spatial key）（Pk）（相应的归一化二维坐标的位置嵌入）来形成的

value是就是编码器（encoder）的content embedding输出

在原始的DETR方法中，每个查询（query）由内容查询（content query）（Cq）（来自解码器自注意的embedding output）和一个空间查询（spatial query）（Pq）（即对象查询 Object query Oq）来形成的。

注意权重是基于查询和键之间的点积

$\begin{aligned} & \left(\mathbf{c}_q+\mathbf{p}_q\right)^{\top}\left(\mathbf{c}_k+\mathbf{p}_k\right) \\ = & \mathbf{c}_q^{\top} \mathbf{c}_k+\mathbf{c}_q^{\top} \mathbf{p}_k+\mathbf{p}_q^{\top} \mathbf{c}_k+\mathbf{p}_q^{\top} \mathbf{p}_k \\ = & \mathbf{c}_q^{\top} \mathbf{c}_k+\mathbf{c}_q^{\top} \mathbf{p}_k+\mathbf{o}_q^{\top} \mathbf{c}_k+\mathbf{o}_q^{\top} \mathbf{p}_k . \end{aligned}$