论文笔记——DEFORMABLE TRANSFORMERS

文章针对DETR模型的训练慢和小物体检测能力弱的问题,提出了可变形注意力模块,减少计算复杂度,提高训练速度。此模块仅关注部分采样点,通过全连接层动态生成采样偏移量和注意力权重,解决了DETR对高分辨率图像处理的挑战。此外,多尺度可变形注意力模块进一步增强了模型的性能。
摘要由CSDN通过智能技术生成

Abstract

首先论文在引言部分提出,传统的DETR在训练过程中,每一个参考点要和其它所有的参考点进行计算关系,这样训练导致模型训练很慢。而该文章核心的方式就是对于一个参考点,只计算其附近几个关键参考点的关系。这样的方式得到了缩短10倍训练速度的条件下还能有更好的性能,特别是对于小物体的识别。

Introduction

首先之前的目标检测工具都是用锚框,后期用NMS(非极大值抑制)方法进行处理,而DETR解决了这一点,它先用了一个CNN进行处理,再连接Transformer。

为啥用CNN呢?对此我的理解是:

比如说我们的输入数据是640*640,如果直接给Transformer来做数据量太大了,所以需要CNN先提取特征图,得到一个较小的输出,再给Transformer。

文章提出了DETR的两个缺点,这部分引言也提到了:

1.模型收敛慢,在COCO数据集上一般要500个epoch才能收敛。

2.模型检测小物体能力较低,目前对小物体检测一般需要高分辨率的输入图像,然而DETR是对每一个像素点计算它和其他所有像素点的关系,复杂度和输入像素点数目的平方有关。并且模型初始化的时候对所有像素点采用相同大小的注意力权重,这就导致需要很长的迭代时间。因此DETR不能接受高分辨率图像,因为需要内存和计算复杂度太大。

文章提出了一种可变形注意力模块,只关注一小部分采样点位置,处理多尺度特征的对齐问题中没有使用FPN而是设计了一种新的方式。

METHOD

  1. Deformable Attention Module

       首先给出一个特征序列,(c为每一个点对应的特征维度)让q索引一个元素特征为zq的元素,还有一个2d的类似坐标的pq来找到对应位置。

M代表多头注意力机制的头,最外层,里面是k代表采样点的遍历,∆pmqk、Amqk分别为第m个注意头中第k个采样点的采样偏移量和注意权值。计算之后可能是小数,运用一个双线性插值。偏移量和注意力都是通过全连接层得到的

  1. Multi-scale Deformable Attention Module.

多尺度注意力机制下的可变形注意力模块。

在这里与上一点的区别就是在不同尺度下遍历(L从1到L)

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

DUT_Shan

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值