论文笔记——DEFORMABLE TRANSFORMERS

最新推荐文章于 2024-07-14 20:03:54 发布

DUT_Shan

最新推荐文章于 2024-07-14 20:03:54 发布

阅读量1k

点赞数 2

文章标签：计算机视觉 python transformer 人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46092235/article/details/128945153

版权

文章针对DETR模型的训练慢和小物体检测能力弱的问题，提出了可变形注意力模块，减少计算复杂度，提高训练速度。此模块仅关注部分采样点，通过全连接层动态生成采样偏移量和注意力权重，解决了DETR对高分辨率图像处理的挑战。此外，多尺度可变形注意力模块进一步增强了模型的性能。

摘要由CSDN通过智能技术生成

Abstract

首先论文在引言部分提出，传统的DETR在训练过程中，每一个参考点要和其它所有的参考点进行计算关系，这样训练导致模型训练很慢。而该文章核心的方式就是对于一个参考点，只计算其附近几个关键参考点的关系。这样的方式得到了缩短10倍训练速度的条件下还能有更好的性能，特别是对于小物体的识别。

Introduction

首先之前的目标检测工具都是用锚框，后期用NMS（非极大值抑制）方法进行处理，而DETR解决了这一点，它先用了一个CNN进行处理，再连接Transformer。

为啥用CNN呢？对此我的理解是：

比如说我们的输入数据是640*640，如果直接给Transformer来做数据量太大了，所以需要CNN先提取特征图，得到一个较小的输出，再给Transformer。

文章提出了DETR的两个缺点，这部分引言也提到了：

1.模型收敛慢，在COCO数据集上一般要500个epoch才能收敛。

2.模型检测小物体能力较低，目前对小物体检测一般需要高分辨率的输入图像，然而DETR是对每一个像素点计算它和其他所有像素点的关系，复杂度和输入像素点数目的平方有关。并且模型初始化的时候对所有像素点采用相同大小的注意力权重，这就导致需要很长的迭代时间。因此DETR不能接受高分辨率图像，因为需要内存和计算复杂度太大。

文章提出了一种可变形注意力模块，只关注一小部分采样点位置，处理多尺度特征的对齐问题中没有使用FPN而是设计了一种新的方式。

METHOD

Deformable Attention Module

首先给出一个特征序列，（c为每一个点对应的特征维度）让q索引一个元素特征为zq的元素，还有一个2d的类似坐标的pq来找到对应位置。

M代表多头注意力机制的头，最外层，里面是k代表采样点的遍历，∆pmqk、Amqk分别为第m个注意头中第k个采样点的采样偏移量和注意权值。计算之后可能是小数，运用一个双线性插值。偏移量和注意力都是通过全连接层得到的

Multi-scale Deformable Attention Module.

多尺度注意力机制下的可变形注意力模块。

在这里与上一点的区别就是在不同尺度下遍历（L从1到L）

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

DUT_Shan CSDN认证博客专家 CSDN认证企业博客

码龄5年

4: 原创

160万+: 周排名

62万+: 总排名

2493: 访问

: 等级

48: 积分

4: 粉丝

7: 获赞

2: 评论

14: 收藏

私信

关注

热门文章

最新评论

论文笔记——AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE（Vit）
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文笔记——Transformer
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文笔记——DEFORMABLE TRANSFORMERS
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文笔记——DEFORMABLE TRANSFORMERS
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天最佳新人】榜单，全部的排名请看 https://bbs.csdn.net/topics/613231138。

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

DUT_Shan 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。