DETR：End-to-End Object Detection with Transformers

最新推荐文章于 2024-04-27 22:46:37 发布

Thomson Tang

最新推荐文章于 2024-04-27 22:46:37 发布

阅读量338

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_50996258/article/details/114585110

版权

End-to-End Object Detection with Transformers

摘要
一、模型的整体结构
二、损失函数
三、实验

摘要

DETR简化了目标检测的流程，避免了许多需要手动设计的模块，比如没有proposal（Faster R-CNN），没有Anchor（YOLO），没有center(CenterNet)，也没有繁琐的NMS，根据目标和全局图像信息的关系，直接预测输出检测框和分类。在COCO数据集上，DETR的准确性和检测速度性能与Faster R-CNN相当。而且，DETR可以很容易地推广到全景分割。

一、模型的整体结构

模型采用了一种基于Transformer的encoder-decoder结构，Transformer是一种流行的序列预测结构。Transformer的self-attention机制明确地对序列中元素之间的所有成对交互进行建模，使这些架构特别适合于集预测的特定约束，例如删除重复预测。
整体结构

Backbone

利用传统的CNN网络Resnet，将输入的图像变成特征图

输入图片尺寸：
[公式]
输出特征尺寸：
在这里插入图片描述

Transformer encoder-decoder

$f$ –> $z_0$ : 1*1卷积压缩维度
在这里插入图片描述
再压缩到一维： $d * H W$ ，输入到encoder，

FFN

FFN包括一个具有ReLU激活函数和d维隐藏层的3层感知器和一个线性投影层，独立解码为包含类别得分和预测框坐标的最终检测结果。
在这里插入图片描述

二、损失函数

匈牙利算法二分匹配策略：
在这里插入图片描述
其中定义 $L_{match}$ :

定义 $L_{box}$ :

三、实验

与目标检测经典框架Faster RCNN进行对比：
效果与经典方法Faster RCNN差不多，对于大目标的检测效果有所提升，但在小目标的检测中表现较差。在这里插入图片描述

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
DETR：End-to-End Object Detection with Transformers

End-to-End Object Detection with Transformers摘要一、模型的整体结构二、损失函数三、实验摘要DETR简化了目标检测的流程，避免了许多需要手动设计的模块，比如没有proposal（Faster R-CNN），没有Anchor（YOLO），没有center(CenterNet)，也没有繁琐的NMS，根据目标和全局图像信息的关系，直接预测输出检测框和分类。在COCO数据集上，DETR的准确性和检测速度性能与Faster R-CNN相当。而且，DETR可以很容易地.
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。