DETR:End-to-End Object Detection with Transformers

End-to-End Object Detection with Transformers


摘要

DETR简化了目标检测的流程,避免了许多需要手动设计的模块,比如没有proposal(Faster R-CNN),没有Anchor(YOLO),没有center(CenterNet),也没有繁琐的NMS,根据目标和全局图像信息的关系,直接预测输出检测框和分类。在COCO数据集上,DETR的准确性和检测速度性能与Faster R-CNN相当。而且,DETR可以很容易地推广到全景分割。

一、模型的整体结构

模型采用了一种基于Transformer的encoder-decoder结构,Transformer是一种流行的序列预测结构。Transformer的self-attention机制明确地对序列中元素之间的所有成对交互进行建模,使这些架构特别适合于集预测的特定约束,例如删除重复预测。
整体结构

  1. Backbone

利用传统的CNN网络Resnet,将输入的图像变成特征图

输入图片尺寸:
[公式]
输出特征尺寸:
在这里插入图片描述

  1. Transformer encoder-decoder

f f f–> z 0 z_0 z0 : 1*1卷积压缩维度
在这里插入图片描述
再压缩到一维: d ∗ H W d*HW dHW,输入到encoder,

  1. FFN

FFN包括一个具有ReLU激活函数和d维隐藏层的3层感知器和一个线性投影层,独立解码为包含类别得分和预测框坐标的最终检测结果。
在这里插入图片描述

二、损失函数

匈牙利算法二分匹配策略:
在这里插入图片描述
其中定义 L m a t c h L_{match} Lmatch:
在这里插入图片描述
定义 L b o x L_{box} Lbox:
在这里插入图片描述

三、实验

与目标检测经典框架Faster RCNN进行对比:
效果与经典方法Faster RCNN差不多,对于大目标的检测效果有所提升,但在小目标的检测中表现较差。在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
end-to-end object detection with transformers》是关于使用transformers进行端到端目标检测的一篇参考文献。目标检测是计算机视觉领域的一个重要任务,旨在从图像或视频中识别和定位出物体的位置与类别。传统的目标检测方法通常将这一任务分为两个步骤,即生成候选区域和对这些候选区域进行分类。然而,这种两步骤的方法存在一定的缺点,如效率低、需要手动选择参数等。 这篇参考文献中提出了一种端到端的目标检测方法,使用transformers模型来直接进行物体检测任务。transformers是一种基于自注意力机制的神经网络模型,在自然语言处理领域已经取得了很大的成功。借鉴transformers的思想,文中提出了一种新的目标检测方法,称为DETRDetection Transformer)。 DETR模型采用了一个编码器-解码器架构,其中编码器是一个transformers模型,用于对输入图像进行特征提取。解码器则是一种由全连接层和多层感知机组成的结构,用于预测目标的位置和类别。与传统的两步骤方法不同,DETR模型通过将目标检测转化为一个集合问题,并使用transformers模型进行集合元素之间的关联和特征提取。通过在训练过程中引入损失函数,模型可以学习到物体的位置和类别信息。 该文献通过在COCO数据集上进行实验证明了DETR模型的有效性,并与传统的目标检测方法进行了比较。实验结果表明,DETR模型在准确性和效率上都有显著的提升。此外,DETR模型还具有良好的扩展性,可以应用于不同大小和类型的目标检测任务。 综上所述,《end-to-end object detection with transformers》这篇参考文献介绍了一种基于transformers的端到端目标检测方法,并通过实验证明了其有效性和优越性。该方法的提出为目标检测领域的研究和应用带来了新的思路和方法。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值