【组会论文2023.04.03】UP-DETR: Unsupervised Pre-training for Object Det阅读笔记

把组会讲过的论文整理一下,留个痕迹.......

组会第一篇论文

目录

摘要

网络结构

目录

摘要

网络结构

损失函数

实验

1.PASCAL VOC Object Detection

2.COCO Object Detection

3.One-Shot Detection

4.Panoptic Segmentation

5.Ablations

6.Visualization

结论


损失函数

实验

结论


UP-DETR:使用transformers进行目标检测的无监督预训练

论文:https://arxiv.org/abs/2011.09094

源码:https://github.com/dddzg/up-detr

摘要

本文的目标是在一个大规模的数据集上对DETR的transformer进行无监督预训练,并将目标作为下游任务进行处理。然而,现有的pretext任务大多是基于图像实例和聚类的学习,不适用于目标检测。因此,本文提出了一个新的用于目标检测的pretext任务——随机查询patch检测。从给定的图像中随机裁剪多个查询patches,并采用无监督的方式对transformer进行预训练,以预测给定图像中查询patches的bounding box。预训练过程中主要有两个问题:多任务学习和多查询定位。

对于多任务学习的问题,作者提出frozen预训练backbone和patch特征重建,以保持Transformer的特征识别;对于多查询定位问题,作者设计了对象查询shuffle和attention mask,来解决查询patch和对象查询之间的分配问题。

使用ImageNet预训练UP-DETR,并微调VOC和COCO参数,分别进行目标检测、one-shot检测和全景分割的实验。

网络结构

这是UP-DETR预训练的网络结构图,左边是单查询patch流程图,首先是一个frozen CNN backbone提取输入图像的特征图,与位置编码相加送到多层transformer编码器中经编码器编码后传递到解码器中,然后对随机查询patch采用全局平均池化(CAP CNN backbone提取特征,与目标查询相加,传递到transformer解码器中,解码器预测与查询patch位置相对应的边界框,这里是它的各部分损失函数。右边是多查询patch的流程图,不同的是作者使用了query shuffle,打乱了对象查询的排列,并在解码器部分加入了attention maskAttention mask的定义在这,它是用来确定目标查询之间是否进行交互。图中attention mask1对应attention mask定义中的0,图中的0对应定义中的-∞

损失函数

匈牙利损失:Lcls为目标查询是否匹配的二分类损失函数;Lbox为用于定位的L1损失函数;Lrec是用于平衡分类任务和定位任务的损失函数

实验

1.PASCAL VOC Object Detection

表1中是在 VOC数据集上训练的结果,在epoch=150/300时,UP-DETRAP都高于DETR,但是AP50AP75的表现都比Faster R-CNN较差,这表明在数据集不足的情况下,UP-DETRDETR的性能都是低于Faster R-CNN的。由图可知,UP-DETR的收敛速度比DETR快,且UP-DETRAP高于DETR

2.COCO Object Detection

表2是COCO数据集上各种目标检测方法的性能对比,总体上UP-DETR能够达到比较不错的性能。只有在epoch=300时,DETRUP-DETR高了0.1;总体上,UP-DETR性能是优于DETR的。但是由于缺乏类似FPN的架构和高成本的注意力操作UP-DETRAps中仍落后于Faster R-CNN。AP50为IoU阈值为0.5AP75IoU阈值为0.75时;Aps为像素面积小于322Apm为像素面积在32平方-96平方之间;Apl为像素面积大于96平方。

图3是与上面两个实验对应的结果图,无论是在VOC还是COCO上,UP-DETR的收敛速度和AP性能都是优于DETR的。

3.One-Shot Detection

3One-Shot Detection任务上不同模型的对比,UP-DETRseen classunseen class上都显著提高了DETR的性能。

One-Shot Detection:单样本检测,只使用一张待检测类别的图片,就能检测到输入图像中该类别的物体。

4.Panoptic Segmentation

4全景分割任务上,本文方法和目前表现结果最好的模型对比,可以看出,相比于DETRUP-DETR依旧具备性能上的优势。

UP-DETR的全景质量、分割质量、识别质量和具有things的识别质量、分割质量、全景质量都优于DETR,但是具有stuff的识别质量、分割质量、全景质量低于DETR

5.Ablations

frozen CNN和特征重建的消融实验,四种不同UP-DETR模型与DETR对比可以看出同时具有frozen CNN和特征重建的UP-DETR相比于其他UP-DETR模型结构具有更快的收敛速度和更高的精度。

6.Visualization

图5是不同的查询patch在预训练过程中得到的无监督结果。说明采用随机查询patch检测的UP-DETR可以有效地学习目标定位能力。

结论

1. 新的预训练 pretext 任务 ——random query patch detection
2. UP-DETR 在目标检测, one-shot 检测和全景分割方面均显著优于 DETR
  • 50
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值