【组会论文2023.04.03】UP-DETR: Unsupervised Pre-training for Object Det阅读笔记

最新推荐文章于 2024-07-05 16:44:12 发布

Mindie_luck

最新推荐文章于 2024-07-05 16:44:12 发布

阅读量1.6k

点赞数 50

文章标签：人工智能计算机视觉论文阅读论文笔记机器学习 transformer 深度学习

本文链接：https://blog.csdn.net/weixin_69275533/article/details/136690397

版权

把组会讲过的论文整理一下，留个痕迹.......

组会第一篇论文

1.PASCAL VOC Object Detection

2.COCO Object Detection

3.One-Shot Detection

4.Panoptic Segmentation

UP-DETR：使用transformers进行目标检测的无监督预训练

论文：https://arxiv.org/abs/2011.09094

源码：https://github.com/dddzg/up-detr

摘要

本文的目标是在一个大规模的数据集上对DETR的transformer进行无监督预训练，并将目标作为下游任务进行处理。然而，现有的pretext任务大多是基于图像实例和聚类的学习，不适用于目标检测。因此，本文提出了一个新的用于目标检测的pretext任务——随机查询patch检测。从给定的图像中随机裁剪多个查询patches，并采用无监督的方式对transformer进行预训练，以预测给定图像中查询patches的bounding box。预训练过程中主要有两个问题：多任务学习和多查询定位。

对于多任务学习的问题，作者提出frozen预训练backbone和patch特征重建，以保持Transformer的特征识别；对于多查询定位问题，作者设计了对象查询shuffle和attention mask，来解决查询patch和对象查询之间的分配问题。

使用ImageNet预训练UP-DETR，并微调VOC和COCO参数，分别进行目标检测、one-shot检测和全景分割的实验。

网络结构

这是UP-DETR预训练的网络结构图，左边是单查询patch流程图，首先是一个frozen CNN backbone提取输入图像的特征图，与位置编码相加送到多层transformer编码器中经编码器编码后传递到解码器中，然后对随机查询patch采用全局平均池化（CAP）的CNN backbone提取特征，与目标查询相加，传递到transformer解码器中，解码器预测与查询patch位置相对应的边界框，这里是它的各部分损失函数。右边是多查询patch的流程图，不同的是作者使用了query shuffle，打乱了对象查询的排列，并在解码器部分加入了attention mask。Attention mask的定义在这，它是用来确定目标查询之间是否进行交互。图中attention mask的1对应attention mask定义中的0，图中的0对应定义中的-∞。

损失函数

匈牙利损失：Lcls为目标查询是否匹配的二分类损失函数；Lbox为用于定位的L1损失函数；Lrec是用于平衡分类任务和定位任务的损失函数

实验

1.PASCAL VOC Object Detection

表1中是在 VOC数据集上训练的结果，在epoch=150/300时，UP-DETR的AP都高于DETR，但是AP50和AP75的表现都比Faster R-CNN较差，这表明在数据集不足的情况下，UP-DETR和DETR的性能都是低于Faster R-CNN的。由图可知，UP-DETR的收敛速度比DETR快，且UP-DETR的AP高于DETR。

2.COCO Object Detection

表2是COCO数据集上各种目标检测方法的性能对比，总体上UP-DETR能够达到比较不错的性能。只有在epoch=300时，DETR比UP-DETR高了0.1；总体上，UP-DETR性能是优于DETR的。但是由于缺乏类似FPN的架构和高成本的注意力操作，UP-DETR在Aps中仍落后于Faster R-CNN。AP50为IoU阈值为0.5；AP75为IoU阈值为0.75时；Aps为像素面积小于322；Apm为像素面积在32平方-96平方之间；Apl为像素面积大于96平方。

图3是与上面两个实验对应的结果图，无论是在VOC还是COCO上，UP-DETR的收敛速度和AP性能都是优于DETR的。

3.One-Shot Detection

表3是One-Shot Detection任务上不同模型的对比，UP-DETR在seen class和unseen class上都显著提高了DETR的性能。

One-Shot Detection：单样本检测，只使用一张待检测类别的图片，就能检测到输入图像中该类别的物体。

4.Panoptic Segmentation

表4是全景分割任务上，本文方法和目前表现结果最好的模型对比，可以看出，相比于DETR，UP-DETR依旧具备性能上的优势。

UP-DETR的全景质量、分割质量、识别质量和具有things的识别质量、分割质量、全景质量都优于DETR，但是具有stuff的识别质量、分割质量、全景质量低于DETR。

5.Ablations

frozen CNN和特征重建的消融实验，四种不同UP-DETR模型与DETR对比可以看出同时具有frozen CNN和特征重建的UP-DETR相比于其他UP-DETR模型结构具有更快的收敛速度和更高的精度。

6.Visualization

图5是不同的查询patch在预训练过程中得到的无监督结果。说明采用随机查询patch检测的UP-DETR可以有效地学习目标定位能力。

结论

1. 新的预训练 pretext 任务 ——random query patch detection ；

2. UP-DETR 在目标检测， one-shot 检测和全景分割方面均显著优于 DETR 。

Mindie_luck

关注

50
点赞
踩
29

收藏

觉得还不错? 一键收藏
0
评论
【组会论文2023.04.03】UP-DETR: Unsupervised Pre-training for Object Det阅读笔记

本文的目标是在一个大规模的数据集上对DETR的transformer进行无监督预训练，并将目标作为下游任务进行处理。然而，现有的pretext任务大多是基于图像实例和聚类的学习，不适用于目标检测。因此，本文提出了一个新的用于目标检测的pretext任务——随机查询patch检测。从给定的图像中随机裁剪多个查询patches，并采用无监督的方式对transformer进行预训练，以预测给定图像中查询patches的bounding box。预训练过程中主要有两个问题：多任务学习和多查询定位。
复制链接

扫一扫

【组会论文2023.04.03】UP-DETR: Unsupervised Pre-training for Object Det阅读笔记

摘要

网络结构

损失函数

实验

1.PASCAL VOC Object Detection

2.COCO Object Detection

3.One-Shot Detection

4.Panoptic Segmentation

5.Ablations

6.Visualization

结论

“相关推荐”对你有帮助么？