把组会讲过的论文整理一下,留个痕迹.......
组会第一篇论文
目录
目录
UP-DETR:使用transformers进行目标检测的无监督预训练
论文:https://arxiv.org/abs/2011.09094
源码:https://github.com/dddzg/up-detr
摘要
本文的目标是在一个大规模的数据集上对DETR的transformer进行无监督预训练,并将目标作为下游任务进行处理。然而,现有的pretext任务大多是基于图像实例和聚类的学习,不适用于目标检测。因此,本文提出了一个新的用于目标检测的pretext任务——随机查询patch检测。从给定的图像中随机裁剪多个查询patches,并采用无监督的方式对transformer进行预训练,以预测给定图像中查询patches的bounding box。预训练过程中主要有两个问题:多任务学习和多查询定位。
对于多任务学习的问题,作者提出frozen预训练backbone和patch特征重建,以保持Transformer的特征识别;对于多查询定位问题,作者设计了对象查询shuffle和attention mask,来解决查询patch和对象查询之间的分配问题。
使用ImageNet预训练UP-DETR,并微调VOC和COCO参数,分别进行目标检测、one-shot检测和全景分割的实验。
网络结构
这是UP-DETR预训练的网络结构图,左边是单查询patch流程图,首先是一个frozen CNN backbone提取输入图像的特征图,与位置编码相加送到多层transformer编码器中经编码器编码后传递到解码器中,然后对随机查询patch采用全局平均池化(CAP) 的CNN backbone提取特征,与目标查询相加,传递到transformer解码器中,解码器预测与查询patch位置相对应的边界框,这里是它的各部分损失函数。右边是多查询patch的流程图,不同的是作者使用了query shuffle,打乱了对象查询的排列,并在解码器部分加入了attention mask。Attention mask的定义在这,它是用来确定目标查询之间是否进行交互。图中attention mask的1对应attention mask定义中的0,图中的0对应定义中的-∞。
损失函数
匈牙利损失:Lcls为目标查询是否匹配的二分类损失函数;Lbox为用于定位的L1损失函数;Lrec是用于平衡分类任务和定位任务的损失函数
实验
1.PASCAL VOC Object Detection
表1中是在 VOC数据集上训练的结果,在epoch=150/300时,UP-DETR的AP都高于DETR,但是AP50和AP75的表现都比Faster R-CNN较差,这表明在数据集不足的情况下,UP-DETR和DETR的性能都是低于Faster R-CNN的。由图可知,UP-DETR的收敛速度比DETR快,且UP-DETR的AP高于DETR。
2.COCO Object Detection
表2是COCO数据集上各种目标检测方法的性能对比,总体上UP-DETR能够达到比较不错的性能。只有在epoch=300时,DETR比UP-DETR高了0.1;总体上,UP-DETR性能是优于DETR的。但是由于缺乏类似FPN的架构和高成本的注意力操作,UP-DETR在Aps中仍落后于Faster R-CNN。AP50为IoU阈值为0.5;AP75为IoU阈值为0.75时;Aps为像素面积小于322;Apm为像素面积在32平方-96平方之间;Apl为像素面积大于96平方。
图3是与上面两个实验对应的结果图,无论是在VOC还是COCO上,UP-DETR的收敛速度和AP性能都是优于DETR的。
3.One-Shot Detection
表3是One-Shot Detection任务上不同模型的对比,UP-DETR在seen class和unseen class上都显著提高了DETR的性能。
One-Shot Detection:单样本检测,只使用一张待检测类别的图片,就能检测到输入图像中该类别的物体。
4.Panoptic Segmentation
表4是全景分割任务上,本文方法和目前表现结果最好的模型对比,可以看出,相比于DETR,UP-DETR依旧具备性能上的优势。
UP-DETR的全景质量、分割质量、识别质量和具有things的识别质量、分割质量、全景质量都优于DETR,但是具有stuff的识别质量、分割质量、全景质量低于DETR。
5.Ablations
frozen CNN和特征重建的消融实验,四种不同UP-DETR模型与DETR对比可以看出同时具有frozen CNN和特征重建的UP-DETR相比于其他UP-DETR模型结构具有更快的收敛速度和更高的精度。
6.Visualization
图5是不同的查询patch在预训练过程中得到的无监督结果。说明采用随机查询patch检测的UP-DETR可以有效地学习目标定位能力。