DINO_论文解读

windy__ya

已于 2023-11-06 23:21:27 修改

阅读量194

点赞数

分类专栏： object detection 文章标签：深度学习目标检测

于 2023-11-01 23:18:55 首次发布

本文链接：https://blog.csdn.net/weixin_74326343/article/details/134166593

版权

object detection 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

·Basic：

这里可以谈到一下DETR，基于transofrmer，集合预测&二分图匹配，端到端，有跟fasteRCNN相当的性能。--> 简单来说就是bakebond为CNN提取特征，送入transformer进行关系建模，将输出通过二分图匹配去和GT做匹配算loss。

1.DAB:用类似于anchor来解决query，有预测框。

2.DN：noised labes, noised boxes & attention mask

针对二分图匹配【一开始匹配是随机的，且会一直发生变化，存在它匹配是不一致的】因此作者直接对模型加入真实框，将真实框输入解码器训练模型重建该框，从而跳过二分图匹配。但是直接输入真实框对transformer来说太过简单，会导致性能不好，所以引入了噪声，即带噪声的GT标签和框，输入解码器进行重建原始label&框。--> 加速训练，因为这样相当于shortcut在学习偏移量，直接跳过了匹配

噪音为，

（x,y,w,h)为中心点， $\lambda$ 为超参数；

因为DN是有点followDAB的感觉（就是把query也看做anchor），所以在DN中可以把这个噪音GT看作是GT附近的anchor。

【关于为什么要加入噪声，在这里可以理解成有噪声的GT是有自监督task的感觉，做box-domain的预训练模型】，这是来自于知乎上的一个理解，我觉得很好！如下图

3.Deformerable:

（1）可形变，参考点，offset，即self-attention关注到的是参考点周围的一小组点来作为采样点而非全局，这样就可以注意到稀疏点降低计算量。

（2）look forward once？？

于是，在以上的基础上，出现了DINO；好了，那就开始DINO的解读吧。

一、motivation

二、innovation：

(1)把query变成动态的anchor box【DAB】

(2)添加噪音的GT的label和框输入解码去中，使模型你能够重建原始标签&框 --> 稳定二分图匹配【DN】

(3)可变形detr&look forward once的层参数更新，减少计算量提高运算效率提高性能【deformable detr】

a.加入了GT的正负样本从而去噪训练-->一对一，避免相同目标重复出现？？？

b.混合query：position auery来自encoder的输出；content query是可学习tensor；位置查询作为动态anchor，并且采用DN loss。

c.两次forward-->通过后面层来更新前面层的参数。

三、网络框架：

（1）用backbone去提取多尺度图形特征。’

（2）将图形特征和位置编码（transformer无序列区别）加起来放到Encoder；encoder的特征图输出将作为decoder中的V,K

（3）将encoder输出的特征图进入QS模块选取topK个作为anchor，其实就是position query

（4）Content query是可学习的tensor，和position一起放入decoder中和特征图的K,V进行attention。

（5）decoder输出后进行matching，anchor和分类

（6）另外，添加了CDN加速并且还加了lookforward twice来提高性能。

（1）Query Selection

motivation：DN\DAB\DETR中都是静态查询，没有加上encoder的图像特征，anchor（DN\DAB）或者position query都是在训练数据中得出，并且content query直接初始化为0；deformable的position&content（b）也是静态查询，anchor和content都是通过top K的特征图得出的，但是这样所选content没有经过进一步细化，较为模糊会导致误导；

innovation：混合query，position是通过topK个特征图得到，而content是可学习的。用较好的位置信息获取编码器的全面的content。

（2）CDN模块：对于正负样本的去噪：这里是follow了之前的DAB-detr，但是在此基础上加上了负样本。

motivation：下图是DAB的去噪，主要是对cross-attention进行修改。如图（b），引入lable(class embed ing)&anchor（position）的噪声去训练从而重建。DAB中的噪声GT都是基于有物体的正样本，但是缺少no object,所以没有预测no object的能力