Missing Labels in Object Detection(CVPR2019)解读

最新推荐文章于 2023-10-05 16:49:41 发布

嘿芝麻

最新推荐文章于 2023-10-05 16:49:41 发布

阅读量1.3k

点赞数 3

分类专栏：心得 object detection 论文学习深度学习论文分享文章标签： WSOD FSOD

本文链接：https://blog.csdn.net/zw__chen/article/details/95201372

版权

心得同时被 3 个专栏收录

69 篇文章 3 订阅

订阅专栏

深度学习

17 篇文章 0 订阅

订阅专栏

论文学习

16 篇文章 2 订阅

订阅专栏

在这里插入图片描述
论文链接：Missing Labels in Object Detection

本文主要贡献：

在不同丢失程度的instance-level 标签下全监督目标检测（FSOD）的影响。
首次提出在全监督和弱监督中间（即：部分监督信息）的训练方式和训练网络。

1 在不同丢失程度的instance-level 标签下全监督目标检测（FSOD）的影响

1.1 在不同instance-level missing label 比例下，WSOD和FSOD两类方法的mAP比较
在这里插入图片描述
对于全监督的网络作者采用了RCNN Faster-RCNN YOLO和SSD四种网络，弱监督网络采用的是经典的WSDDN网络。显而易见，示例级别的标签丢失越多，mAP越低。

博主有话说：
本文在Introdction就放一个这个实验图，虽然很好说明FSOD方法随着label的减少，mAP指标急剧下降。但是在这个部分讲的实验设置不全，本人读到这里的时候，对FSOD这四种网络的训练方式有很多疑问，但在3.1得到解答（后面再吐槽吧）。所以本人觉得在前期如果不能大篇幅说明，则要有一句详细实验情况见后文之类的说明，这样对读者会比较友好。

2 首次提出在全监督和弱监督中间（即：部分监督信息）的训练方式和训练网络

2.1 丢失Label的数据集
在这里插入图片描述
在本文的主要方法部分，对之前本人提到的疑问进行了进行了实验数据集的说明。具体的算法如上图，简单的说：对于每一个类别，随机丢失Mr的比例的label，并把这些存到一个数组，另外剩下的也存到一个数组。

博主有话说：
通过对这一部分的阅读，尤其是这一句：“we also record images without any instance-level labels after dropping, which will not be sampled when training the FSOD models.”，本人理解是针对FSOD的网络，在训练过程中只对有label的进行训练，随机除去label的图片就不进行采样了；在测试过程中全部图片一起来。如果是这样子的话，本人觉得这有违背本文前面提到的弱监督训练定义，弱监督即只有image-level的信息输入网络训练，但是就这个实验而言，不训练只有image-level的图片，算是弱监督吗？难道这个就是Hybid Supervise Object Detection ？

博主题外话 ：顺便提一下，作者在3.2小节的第一段倒数第三行，单词写错了。不是off-the-shell，应该是off-the-shelf，中文意思是现成的。

在这里插入图片描述

2.2 teacher-student Learning

在这里插入图片描述
本文提出了一种“Teacher-Student”模式的训练网络，本文采用W2F网络进行产生伪标签信息，以弥补那些没有标签（之前随机删除了）的图片信息。Student分支可以使用现成的Faster-RCNN等网络，Teacher分支结构如上图：主要由RPN、MID、ICRs三个模块组成。PRN就是Faster-RCNN这种two-stage的方法用的一样，用来产生proposals。MID用来预测区域结果，是一个loss（loss见下图）。ICRs这个模块是借用了2017年CVPR文章中的结构Multiple Instance Detection Network with Online Instance Classifier Refinement 本文的K设置为3。
MID的loss如右图：在这里插入图片描述
其中，Llab和Lcls都是普通的交叉熵损失，Llab就是利用了WSDDN这篇论文中的loss。最后一个Lreg回归损失使用的是L1损失。

博主有话说：
第一，本人感觉“Teacher-Student”模式和级连网络相似，都是一个分支训练好后的输出作为下一个网络的输入进行训练，这里要单独训练Teacher这个分支。通过Teacher分支来把弱监督的信息转换成强监督的信息用来训练Student分支。
第二，根据论文对Teacher分支的介绍和上图结构，输入的训练图像的真实标签（GT）只有一只羊，而训练的Teacher模型预测的伪标签（PGT）全部三只羊都框住了，本人觉得不可思议，如此的话可以直接只用Teacher模型做预测，实验部分也没有对此实验。另外，这一部分让本人产生另一种功能假想：上图网络输入的图片，真实标签其实有三只羊全部框住的，在上面提到的随机删除标签中，把两只羊的label删除了。一张图的真实的标签不全，本人觉得好像也可以一定程度上理解为弱监督。
第三，ICRs模块这个结构就是一个级连的分支，和本文提出的“Teacher-Student”网络模式有异曲同工之妙。

最后，本文loss由三部分组成：
在这里插入图片描述
第一个RPN loss和Faster-RCNN一样，第二个MID loss上面提过，第三个ICR loss 和Multiple Instance Detection Network with Online Instance Classifier Refinement论文的loss是一样的，也是和WSDDNloss有类似之处。

3 实验部分

讲两个本人觉得比较有意思的实验
3.1
在这里插入图片描述
在这个实验中，两个发现：1）在coco数据集少量标签的缺失不会影响准确率。2）牛和桌子的mAP相比，随着missing Label rate 的上升，牛的mAP下降的更剧烈。

博主有话说：
本人觉得实验有意思的地方在探究了一张图片目标个数的问题。在弱监督目标检测的领域，只有image-level的标签，检测全是一个比较难的问题。在这个实验中，说明了一张图片中，由于牛的数量会比桌子的数量多，所以影响mAP，上面的右边图也可以看出，在含有牛的图片中，一般有多只牛，而桌子的图片中一般只包含一张桌子。本人觉得，从这个角度探究提升弱监督mAP是一个挺好的点子?

3.2

在这里插入图片描述
这里作者诠释了小目标，提出的在一个数据集中去除小目标的方法可以参考～
1）计算所有instance的平均面积：u
2）保留所有面积大于u的instance。
保留下来的都是normal object了。