Missing Labels in Object Detection(CVPR2019)解读

17 篇文章 0 订阅
16 篇文章 2 订阅

在这里插入图片描述
论文链接:Missing Labels in Object Detection


本文主要贡献:
  1. 在不同丢失程度的instance-level 标签下全监督目标检测(FSOD)的影响。
  2. 首次提出在全监督和弱监督中间(即:部分监督信息)的训练方式和训练网络。

1 在不同丢失程度的instance-level 标签下全监督目标检测(FSOD)的影响

1.1 在不同instance-level missing label 比例下,WSOD和FSOD两类方法的mAP比较
在这里插入图片描述
对于全监督的网络作者采用了RCNN Faster-RCNN YOLO和SSD四种网络,弱监督网络采用的是经典的WSDDN网络。显而易见,示例级别的标签丢失越多,mAP越低。

博主有话说:
本文在Introdction就放一个这个实验图,虽然很好说明FSOD方法随着label的减少,mAP指标急剧下降。但是在这个部分讲的实验设置不全,本人读到这里的时候,对FSOD这四种网络的训练方式有很多疑问,但在3.1得到解答(后面再吐槽吧)。所以本人觉得在前期如果不能大篇幅说明,则要有一句详细实验情况见后文之类的说明,这样对读者会比较友好。

2 首次提出在全监督和弱监督中间(即:部分监督信息)的训练方式和训练网络

2.1 丢失Label的数据集
在这里插入图片描述
在本文的主要方法部分,对之前本人提到的疑问进行了进行了实验数据集的说明。具体的算法如上图,简单的说:对于每一个类别,随机丢失Mr的比例的label,并把这些存到一个数组,另外剩下的也存到一个数组。

博主有话说:
通过对这一部分的阅读,尤其是这一句:“we also record images without any instance-level labels after dropping, which will not be sampled when training the FSOD models.”,本人理解是针对FSOD的网络,在训练过程中只对有label的进行训练,随机除去label的图片就不进行采样了;在测试过程中全部图片一起来。如果是这样子的话,本人觉得这有违背本文前面提到的弱监督训练定义,弱监督即只有image-level的信息输入网络训练,但是就这个实验而言,不训练只有image-level的图片,算是弱监督吗?难道这个就是Hybid Supervise Object Detection ?


博主题外话 :顺便提一下,作者在3.2小节的第一段倒数第三行,单词写错了。不是off-the-shell,应该是off-the-shelf,中文意思是 现成的。

在这里插入图片描述


2.2 teacher-student Learning

在这里插入图片描述
本文提出了一种“Teacher-Student”模式的训练网络,本文采用W2F网络进行产生伪标签信息,以弥补那些没有标签(之前随机删除了)的图片信息。Student分支可以使用现成的Faster-RCNN等网络,Teacher分支结构如上图:主要由RPN、MID、ICRs三个模块组成。PRN就是Faster-RCNN这种two-stage的方法用的一样,用来产生proposals。MID用来预测区域结果,是一个loss(loss见下图)。ICRs这个模块是借用了2017年CVPR文章中的结构Multiple Instance Detection Network with Online Instance Classifier Refinement 本文的K设置为3。
MID的loss如右图:在这里插入图片描述
其中,Llab和Lcls都是普通的交叉熵损失,Llab就是利用了WSDDN这篇论文中的loss。最后一个Lreg回归损失使用的是L1损失。

博主有话说:
第一,本人感觉“Teacher-Student”模式和级连网络相似,都是一个分支训练好后的输出作为下一个网络的输入进行训练,这里要单独训练Teacher这个分支。通过Teacher分支来把弱监督的信息转换成强监督的信息用来训练Student分支。
第二,根据论文对Teacher分支的介绍和上图结构,输入的训练图像的真实标签(GT)只有一只羊,而训练的Teacher模型预测的伪标签(PGT)全部三只羊都框住了,本人觉得不可思议,如此的话可以直接只用Teacher模型做预测,实验部分也没有对此实验。另外,这一部分让本人产生另一种功能假想:上图网络输入的图片,真实标签其实有三只羊全部框住的,在上面提到的随机删除标签中,把两只羊的label删除了。一张图的真实的标签不全,本人觉得好像也可以一定程度上理解为弱监督。
第三,ICRs模块这个结构就是一个级连的分支,和本文提出的“Teacher-Student”网络模式有异曲同工之妙。

最后,本文loss由三部分组成:
在这里插入图片描述
第一个RPN loss和Faster-RCNN一样,第二个MID loss上面提过,第三个ICR loss 和Multiple Instance Detection Network with Online Instance Classifier Refinement论文的loss是一样的,也是和WSDDNloss有类似之处。

3 实验部分

讲两个本人觉得比较有意思的实验
3.1
在这里插入图片描述
在这个实验中,两个发现:1)在coco数据集少量标签的缺失不会影响准确率。2)牛和桌子的mAP相比,随着missing Label rate 的上升,牛的mAP下降的更剧烈。

博主有话说:
本人觉得实验有意思的地方在 探究了一张图片目标个数的问题。在弱监督目标检测的领域,只有image-level的标签,检测全是一个比较难的问题。在这个实验中,说明了一张图片中,由于牛的数量会比桌子的数量多,所以影响mAP,上面的右边图也可以看出,在含有牛的图片中,一般有多只牛,而桌子的图片中一般只包含一张桌子。本人觉得,从这个角度探究提升弱监督mAP是一个挺好的点子?

3.2

在这里插入图片描述
这里作者诠释了小目标,提出的在一个数据集中去除小目标的方法可以参考~
1)计算所有instance的平均面积:u
2)保留所有面积大于u的instance。
保留下来的都是normal object了。


其他实验就比较普通了,一大波截图来了:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


本人拙见,请各位读者指教!
  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值