【论文阅读】【二维目标检测】Generalized Focal Loss

麒麒哈尔

于 2021-05-31 19:25:41 发布

阅读量382

点赞数

分类专栏：论文阅读

本文链接：https://blog.csdn.net/wqwqqwqw1231/article/details/117424389

版权

论文阅读专栏收录该内容

54 篇文章 75 订阅

订阅专栏

文章目录

Motivation
- 物体分类
- 框回归
Method
实验效果
总结

文章：Generalized Focal Loss: Learning Qualified and Distributed Bounding Boxes for Dense Object Detection
地址：https://arxiv.org/pdf/2006.04388.pdf

Motivation

物体分类

在object detection任务中，是存在分类和回归的两个结果的。为了减少冗余检测，通常使用NMS来消除低质量的框，那么NMS用的分数最直接想到的就是分类分数。（其实也是因为object detection中最后出来也只有这一个分数）

但上述方法就会出现一个问题，分类问题的分数只受类别监督，是与框的定位无关的。也就是说，有可能出现一个预测框，它的IoU比较小但分类分数很高，这样经过NMS就会保留下来，而且抑制掉IoU大但分类分数低的框。这是我们不想见到的，而且评价一个框的好坏标准其实就是IoU。换一种说法，也就是用分类分数做NMS这个过程，是与IoU割裂的，因为分类分数在训练过程中是与IoU无关的。

那这就有个想法：除了分类分数，再预测一个IoU分数，在预测过程中，将分类分数和IoU分数相乘，得到的分数送入NMS。这样NMS过程中，就会引入IoU，从而解决上面的问题。这就是FCOS(FCOS: Fully Convolutional One-Stage Object Detection)所做的事情。

但本文提出，这仍然有个问题，在训练的时候，IoU分数都是用正样本训练的，也就是说正样本的IoU分数可以很好的被预测。但负样本的IoU分数则是一个未定义的问题，在inference过程中，负样本也会被预测一个IoU分数，这个分数可能很大，也可能很小，这就会出现问题：一个IoU分数很高的负样本最终的得分高于一个IoU分数较低的正样本，经过NMS就会出错。就例如下图中的AB样例：
在这里插入图片描述

也就是说，FCOS这种预测一个IoU分数的带来的问题，是负样本的IoU分数未定义，在训练过程中未参与训练。那我这里提出一个想法：将负样本的IoU分数置0，也参与训练，正负样本数量平衡用对负样本数量降采样的方式进行训练。这种方式也可以解决负样本IoU分数未定义的问题，不知道效果如何？但就解决方法而言，并不如本问提出方法美观。

框回归

作者提出，之前文章均是将框的边界的分布看作为Dirac delta分布，这种分布并未建模框边界的不确定性。作者提出，使用更通用的分布来建模框的边界。

Method

物体分类

对于物体分类这个问题，传统的方法是网络输出一个vector，vector中每个元素是代表预测为该类的概率值，这个vector的监督是由物体真是类别生成的one-hot vector。作者提出，一种新的表示方法，输出仍然是一个vector，只不过vector储存的是物体类别概率值乘以框的质量得分。这个vector的监督也随之改变，也是在类别生成的one-hot vector上乘以一个框的质量得分，由于物体只有一个类别，所以其实监督vector中也只有一个值是不等于0的，在0~1之间。

那这个表示有了，loss该怎么写？传统的01分类问题，可以使用focal loss，在新的表示中，vector中的值变成了一个连续变量。作者提出，每个类别分别应用一个sigmoid focal loss。然后再将focal loss改写，使得focal loss可以适用于连续变量：
在这里插入图片描述

框回归

之前的方法均是将框的边界看为Dirac delta分布，然后用L1 Loss构建loss，使得预测值逼近真实值。作者提出了，学习框边界更为一般的分布。这里不讲是怎么推导出来的，只讲是怎么实现的，怎么推导还是推荐看原文。

举例来说，在feature map上，对于一个要预测的物体的左边界，根据物体的中心，选取 $y_0, y_1, ... , y_n]$ 个格子，对于每个格子预测一个score。这个socre就是每个格子对应位置是左边界的概率值。那么如果想要求左边界具体位置，就用格子的位置与预测的score做一个加权平均就可以，其实也就是取期望。

在神经网络结构中，这个对应着regression输出n+1维的vector，然后对vector做softmax，使得所有位置的score加起来等于1。

这个n个格子的score的监督如下设计：根据左边界具体位置，寻找与其最近的两个格子，然后按照距离反比设计权重，其他的n-2个格子的score监督设计为0。这样，这种监督保证了对边界预测的能够收敛到真值上。

这样，边界框回归的问题也转为了分类问题，而且监督是在两个格子上不等于0。那既然上面已经给出了对于连续变量的generalized focal loss的形式，那么这个也是类似，也可以写成如下：
在这里插入图片描述

generalized focal loss

把上面两者，可以统一格式进行表示，实质内容不变，就可以写出generalized focal loss。

在这里插入图片描述

实验效果

效果仍然是很厉害，具体详见论文。

总结

这里贴一个知乎回答：https://zhuanlan.zhihu.com/p/147691786

分类分数不适用于NMS这个问题其实很早学术界就有关注，IoU分支的想法，其实可以从yolov1就可以想到。但本文所想的问题，进一步深入，训练和预测过程中的不匹配的问题。除了问题切中要害，解决方式也非常优美，我觉得是一篇很好的文章。

麒麒哈尔

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【论文阅读】【二维目标检测】Generalized Focal Loss

文章目录Motivation物体分类框回归Method物体分类框回归generalized focal loss实验效果总结文章：Generalized Focal Loss: Learning Qualified and Distributed Bounding Boxes for Dense Object Detection地址：https://arxiv.org/pdf/2006.04388.pdfMotivation物体分类在object detection任务中，是存在分类和回归的两个结
复制链接

扫一扫

专栏目录