Focal Loss for Dense Object Detection
对于one stage方法来说,detection部分要直接处理大量的候选位置,其中负样本要占据绝大部分,SSD的策略是采用hard mining,从大量的负样本中选出loss最大的topk的负样本以保证正负样本比例为1:3.
onestage 不好的原因在于:正负样本比例极度不平衡,负样本绝大部分都是简单样本,构成了大部分的损失,并主导了梯度。
什么是“类别不平衡”:
- 一幅正常的图像中需要检测的object不会很多,顶多就那么几个object。这就意味着绝大多数的bbox是属于background,使得foreground-background类别不平衡。
- bbox中background太多导致分类器对于目标更不准确,所以目标检测的精度很低。
- two-stage中RPN对anchor进行简单的二分类,大幅筛选掉background的bbox,但是也不能完全解决类别不平衡问题,只能说是在很大程度上减轻了“类别不平衡”对检测精度所造成的影响。
因此,通过重塑标准的交叉熵loss来解决,并且设计了RetinaNet来验证效果。
OHEM(Online Hard Example Mining)是近年兴起的另一种筛选example的方法,它通过对loss排序,选出loss最大的example来进行训练,这样就能保证训练的区域都是hard example。这个方法有个缺陷,它把所有的easy example都去除掉了,造成easy positive example无法进一步提升训练的精度。
Focal Loss
交叉熵
我们从二元分类的交叉熵(CE)损失开始引入焦点损失