Focal loss损失函数理解_focu loss-CSDN博客

本文链接：https://blog.csdn.net/xiaoyuzhou_132/article/details/133805383

介绍

针对现有单阶段法（one-stage)目标检测模型中正类(positive)和负(negatives)类的不平衡问题，He Kaiming团队提出了一种叫Focal Loss的损失函数，用来降低大量easy negatives在标准交叉熵中所占权重（提高hard negatives所占权重)。
为了检验提出的Focal Loss损失函数的有效性，所以作者就（顺便）提出了一种简单的模型RetinaNet用以验证新损失函数的有效性。

损失函数

交叉熵损失函数（cross entropy），这里基于二分类给出交叉熵损失函数公式：
CE函数
y是ground-truth（标注数据集）的标签值，p是当标签值为1（y=1）时的模型对于类的估计概率。
由于CE相较于均方差有更快的参数更新（偏导数更大），因而其在图像的分类和识别有广泛的应用。
简化公式做如下变换：
概率公式替换
CE损失公式转换为：
CE公式转换
正如作者在论文中的实验所示的，在密集检测器训练期间遇到的大类不平衡压倒了交叉熵损失。容易分类的负例占损失的大部分，并主导了梯度。为解决类失衡的问题，常用方法是为类1引入一个加权因子α∈[0,1]，为类- 1引入1 – α。
阿尔法均衡
这种损失是CE的简单延伸。

虽然α平衡了正负样例的重要性，但他没有区分容易和困难的样例。因而作者团队重塑了损失函数，降低了容易例子的权重，将训练的重点放在困难的负样例上。
数学上来讲，是在交叉损失中添加调节因子(1 − pt)γ，其中可调节参数γ ≥ 0.
FL损失函数

函数结果分析

实验结果
当γ=0时，FL相当于CE，图中蓝色线。
当一个例子被错误分类且p（概率）很小时，调节因子接近1，损失不受影响。
当p接近于1时，调节因子变为0，并且对分类良好的示例的损失进行向下加权（易分类的权重降低，直观的来说，调节因子降低了来自简单示例的损失贡献）。
作者通过大量实验，发现γ=2时在实验中的效果最好。

在后续实验中作者使用以下形式的损失函数，这种形式比非α平衡形式精度略有提高。
常用FL损失函数

总结

简单来说，α控制正负样例的平衡，γ控制容易困难样例的平衡。

参考

Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, Piotr Dollar; Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2017, pp. 2980-2988