Focal loss损失函数理解

介绍

针对现有单阶段法(one-stage)目标检测模型中正类(positive)和负(negatives)类的不平衡问题,He Kaiming团队提出了一种叫Focal Loss的损失函数,用来降低大量easy negatives在标准交叉熵中所占权重(提高hard negatives所占权重)。
为了检验提出的Focal Loss损失函数的有效性,所以作者就(顺便)提出了一种简单的模型RetinaNet用以验证新损失函数的有效性。

损失函数

交叉熵损失函数(cross entropy),这里基于二分类给出交叉熵损失函数公式:
CE函数
y是ground-truth(标注数据集)的标签值,p是当标签值为1(y=1)时的模型对于类的估计概率。
由于CE相较于均方差有更快的参数更新(偏导数更大),因而其在图像的分类和识别有广泛的应用。
简化公式做如下变换:
概率公式替换
CE损失公式转换为:
CE公式转换
正如作者在论文中的实验所示的,在密集检测器训练期间遇到的大类不平衡压倒了交叉熵损失。容易分类的负例占损失的大部分,并主导了梯度。为解决类失衡的问题,常用方法是为类1引入一个加权因子α∈[0,1],为类- 1引入1 – α。
阿尔法均衡
这种损失是CE的简单延伸。

虽然α平衡了正负样例的重要性,但他没有区分容易和困难的样例。因而作者团队重塑了损失函数,降低了容易例子的权重,将训练的重点放在困难的负样例上。
数学上来讲,是在交叉损失中添加调节因子(1 − pt)γ,其中可调节参数γ ≥ 0.
FL损失函数

函数结果分析

实验结果
当γ=0时,FL相当于CE,图中蓝色线。
当一个例子被错误分类且p(概率)很小时,调节因子接近1,损失不受影响。
当p接近于1时,调节因子变为0,并且对分类良好的示例的损失进行向下加权(易分类的权重降低,直观的来说,调节因子降低了来自简单示例的损失贡献)。
作者通过大量实验,发现γ=2时在实验中的效果最好。

在后续实验中作者使用以下形式的损失函数,这种形式比非α平衡形式精度略有提高。
常用FL损失函数

总结

简单来说,α控制正负样例的平衡,γ控制容易困难样例的平衡。

参考

Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, Piotr Dollar; Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2017, pp. 2980-2988

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值