FocalLoss 对样本不平衡的权重调节和减低损失值

最新推荐文章于 2025-02-17 20:53:55 发布

史蒂芬方

最新推荐文章于 2025-02-17 20:53:55 发布

阅读量6.4k

点赞数 13

分类专栏：学习 Deeplearning 损失函数Loss function 文章标签： FocalLoss lossfunction 损失函数

本文链接：https://blog.csdn.net/weixin_44638957/article/details/100733971

版权

学习同时被 3 个专栏收录

18 篇文章

订阅专栏

Deeplearning

12 篇文章

订阅专栏

损失函数Loss function

1 篇文章

订阅专栏

最近因为在做图像分类考虑到一些样本不平均的问题

所以有机会尝试了一下FocalLoss这个损失函数（由Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, Piotr Dollár提出）

也重新的理解了一次这个损失函数是如何运作

首先我们要知道FocalLoss诞生的原由，要解决什么样的问题？

解决问题

针对one-stage的目标检测框架（例如SSD, YOLO)中正（前景）负（背景）样本极度不平均，负样本loss值主导整个梯度下降，正样本占比小，导致模型只专注学习负样本上

在仔细了解FocalLoss之前
我们还是有必要简单回顾一下CE 的过程

二分类 CrossEntropy

$L = - y l o g (p) + (1 - y) l o g (1 - p)$

也能够如下形式表达
$=\begin{cases} -log(p) \quad if\quad y =１\\ -log(1-p), \quad otherwise \end{cases}$
y经过sigmoid输出，值在[0, 1]之间
当概率p值越大，算出的loss值肯定越小

多分类 CrossEntropy

$CE(P_t) = -log(pt)$

經過softmax運算求得概率prob， $\frac{e^{x[class]}}{\sum_j e^{x[j]}}$ 　　

其实CE的公式简单明了，但是当遇到样本极度不平均的情况下加总所有的loss值时，正样本的loss值占比会非常小，什么意思呢？我们留到最后的例子说明

把今天的主角请出来！

Focal Loss

$FL(P_t) = -\alpha(1-p_t)^rlog(pt)$

$\alpha_t =\begin{cases} \alpha , \quad if\quad y =１\\ 1 - \alpha, \quad otherwise \end{cases}$

从公式可以看出

基于原来的CrossEntropy，多了一组 $\alpha(1-p_t)^\gamma$ ，同时多了两个超参数 $a l p h a$ , $\gamma$

在不考虑 $\alpha$ 和 $\gamma$ 时， $1-p_t)$ , 所以当 $p_t$ 越大时，赋予的权重就越小， $p_t$ 越小，赋予的权重就越大

Gamma $\gamma$

如果只把gamma考虑进来 $(1-p_t)^\gamma log(p_t)$ ，来简单的比较一下和CE的差别

假设gamma = 2
负样本prob = 0.95 带入公式

$1-0.95)^2 log(0.95)$ = $0.05^2 (-0.02227639)] = 0.00005569$

如果是原始的CE
$- l o g (0.95) = 0.02227639$

gamma能够有效降低负样本(简单样本)的Loss值，简单样本的概率越大效果越强
如下图能理解gamma在越大，概率越大的简单样本的loss可以降的越低
作者建议 $\gamma$ 为2最佳

Alpha $\alpha$

那么接下来说说发哥 $\alpha$ , 主要用来调和正负样本权重比的
直接带入以下例子

栗子time

为了能够比较出差异，直接用极端的例子，其实也就是one-stage 目标检测的情况

假设我们模型

负样本10000笔资料probability(pt) = 0.95(简单样本)，这边可以理解为easy-example
正样本10笔资料， probability(pt) = 0.05(困难样本)，

直接带入CrossEntropy和FocalLoss进行比较

带入CrossEntropy - $CE(P_t) = -log(pt)$

 - 负样本 ： log(p_t) * 样本数（100000） = 0.02227 * 100000 = 2227
 - 正样本 ： log(p_t) * 样本数（10） = 1.30102 * 10 = 13.0102
total loss = 2227+13.0102 = 2240
正样本占比：13.0102 / 2240 = 0.0058

带入FocalLoss

假设alpha = 0.25， gamma=2

 - 负样本 ： 0.75*（1-0.95)^2 * 0.02227 *样本数（100000） = 0.00004176 * 100000 = 4.1756
 - 正样本 ： 0.25* (1-0.05)^2 * 1.30102 *样本数（10）= 0.29354264 * 10 = 2.935
total loss = 4.175 + 2.935 = 7.110
正样本占比：2.935/7.110 = 0.4127（与0.0058差距甚大）

经过比较，我们算出CE正样本的值占总loss比例是0.0058, 而负样本是0.4127
差距甚大，可以看出FL能有效提升正样本的loss占比

上面的例子中alpha取值为0.25, gamma=2，这是作者建议的最佳值
alpha 的0.25代表的是正样本，所以负样本就会是1-0.25 = 0.75

这里也许有些奇怪，就理论上来看，alpha值设定为0.75(因为正样本通常数量小)是比较合理，但是毕竟还有gamma值在，已经将负样本损失值降低许多，可理解为alpha和gamma相互牵制，alpha也不让正样本占比过大，因此最终设定为0.25，如果有更好的理解欢迎留言一起讨论

PS. gamma = 2， alpha = 0.25是经过作者不断尝试出的一般最佳值

最后我们记得 gamma及 alpha 两兄弟的作用