loss function 损失函数

最新推荐文章于 2024-05-29 13:45:45 发布

HYM-Enchanted

最新推荐文章于 2024-05-29 13:45:45 发布

阅读量272

点赞数

本文链接：https://blog.csdn.net/weixin_43758492/article/details/104874537

版权

引入：机器学习中的precision和recall

GT\pred	positve	negative
positive	true positive	false negative
negative	false positive	true negative

$\frac{TP}{TP + FP}$ $\frac{TP}{TP + FN}$ $specificity=\frac{TN}{TN+FP}$
precision和recall的分子都是被正确分类（挑选）的部分，分别用挑选为正类的总数（TP+FP）和正类总数（TP+FN）来评估正确的比例。
F1 score便是以相同权重的调和平均去整合在这两个指标：
$\frac{1}{F^1} = \frac{1}{Precision}+\frac{1}{Recall}\implies F^1=\frac{2*P*R}{P+R}\implies F^1=\frac{2*TP}{2*TP+FP+FN}$

dice loss

dice系数 $\frac{2|X\bigcap Y|}{|X|+|Y|}=\frac{2*TP}{2*TP+FP+FN}$
$|X\bigcap Y|$ 是指X和Y之间的交集，|X|和|Y|分别表示X和Y的元素个数。分子的系数为2，因为分母存在重复计算X和Y之间共同元素。直观上是计算X与Y的相似性，本质上这是同时隐含precision和recall两个指标。
X ：分割图像的ground truth
Y：分割图像的predict分割结果
dice系数差异函数为dice loss
$1-\frac{2|X\bigcap Y|}{|X|+|Y|}$ 训练网络求得极小值
网络最后一层输出为sigmoid

cross-entropy交叉熵损失函数

网络最后一层激活函数为softmax（如果是二分类问题，最后一层用softmax与sigmoid的效果是相同的），softmax适用于二分类多分类，经过softmax之后，各个类别加和为1。
二分类：
第i个神经元的交叉熵为
$y_ilog(y_i)+(1-y_i)log(1-y_i)=\begin{cases} -log(y_i) & \quad \hat y_i=1\\ -log(1-y_i) & \quad \hat y_i=0 \end{cases}$
最后一层总的交叉熵损失函数是 $-\sum_iy_ilog(y_i)+(1-y_i)log(1-y_i)$
$y_i$ 是预测值， $\hat y_i$ 是标签。

focal loss

focal loss主要是为了解决one stage目标检测中正负样本比例严重失衡的问题。该损失函数降低了大量简单负样本在训练中所占的权重。增加了对难分样本的权重。
focal loss是对交叉熵损失函数的改进
$L_{fl}=\begin{cases} -(1-y_i)^\gamma log(y_i) & \quad \hat y_i = 1\\ -(y_i)^\gamma log(1-y_i) & \quad \hat y_i=0 \end{cases}$

在原有的基础上加上一 $(1-y_i)^\gamma$ （称为调制系数），其中 $\gamma >0$ 使得减少易分类样本的损失，更关注对于困难的、错分的样本。通过减少易分类样本的权重，从而使模型在训练时更加专注于难分类的样本。
首先预测值 $y_i$ 的范围是0到1，不管 $\gamma$ 值是多少，这个调制系数都是>=0的。易分样本再多，但是他的权重小，因此对总体的loss贡献不会太大。例如，易分样本 $x_1$ ，他的预测值 $y_i=0.9$ ,难分样本 $x_2$ ,他的预测值 $y_i=0.6$ 。对于前者，他的权重是 $0.1^\gamma$ ,而对于后者，他的权重这是 $0.4^\gamma$ 。显然后者对loss的贡献更大。

当一个样本被错分时， $y_i$ 是很小的，比如当 $\hat y_i=1$ 时， $y_i<0.5$ 才是错分，此时的 $y_i$ 就比较小，反之亦然。因此调制系数趋于1，相比原来的loss就没有什么变化。又当 $y_i$ 趋于1的时候，此时样本分类正确，并且是易分类样本，此时调制系数趋于0，也就对总的loss贡献很小。
当 $\gamma=0$ 的时候，focal loss就是传统的交叉熵损失，当 $\gamma$ 增加时，调制系数也会增加。
一般 $\gamma$ 取值为2。
在这里插入图片描述

此外，加入平衡因子 $\alpha$ ,用来平衡正负样本本身比例不均。注意， $\alpha$ 不关注难分样本。

$L_{fl}=\begin{cases} -\alpha(1-y_i)^\gamma log(y_i) & \quad \hat y_i = 1\\ -(1-\alpha)(y_i)^\gamma log(1-y_i) & \quad \hat y_i=0 \end{cases}$
前面新加了一个系数 $\alpha$ 。当 $\hat y_i=1$ 时，取 $\alpha$ ,否则取系数取 $1-\alpha$ 。（资料上说，一般而言正样本的比例比负样本的比例多，所以 $\alpha$ 取值为0到0.5来增加负样本的权重。）而我的实际应用场景是正样本的比例远远小于负样本，所以这个 $\alpha$ 的取值应该为0.5到1之间。
论文的实验中， $\alpha$ 取值为0.25。