Focal Loss:样本不均衡以及样本难易不同

最新推荐文章于 2023-05-16 17:20:24 发布

酷暑冷冰

最新推荐文章于 2023-05-16 17:20:24 发布

阅读量368

点赞数

分类专栏：样本不均衡、难易不同文章标签：算法损失函数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43913077/article/details/120360332

版权

样本不均衡、难易不同专栏收录该内容

1 篇文章 0 订阅

订阅专栏

文章目录

现状
解决办法
- 方法一、分科复习
方法二、刷题战术
- 方法三、综合上述两者
调参经验
总结

现状

先来回顾一下常用的 BinaryCrossEntropyLoss 公式如下
在这里插入图片描述
不难看出，CE是个“笨学生”。

考前复习的时候，「他不会划重点，对所有知识点 “一视同仁”」。

如果教科书上有100道例题，包括: 90道加减乘除 + 10道三角函数。CE同学就会吭哧吭哧的“平均用力”反复练习这100道例题，结果可想而知——他会精通那90道个位数加减乘除题目，然后其他题目基本靠蒙。那10道他不会的题，往往还是分值高的压轴题。

解决办法

机智如你，想必已经有办法了 —— 「给他指个方向，别再“平均用力”就好了」

方法一、分科复习

每个【科目】的难度是不同的；你要花 30%的精力在四则运算，70%的精力在三角函数。— 老师告诉CE同学第一个技巧

对应到公式中，就是针对每个类别赋予不同的权重，即下述 $\alpha_t$ :
在这里插入图片描述

方法二、刷题战术

每道【题目】的难度是不同的；你要根据以往刷类似题时候的正确率来合理分配精力。

— 老师告诉CE同学第二个技巧

观察CE中的 $p_t$ ，它反映了模型对这个样本的识别能力（即 “这个知识点掌握得有多好”）；显然，对于 $p_t$ 越大的样本，我们越要打压它对loss的贡献。
FL是这么定义的：
在这里插入图片描述
这里有个超参数 $\gamma$ ; 直观来看， $\gamma$ 越大，打压越重。如下图所示:

方法三、综合上述两者

在这里插入图片描述

调参经验

在这里插入图片描述

总结

机器学习分类问题中，各类别样本数差距悬殊是很常见的情况；这会干扰模型效果
通过将CrossEntropyLoss替换为综合版的FocalLoss，可以有效缓解上述问题
具体思路就是引入两个额外的变量来区分对待每个样本
– $\alpha_t$ 根据类别加权
– $(1-p_t)^{\gamma}$ 根据难度加权
代码实现很简单、调参也不复杂，详见上文

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Focal Loss:样本不均衡以及样本难易不同

文章目录现状解决办法方法一、分科复习方法二、刷题战术方法三、综合上述两者调参经验总结现状先来回顾一下常用的 BinaryCrossEntropyLoss 公式如下不难看出，CE是个“笨学生”。考前复习的时候，「他不会划重点，对所有知识点 “一视同仁”」。如果教科书上有100道例题，包括: 90道加减乘除 + 10道三角函数。CE同学就会吭哧吭哧的“平均用力”反复练习这100道例题，结果可想而知——他会精通那90道个位数加减乘除题目，然后其他题目基本靠蒙。那10道他不会的题，往往还是分值高的压轴
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。