论文笔记 CReST：A Class-Rebalancing Self-Training Framework for Imbalanced Semi-Supervised Learning

最新推荐文章于 2023-06-08 09:35:46 发布

小葵向前冲

最新推荐文章于 2023-06-08 09:35:46 发布

阅读量912

点赞数

分类专栏：论文文章标签：算法机器学习深度学习人工智能大数据

本文链接：https://blog.csdn.net/weixin_44177594/article/details/116642035

版权

论文专栏收录该内容

11 篇文章 0 订阅

订阅专栏

CReST

基础知识
- 不平衡数据
- 不平衡数据学习的方法

一些参考：

1.zhihu

基础知识

不平衡数据

什么是不平衡数据：我们的数据集样本类别极不均衡，以二分类问题为例，假设我们的数据集是 $S$ ，数据集中的多数类为 $S_{maj}$ ，少数类为 $S_{min}$ ，通常情况下把多数类样本的比例为 $100 : 1$ , $1000 : 1$ ，甚至是 $10000 : 1$ 这种情况下为不平衡数据，不平衡数据的学习即需要在如此分布不均匀的数据集中学习到有用的信息。

传统做法： 以降低总体分类精度为目标，将所有样本一视同仁，同等对待，造成了分类器在多数类的分类精度较高而在少数类的分类精度很低。传统的学习算法在不平衡数据集中具有较大的局限性。

不平衡数据学习的方法

针对不平衡数据，我们往往从数据和算法两个层面来进行处理：

数据层面：又可分为过抽样和欠抽样。

过抽样指的是增加少数类的样本数（可以直接重复已有数据，也可以按照一定规则合成少数类数据）；
欠抽样指的是减少多数类样本的数量，例如，可以将多数类样本分为“噪音样本”，“边界样本”，“安全样本”，我们将“噪音样本”和“边界样本”删除，只保留“安全样本”，这样就减少了多数类样本的数量。

算法层面：

代价敏感：可以给每个训练样本加权或者在算法中引入敏感因子
集成学习方法：即多个分类器，然后利用投票或者组合得到结果。又可以分为同态集成学习方法（同种分类器组合）和异态集成学习方法（多种分类器组合）
单类分类器方法：仅对少数类进行训练，例如运用SVM算法

小葵向前冲

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
6
评论
论文笔记 CReST：A Class-Rebalancing Self-Training Framework for Imbalanced Semi-Supervised Learning

CReST基础知识不平衡数据不平衡数据学习的方法基础知识不平衡数据什么是不平衡数据：我们的数据集样本类别极不均衡，以二分类问题为例，假设我们的数据集是SSS，数据集中的多数类为SmajS_{maj}Smaj，少数类为SminS_{min}Smin，通常情况下把多数类样本的比例为100:1100:1100:1,1000:11000:11000:1，甚至是10000:110000:110000:1这种情况下为不平衡数据，不平衡数据的学习即需要在如此分布不均匀的数据集中学习到有用的信息。传统做法：以
复制链接

扫一扫