论文阅读 (30)：Granular Ball Sampling for Noisy Label Classification or Imbalanced Classification (2021)-CSDN博客

本文链接：https://blog.csdn.net/weixin_44575152/article/details/120405569

介绍了一种名为粒球采样(GBS)的方法，该方法能够生成数据自适应的超球，进而用于噪声标签分类及不平衡数据处理。GBS通过划分生成粒球，并基于粒球进行采样。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

引入
1 粒球定义
2 粒球生成
3 基于粒球采样
4 粒球与不平衡数据

引入

本文要点：
1）提出粒球抽样 (granular-ball sampling, GBS)：生成数据自适应的超球，超球上的点则是采样点；
2）GBS可用于噪声标签分类领域；
3）GBS可作为不平衡数据的欠采样方法；
4）GBS时间复杂度接近 $O (N)$ 。

1 粒球定义

粒球GB是一个具有中心 $c$ 和半径 $r$ 属性的、覆盖一些点 $\text{GB}'$ 的区域，且有 $x_i\in\text{GB}'|i=1,1,\dots,M$ ，则：
$\tag{1} c=\frac{1}{M}\sum_{i=1}^Mx_i, \quad r=\frac{1}{M}\sum_{i=1}^M\|x_i-c\|$ 其中 $\|\cdot\|$ 表示二范数。
进一步，对于一个包含 $k$ 类样本 $(P_1,P_2,\dots,P _k)$ 的粒球，其标签按等权投票决定。

2 粒球生成

GB的生成方法称为 $k$ 划分 ( $k$ -division)， $k$ 即是一个GB中数据点的类别数量。以 $k = 2$ 为例：
1）随机生成两个中心点A和B；
2）按照距离关系划分点。这样的一个过程很高效，时间复杂度为 $O (N)$ ；
3）判断每个GB的纯度，如果低于阈值 $T$ 且 $∣$ GB $^{'} ∣ > 2 d$ 则继续划分，其中 $d$ 为数据集维度。纯度的计算如下：
给定一个GB，其中的包含的点为GB $'=P_1\cup P_2\cup\dots\cup P_k\}$ ，则
$\tag{2} \text{purity}(\text{GB})=\frac{\max(|P_i|)}{\sum_i|P_i|}$ 综上，GB的划分有两个条件：
1）条件1：纯度低于 $T$ ；
2）条件2：包含的点过多。

3 基于粒球采样

对于基于数据集生成的第 $i$ 个粒球，其中心 $c_i=(c_i^1,c_i^2,\dots,c_i^j,\dots,c_i^d)$ ，半径为 $r_i$ ，则可在正负方向生成两个点，如下：
$a=(c_i^1,c_i^2,\dots,c_i^j+r_i,\dots,c_i^d)\\ b=(c_i^1,c_i^2,\dots,c_i^j-r_i,\dots,c_i^d)$ 因此，一个粒球将产生 $2 * d$ 个这样的点
基于粒球采样的步骤如下：
算法1：

输入： 数据集 $D$ ，纯度阈值 $T$
输出： 采样数据集 $D^{'}$
1：初始化粒球簇GBs ${D\}$
2：如果粒球满足划分条件
3：对于GBs中的每一个粒球 $D_i$
4：如果purity $D_i)<T$ 且 $D_i|>2d$
5：基于 $k$ 划分将 $D_i$ 划分为 $k$ 个部分 $D_i'$ 和 $D_i''$ 等
6：添加划分部分到GBs；
7：删除 $D_i$
8：初始化 $D'=\emptyset$
9：遍历每一个粒球 $D_i$
10：计算粒球中心 $c_i$ 和半径 $r_i$
11：如果 $D_i$ 不满足划分条件2
12：将 $D_i$ 中所有的点加入到 $D^{'}$ 中
13：否则
14： for $j=1,2,\dots,d$
15： $a=(c_i^1,c_i^2,\dots,c_i^j+r_i,\dots,c_i^d)$
16： $b=(c_i^1,c_i^2,\dots,c_i^j-r_i,\dots,c_i^d)$
17：分别找到 $D$ 中离 $a$ 、 $b$ 最近的同标签点 $a^{'}$ 和 $b^{'}$
18：把 $a^{'}$ 和 $b^{'}$ 加入到 $D^{'}$ 中
19：返回 $D^{'}$

4 粒球与不平衡数据

当数据不平衡时，粒球的使用如下：
算法2：

输入： 数据集 $D$ ，纯度阈值 $T$
输出： 采样数据集 $D^{'}$
1：初始化粒球簇GBs ${D\}$ ；且GBs $'\in$ GBs表示不满足第二条件的粒球簇。
2：使用算法1的2-8步生成粒球 $D_i\in$ GBs
3：把具有最小样本数的某类数据 (记为小类，余下记为大类)加入 $D^{'}$
4：遍历GBs中的每一个粒球 $D_i$
5：选取方式与算法1中选点方式一致
6：如果选取的大类样本的数量小于小类样本
7：从大类样本所在类别相应的超球中选取一定数量的同类别样本，直到小类样本和大类样本数量的比例接近1。