R语言实现SMOTE与SMOGN算法解决不平衡数据的回归问题

  本文介绍基于R语言中的UBL包,读取.csv格式的Excel表格文件,实现SMOTE算法与SMOGN算法,对机器学习、深度学习回归中,训练数据集不平衡的情况加以解决的具体方法。

  在之前的文章Python实现SMOGN算法解决不平衡数据的回归问题(https://blog.csdn.net/zhebushibiaoshifu/article/details/131680333)中,我们介绍了基于Python语言中的smogn包,实现SMOGN算法,对机器学习、深度学习回归中训练数据集不平衡的情况加以解决的具体方法;而我们也在上述这一篇文章中提到了,SMOGN算法的Python实现实在是太慢了,且Python还无法较为方便地实现回归数据的SMOTE算法。因此,我们就在本文中介绍一下基于R语言中的UBL包,实现SMOTE算法与SMOGN算法的方法。对于这两种算法的具体介绍与对比,大家参考上述提到的这一篇文章即可,这里就不再赘述了。

  首先,我们配置一下所需用到的R语言UBL包。包的下载方法也非常简单,我们输入如下的代码即可。

install.packages("UBL")

  输入代码后,按下回车键,运行代码;如下图所示。

  接下来,我们即可开始代码的撰写。在这里,我们最好通过如下的方式新建一个R语言脚本(我这里是用的RStudio);因为后期执行算法的时候,我们往往需要对比多种不同的参数搭配效果,通过脚本来运行代码会比较方便。

  其中,我们需要的代码如下所示。

library(UBL)
csv_path <- r"(E:\01_Reflectivity\99_Model_Training\00_Data\02_Extract_Data\26_Train_Model_New\Train_Model_0710.csv)"
result_path <- r"(E:\01_Reflectivity\99_Model_Training\00_Data\02_Extract_Data\26_Train_Model_New\Train_Model_0710_smote_nir.csv)"
data <- read.csv(csv_path)
data_nona <- na.omit(data)
data_nona$PointType <- as.factor(data_nona$PointType)
data_nona$days <- as.factor(data_nona$days)

data_smote <- SmoteRegress(inf_dif~., data_nona, dist = "HEOM", C.perc = "balance")
data_smogn <- SMOGNRegress(inf_dif~., data_nona, thr.rel = 0.6, dist = "HEOM", C.perc = "extreme")

hist(data_nona$inf_dif, breaks = 50)
hist(data_smote$inf_dif, breaks = 50)
hist(data_smogn$inf_dif, breaks = 50)

write.csv(data_smogn, file = result_path, row.names = FALSE)
write.csv(data_smote, file = result_path, row.names = FALSE)

  其中,上述代码的具体含义如下。

  首先,通过library(UBL)将我们刚刚配置好的UBL包加以加载,该包提供了处理不平衡数据的函数和算法;随后,我们可以设置输入的.csv格式文件的路径,这一文件中存储了我们需要加以处理的数据;随后,我们设置输出的.csv格式文件的路径,这一文件就是我们加以处理后的结果数据。

  接下来,我们使用read.csv函数读取输入的.csv格式文件,并将其存储在变量data中。其后的data_nona <- na.omit(data)代码表示,去除数据中的缺失值,将处理后的数据保存在data_nona中。随后,这里需要注意,由于我们的输入数据中含有数值型的类别变量,因此需要将其转换为因子(factor)类型,这样才可以被UBL包识别为类别变量。

  接下来,第一个函数SmoteRegress()就是使用SMOTE算法对data_nona进行回归任务的不平衡处理——其中inf_dif是目标变量(因变量),~.表示使用所有其他列作为特征(自变量),dist = "HEOM"表示使用HEOM(Heterogeneous Euclidean-Overlap Metric)距离度量(注意,只要我们的输入数据中有类别变量,那么就需要用这一种距离表示方式),最后的C.perc = "balance"表示平衡类别比例。

  随后的SMOGNRegress()函数,则是使用SMOGN算法对 data_nona 进行回归任务的不平衡处理——其中thr.rel = 0.6表示设置相对阈值为0.6,这个参数设置的越大,算法执行的程度越深;其他参数则和前一个函数类似。这里如果大家需要对两个函数的参数加以更进一步的理解,可以直接访问其官方网站

  最后,为了比较一下我们执行SMOTE算法与SMOGN算法的结果,可以绘制一下data_nona中,目标变量inf_dif的直方图,breaks = 50表示将直方图分成50个条块。

  如果通过直方图确定我们算法处理后的数据可以接受,那么就可以将处理结果数据写入到输出的.csv格式文件,row.names = FALSE表示不保存行索引。

  执行上述代码后,我们可以实际看一下三个直方图的结果情况。首先,是处理前的数据,如下图所示。

  其次,是SMOTE算法处理后的数据,如下图所示。

  最后,是SMOGN算法处理后的数据,如下图所示。

  基于以上图片可以很清楚地看出,SMOTE算法与SMOGN算法确实对于原始的数据分布而言,有着明显的改变作用。

  至此,大功告成。

欢迎关注:疯狂学习GIS

  • 4
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 11
    评论
SMOTE (Synthetic Minority Over-sampling Technique) 是一种数据抽样算法,用于解决数据平衡问题。它通过合成新少数类样本来增加少数类样本的数量,从而解决数据平衡问题。 下面是 SMOTE 算法的 Python 代码实现: ``` python import numpy as np from sklearn.neighbors import NearestNeighbors def smote(X, y, k=5, sampling_ratio=1.0): """ X: 二维数组,表示原始数据集 y: 一维数组,表示原始数据集的标签 k: 选取的最近邻数 sampling_ratio: 抽样比例 """ # 将原始数据集按类别分组 groups = {} for i, label in enumerate(y): if label not in groups: groups[label] = [] groups[label].append(i) # 计算每个少数类样本需要合成的样本数 N = len(X) n_samples = int(sampling_ratio * N) n_majority = max([len(groups[label]) for label in groups]) n_synthetic = int((n_samples - N) / n_majority) # 对每个少数类样本合成样本 new_X = [] new_y = [] for label, indices in groups.items(): if len(indices) >= n_synthetic: # 找到 k 个最近邻 nn = NearestNeighbors(n_neighbors=k).fit(X[indices]) for i in indices: # 找到 i 的 k 个最近邻 nn_indices = nn.kneighbors(X[i].reshape(1, -1), return_distance=False)[0] # 随机选择一个最近邻 j j = np.random.choice(nn_indices) # 在 i 和 j 之间进行插值 diff = X[j] - X[i] gap = np.random.rand() new_X.append(X[i] + gap * diff) new_y.append(label) else: # 少数类样本数量不足,无法进行 SMOTE pass # 将合成的样本添加到原始数据集中 new_X = np.array(new_X) new_y = np.array(new_y) X = np.vstack([X, new_X]) y = np.hstack([y, new_y]) return X, y ``` 其中,`X` 是原始数据集,`y` 是原始数据集的标签。`k` 表示选取的最近邻数,`sampling_ratio` 表示抽样比例。 这段代码的实现思路是先按类别分组,然后计算每个少数类样本需要合成的样本数。对于每个少数类样本,找到它的 k 个最近邻中的一个随机样本,在它和最近邻之间进行插值,生成新的合成样本。最后将合成的样本添加到原始数据集中返回。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 11
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

疯狂学习GIS

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值