Somte算法和Python代码实现

最新推荐文章于 2024-05-26 22:16:08 发布

wyl2289

最新推荐文章于 2024-05-26 22:16:08 发布

阅读量2.9k

点赞数 3

SMOTE全称是Synthetic Minority Oversampling Technique，即合成少数类过采样技术。

它是基于随机过采样算法的一种改进方案。

由于随机过采样采取简单复制样本的策略来增加少数类样本，这样容易产生模型过拟合的问题，即使得模型学习到的信息过于特别(Specific)而不够泛化(General)。

SMOTE算法的基本思想是对少数类样本进行分析并根据少数类样本人工合成新样本添加到数据集中，如下图所示。

这里写图片描述

算法流程如下：

设训练集的一个少数类的样本数为 T ，那么SMOTE算法将为这个少数类合成 NT 个新样本。这里要求 N 必须是正整数，如果给定的 N<1，那么算法将“认为”少数类的样本数 T=NT，并将强制 N=1。

考虑该少数类的一个样本 i ，其特征向量为 xi,i∈{1,...,T}。

1. 首先从该少数类的全部 T 个样本中找到样本 xi 的 k 个近邻（例如用欧氏距离），记为 xi(near),near∈{1,...,k}；

2. 然后从这 k 个近邻中随机选择一个样本 xi(nn) ，再生成一个 0 到 1 之间的随机数ζ1 ，从而合成一个新样本 xi1：

xi1=xi+ζ1⋅(xi(nn)−xi)

3. 将步骤2重复进行 N 次，从而可以合成 N 个新样本：xinew,new∈1,...,N。

那么，对全部的 T 个少数类样本进行上述操作，便可为该少数类合成 NT个新样本。

如果样本的特征维数是 2 维，那么每个样本都可以用二维平面上的一个点来表示。SMOTE算法所合成出的一个新样本 xi1 相当于是表示样本 xixi 的点和表示样本 xi(nn)的点之间所连线段上的一个点，所以说该算法是基于“插值”来合成新样本。

关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
Somte算法和Python代码实现

SMOTE全称是Synthetic Minority Oversampling Technique，即合成少数类过采样技术。它是基于随机过采样算法的一种改进方案。由于随机过采样采取简单复制样本的策略来增加少数类样本，这样容易产生模型过拟合的问题，即使得模型学习到的信息过于特别(Specific)而不够泛化(General)。SMOTE算法的基本思想是对少数类样本进行分析并根据少数类样本...
复制链接

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。