数据采样
1. 有放回的采样 Random Sampling
![](https://i-blog.csdnimg.cn/blog_migrate/a1dcc358a5903108b3682fe671e83a62.png)
2. 无放回抽样 Random Sampling
![](https://i-blog.csdnimg.cn/blog_migrate/2bd0ea4a9d0af2ffa6aba6c8fd9b1f4d.png)
3. 分层抽样
![](https://i-blog.csdnimg.cn/blog_migrate/92973f413138e7b5846651efcc82a138.png)
4. 概率采样
![](https://i-blog.csdnimg.cn/blog_migrate/caba640901bd267d0024a2141dd6df91.png)
不平衡采样
5. 随机过采样标签数据(为了样本平衡)
![](https://i-blog.csdnimg.cn/blog_migrate/b8556555485222ca1a3a021038e1805c.png)
数据不平衡:
![](https://i-blog.csdnimg.cn/blog_migrate/b70cc1351f2f3af964388a83ececaca7.png)
随机抽样,使样本平衡:
![](https://i-blog.csdnimg.cn/blog_migrate/c801dd7cdd75f3a5a1c12e432a20fb75.png)
6. PCA 降维
![](https://i-blog.csdnimg.cn/blog_migrate/734dcce77b81412526a6e7f0335ece9a.png)
画图方法:
![](https://i-blog.csdnimg.cn/blog_migrate/f717091d279c9381edff0a1e90d500c6.png)
7. RandomUnderSampler 随机欠采样
![](https://i-blog.csdnimg.cn/blog_migrate/25cf6c8deaa23c989f7bbfc891c6be65.png)
8. RandomOverSampler 随机过采样
![](https://i-blog.csdnimg.cn/blog_migrate/44d8273418c288ccabe273e9db91b55f.png)
9. Tomeklinks 欠采样
![](https://i-blog.csdnimg.cn/blog_migrate/7ad3252ac61d3cfbd3c168d68882d7e9.png)
10. ClusterCentroids 欠采样
函数提供了一种很高效的方法来减少样本的数量, 但需要注意的是, 该方法要求原始数据集最好能聚类成簇. 此外, 中心点的数量应该设置好, 这样下采样的簇能很好地代表原始数据
![](https://i-blog.csdnimg.cn/blog_migrate/f2858c25048c15b7eb0fbc1c11f0b580.png)
11. SMOTE
对于少数类样本a, 随机选择一个最近邻的样本b, 然后从a与b的连线上随机选取一个点c作为新的少数类样本
![](https://i-blog.csdnimg.cn/blog_migrate/a0bbe26b5e17902643989a2f1547f6f0.png)
12. SMOTTomek
在之前的SMOTE方法中, 当由边界的样本与其他样本进行过采样差值时, 很容易生成一些噪音数据. 因此, 在过采样之后需要对样本进行清洗.
![](https://i-blog.csdnimg.cn/blog_migrate/18226c4d179d86b335a5d92af72fb032.png)