python数据预处理 :样本不均衡(过采样、欠采样、设置权重、集成方法)
何为样本不均衡:样本分布不均衡就是指样本差异非常大,例如共1000条数据样本的数据集中,其中占有10条样本分类,其特征无论如何你和也无法实现完整特征值的覆盖,此时属于严重的样本分布不均衡。为何要解决样本不均衡:样本分部不均衡的数据集也是很常见的:比如恶意刷单、黄牛订单、信用卡欺诈、电力窃电、设备故障、大企业客户流失等。样本不均衡将导致样本量少的分类所包含的特征过少,很难从中提取规律,即使得...
原创
2020-03-12 11:54:59 ·
3421 阅读 ·
0 评论