大家好,今天我们来谈一谈样本不均衡问题及处理方法。
一、什么是样本不均衡问题
样本(类别)不均衡(class-imbalance)指的是分类任务中不同类别的训练样例数目差别很大的情况,一般地,样本类别比例(ImbalanceRatio)(如正类和负类)明显大于1:1(如4:1)就可以归为样本不均衡的问题。
现实中,样本不平衡是一种常见的现象,如金融欺诈交易检测,欺诈交易的订单样本通常是占总交易数量的极少部分,因此就会产生正常样本数量明显大于异常样本数量的情况。
二、样本不均衡有什么影响
如果在样本