举个例子:测试样本中有A类样本90个,B 类样本10个。分类器C1把所有的测试样本都分成了A类,分类器C2把A类的90个样本分对了70个,B类的10个样本分对了5个。则C1的分类精度为 90%,C2的分类精度为75%。但是,显然C2更有用些。
针对分均衡问题的调节分类器的方法就是分类器的训练数据进行改造。这可以通过欠抽样或者过抽样来实现。过抽样意味着复制样例,而欠抽样意味着删除样例。不管采用哪种方式,数据都会从原始形式改造为新形势。抽样过程则可以通过随机方式或者某个预定的方式来实现。
通常也会存在某个罕见的类别需要我们来识别,比如在信用卡欺诈当中。正例类别属于罕见类别(因为被欺诈的毕竟是很少的一个部分),我们希望对于这种罕见类别能尽可能保留更多的信息,因此, 我们应该保留正例类别中的所有样例, 而对反例类别进行欠抽样或者样例删除处理。这种方法的一个确定啊就在于要确定哪些样例需要进行删除。但是,在选删除的样例中可能携带了剩余样例中并不包含的有价值信息。
上述问题的一种解决方法,就是选择那些离决策边界较远的样例进行删除。假定我们有一个数据集,其中有50例信用卡欺诈交易和5000例合法交易。如果我呢想要对合法交易样例进行欠抽样处理,使得这两类数据比较均衡的话,那么我们就需要去掉4950个样例,而这些样例中可能包含有很多有价值的信息。这看上去有些极端,因此有一种替代的策略就是使用反例类别的欠抽样和正例类别的过抽样相混合的方法。
要对正例类别进行过抽样,我们可以复制已有样例或者假如与已有样例相似的点。一种方法是加入已有的数据点的插值点,但是这种做法可能会导致过拟合的问题。