如果使用交叉熵作为loss函数,则模型在训练的过程中会尽量保证尽可能多的样本被正确分类。
当正负样本不平衡时,很容易出现几乎全都判别为样本多的那一类别的情况,陷入局部最优。这是损失函数决定的。所以在这种情况下,需要使用降采样或者过采样对正负样本进行均衡。或者在交叉熵损失函数中设置权重参数,加大模型将较少类样本误判为多类样本带来的损失。
训练集的正负比例越接近于测试集的比例,只能保证模型在测试集上有较高的准确率,但是测试集正负样本比例如果不均衡,几乎不可能使用准确率作为评价指标,因为完全没有意义。基本上会使用AUC或者F1 score等。这时候如果在训练的时候不对正负样本的比例进行均衡,训练出来的模型很可能在以上指标上表现很差。或者使用其他的损失函数,比如focal loss,或者在语义分割领域常用的dice loss,这样就减少了正负样本比例的不良影响了。