Self-paced Ensemble for Highly Imbalanced Massive Data Classification
许多实际应用表明,从不平衡数据中学习分类器是困难的。随着大数据时代的到来,越来越多的分类任务面临数据规模庞大但极度不平衡和低质量的问题。在这种场景下,现有的大多数学习方法性能较差或计算效率较低。为了解决这一问题,对类别不平衡的本质进行了深入的研究,发现不仅是类别之间的不平衡,还有数据本身固有的其他困难,特别是噪声和类别重叠,阻碍了我们学习有效的分类器。考虑到这些因素,本文提出一种新的不平衡分类框架,旨在通过自步协调数据的欠采样来生成强大的集成。广泛的实验表明,这个新框架虽然计算效率很高,但即使在高度重叠的类和极端偏斜的分布下,也可以带来鲁棒的性能。所提出方法可以很容易地适应大多数现有的学习方法(如C4.5, SVM, GBDT和神经网络),以提高其在不平衡数据上的性能。
一。研究问题:
这种高度不平衡、大规模且有噪声的数据给下游分类任务带来了严峻挑战
二研究内容
我们引入“分类硬度”的概念来整合上述困难。直观地说,难易程度代表了特定分类器正确分类样本的难度。因此,分类难度的分布隐含着任务难度的信息。例如,噪声可能具有较大的硬度值,高硬度样本的比例反映了类重叠程度。
基于分类困难度,提出了一种新的学习框架——自步集成学习(Self-paced Ensemble, SPE)。本文考虑分类难度在数据集上的分布,并根据难度分布迭代地选择信息量最大的多数数据样本,而不是简单地平衡正/负数据或直接分配实例权重。欠采样策略由自步过程控制。这种自步过程使框架逐渐关注更难的数据样本,同时仍然保持容易的样本分布的知识,以防止过拟合。