论文标题:
ABC-Norm Regularization for Fine-Grained and Long-Tailed Image Classification
翻译:
abc范数正则化用于细粒度和长尾图像分类
摘要
现实应用中的图像分类通常涉及复杂的数据分布,如细粒度和长尾。为了同时解决这两个具有挑战性的问题,我们提出了一种新的正则化技术,该技术产生对抗损失以加强模型学习。
具体而言,对于每个训练批次,我们构建了一个自适应批次预测(ABP)矩阵,并建立了相应的自适应批次混淆范数(ABC-Norm)。ABP矩阵由两部分组成,其中一个自适应组件用于分类编码不平衡数据分布,另一个组件用于批处理评估softmax预测。
abc范数导致基于范数的正则化损失,这在理论上可以被证明是与秩最小化密切相关的目标函数的上界。ABC-Norm正则化通过与传统的交叉熵损失相结合,引入自适应分类混淆,从而引发对抗学习,提高模型学习的有效性。
Introduce
在训练和测试阶段,图像分类模型的性能严重依赖于底层数据分布。在实际应用中,其底层数据分布可能与仅为研究评估而建立的传统基准集合有很大差异。
为了解释数据分布中的这种差异,最近的数据集,例如iNaturalist 2018,已经被提出弥补差距,以便他们的分类技术可以被广泛应用。iNaturalist有两个值得注意且具有挑战性的方面。首先,它表现出长尾分布,其特征是头部和尾部类别之间的比例极不平衡。特别是,长尾分布中包含的训练实例数量几乎有三个数量级的差异,这给学习尾类的适当表示带来了困难。其次,该数据集中的对象类别也是细粒度的,而类间相似度和类内相似度各种变化微妙地交织在一起。在iNaturalist 2018上执行分类本质上是一项艰巨的任务,无论考虑的是一组特定的细粒度对象类(多、中或少)。在这些挑战的激励下,我们的目标是在设计用于实际处理现实世界数据的分类技术时同时解决细粒度和长尾问题。
如图(左)所示,我们分别以目标类别之间的最大不平衡比和归一化特征余弦相似度作为衡量细粒度因素和长尾因素的标准,表征目标识别研究中采用的常用数据集的两个难点。此外,图(右)表明,纯细粒度最先进(SOTA)方法对于长尾情况不一定表现良好,反之亦然,而我们的方法为解决图像分类的两个具有挑战性的问题提供了统一的解决方案。
在处理FGVC问题时,也提出了在训练中加入额外难度的概念。成对混淆和最大熵就是两种这样的方法,与我们提出的方法密切相关。成对混淆认为,在训练中稍微混淆模型可以防止过度拟合问题。最大熵观察到,FGVC的数据多样性通常小于大型分类数据集,如ImageNet。因此,它假定模型预测的熵应该倾向于高于典型分类情景的熵。
成对混淆和最大熵都添加了类似混乱的损失,以改善其生成模型的FGVC性能。然而,目前还没有关于同时解决细粒度和长尾问题的相关争论。
因此,我们有动力开发一种新的分类技术,称为自适应批混淆规范(ABC-Norm),以正则化其相应的自适应批预测(ABP)矩阵,以更好地解释现实世界的数据分布。ABC-Norm可以同时处理细粒度因素和长尾因素,构建对抗损失,提高训练效果。相对于ABC-Norm的优化驱动学习过程(按类别)自适应地添加混淆以获得更好的分类结果。我们还提供了一个数学推导来证明这个概念和它所代表的思想。图3展示了ABC-Norm的概述。我们把我们方法的优点描述如下。
-
abc范数正则化的计算效率高,训练时间不会显著增加。
-
与相关技术不同,我们基于正则化的方法导致端到端可训练的实现。
-
ABC-norm不依赖于复杂的模型设计或复杂的数据增强,不仅为解决细粒度和长尾问题提供了统一的解决方案,而且提高了基线,获得了有竞争力的分类结果。
OUR METHOD
如图所示,自适应批混淆规范(ABC-Norm)概述,通过对编码底层数据分布的自适应矩阵A对预测概率P进行分类调制,可以获得自适应批预测P。然后,我们的公式添加了轻微的分类混淆,以在模型训练中产生对抗性的正则化效果。尽管ABC-Norm比其他技术收敛到更高的训练损失,但它确实达到了更好的验证精度。