Escaping Saddle Points for Effective Generalizationon Class-Imbalanced Data 论文阅读

本文分析了在类别不平衡数据集上训练神经网络时,尾部类损失景观中鞍点的普遍存在,导致对少数类的泛化性能不佳。提出通过锐度感知最小化(SAM)技术,可以有效逃逸鞍点,提高对少数类别的泛化能力。实验证明,SAM与重加权方法结合,在多个数据集上显著提高了尾部类别的准确性,平均提升4%的整体性能。
摘要由CSDN通过智能技术生成

论文:2212.13827 (arxiv.org)

code:val-iisc/Saddle-LongTail: [NeurIPS 2022] Source code for our paper "Escaping Saddle Points for Effective Generalization on Class-Imbalanced Data" (github.com)

摘要:现实世界的数据集表现出不同类型和程度的不平衡。几种基于重加权和损失边际调整的技术经常被用来提高神经网络的性能,特别是在少数类上。在这项工作中,我们通过检查用重新加权和基于边缘的技术训练的神经网络的损失情况来分析类不平衡学习问题。具体来说,我们研究了类别损失的Hessian谱密度,通过它我们观察到网络权重收敛于少数类别损失景观中的鞍点。根据这一观察,我们还发现设计逃避鞍点的优化方法可以有效地用于提高对少数类的泛化。我们进一步从理论上和经验上证明了锐度感知最小化(SAM),一种鼓励收敛到平坦最小值的最新技术,可以有效地用于逃避少数类的鞍点。与最先进的矢量缩放损失相比,使用SAM可以在少数类别上提高6.2%的准确性,从而在不平衡数据集上平均提高4%。代码可在https://github.com/val-iisc/Saddle-LongTail上获得。

1 Introduction 介绍

近年来,由于精心策划的数据集[34,45]的可用性,在视觉识别方面取得了很大进展,这些数据集在不同类别的样本频率方面得到了人为平衡。然而,现代现实世界的数据集往往是不平衡的(即长尾等)[33,49,50],并遭受各种分布转移。像深度神经网络这样的过度参数化模型通常会过度拟合具有高频率样本的类,而忽略少数样本(尾部)[8,50]。在这种情况下,当对关注少数数据性能的指标进行评估时,这些模型的表现很差。这些指标是评估各个领域(如公平性[14]、医学成像[57]等)模型的基本和实用标准。
许多旨在提高在不平衡数据上训练的模型泛化性能的方法都是基于损失的重新加权[16]。确定每一类样本的相对权重,使期望损失与测试准则目标非常接近[10]。近年来,引入了递延重加权(Deferred re-weighting, DRW)[10]和向量缩放(Vector Scaling, VS) Loss[32]等重加权技术,它们改进了经典的重加权方法,即将每个类样本的损失与类频率的倒数成比例地加权。然而,即使这些改进的重加权技术也会导致尾类样本的过拟合。此外,研究表明,使用重加权损失训练深度网络会收敛到与未加权损失情况类似的最终解,从而使其无效[9]。

图1:通过分类分类的Hessian损失分析,我们观察到,当深度神经网络在分类不平衡数据集上训练时,尾部类的最终解达到一个大的负曲率区域,表明收敛到鞍点(底部),而头部类收敛到最小值(顶部)。通过分析本征谱密度(中心)可以观察到损失分布图的性质(鞍点或极小值)。2

这项工作着眼于围绕重加权损失训练的网络的最终收敛解决方案的权重空间中的损失情况。我们发现,在之前的研究中使用的基于一般Hessian的平均损失分析[21,19],并没有揭示任何关于尾类的次优泛化的有趣见解(第3节)。由于每个类的样本频率由于不平衡而不同,我们分析每个类的损失的Hessian。本文提出的分析方法发现,重新加权并不能阻止尾类收敛到高负曲率区域的鞍点,最终导致泛化效果较差[18]。而对于头部类,解决方案收敛到一个最小值,几乎没有显著的负曲率存在,类似于在平衡数据上训练的网络。这个收敛到鞍点的问题最近没有得到太多的关注,因为在平衡数据集上训练时负特征值消失,表明收敛到局部最小值[11,21]。然而,令人惊讶的是,我们的分析表明,当神经网络在不平衡(长尾)数据上训练时,收敛到鞍点仍然是一个实际问题(图1)。
文献中已经设计了大量能够有效地逃避鞍点的优化方法[20,27,28],其中一些方法涉及在梯度中添加各向同性噪声分量。然而,这些方法在实践中并不能提高深度网络的性能,因为SGD本身的隐式噪声在平衡数据上训练时减轻了鞍点问题[17,28]。然而,在不平衡数据集的情况下,我们发现SGD沿负曲率的分量(即隐式噪声)不足以逃避少数类的鞍点。因此,对不平衡数据的学习可以作为逃避鞍点的优化算法的实用基准。
我们进一步证明,锐度感知最小化(Sharpness-Aware Minimization, SAM)[19]是一种最新的优化技术,通过重新加权可以有效地增强沿负曲率的梯度分量,从而有效地摆脱鞍点,从而提高泛化性能。我们发现,在针对长尾学习和类不平衡学习设计的各种重加权和裕度增强方法中,SAM可以显著提高性能。
在ImageNet-LT和iNaturalist 2018的大规模数据集上也观察到显著的改进,证明了我们的结果在规模上的适用性。我们总结了我们的贡献如下:•我们提出了对损失的分类Hessian分析,该分析揭示了少数阶级损失格局中鞍点的收敛性。我们发现即使损失重加权解收敛于鞍点,导致对少数类的次优泛化。

•我们从理论上证明了具有重加权和高正则化因子的SAM显著增强了沿负曲率方向的随机梯度分量,从而有效地摆脱了鞍点。
•我们发现SAM可以成功地提高最先进的技术在不平衡数据集上的学习性能,这些

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值