论文地址:https://arxiv.org/pdf/2211.10955.pdf
概要
目标任务:使用长尾数据和噪声标签同时出现的数据集进行分类任务
主要贡献:1.结合对比学习和两种表征校准方法,提出了一种先进的算法RCAL 2.推导出理论结果来证实校准策略在某些条件下的有效性 3.在模拟和现实世界的数据集上进行了广泛的实验。结果表明表征校准方法优于现有的最先进的方法
模型架构
模型由表征增强,分布表征校准,实例表征校准三个模块组成。首先通过对比学习提取出深层特征,再通过加入分布表征校准方法对表征进行校准,采样后输入线性头,使用mixup和实例表征校准的方法进行训练。
伪代码:
表征增强
自监督学习可以在不使用标签的条件下,直接学习图片中具有的特征,所以自监督学习到的表征不会受到噪声标签的影响。同时,之前的工作也表明,对比学习可以提高网络对于长尾数据的“容忍程度”。具体来说,作者基于MoCo来做自监督学习.
分布表征校准
作者提到,我们可以假设每个类的深层表征服从多元高斯分布,这一点在现有的文章中已经被验证过(但是,不能假设原始的输入数据服从多元高斯分布)。由于数据中存在噪声样本,我们不能直接使用每一类的初始数据估计该类数据服从的高斯分布。
校准步骤:
1.对每个类使用LOF( Local Outlier Factor)算法剔除异常值获得更为干净的数据
2.对于头部类别,使用干净的数据对多元高斯分布进行估计
3.对于尾部类别,选择与其类别中心距离最近的k个头部类别来修正尾部类别的均值和协方差
在恢复了所有类别的高斯分布后,从这些样本中抽取多个数据点用于分类器的训练,由于恢复的分布接近clean data的分布,因此用这些数据训练可以得到更鲁棒的分类器,同时对于每个类别,可以控制采样数据的数量,以平衡训练数据.
实例表征校准
为了进一步提高分类器的性能,在实例表征校准模块作者提出了以下改进:
1.考虑到对比学习得到的表征是可靠的,所以希望后续学习得到的表征应该与对比学习得到的表征尽可能接近
2.为了进一步提高学习表征的鲁棒性,以处理长尾情况下的噪声标签,作者采用了mixup方法,即是随机抽取两个例子生成这两个例子的加权组合作为交叉熵计算的输入
3.loss函数,其中β控制距离正则化的强度:
实验部分
CIFAR-10不同噪声率的实验结果:
CIFAR-10相同噪声率下不同类的准确率:
CIFAR-100不同噪声率的实验结果:
Webvision 和ImageNet上的实验结果:
Clothing1M上的实验结果:
消融实验: