NeurIPS 2020| 重新思考长尾分布中Label的价值

NeurIPS 2020| 重新思考长尾分布中Label的价值

本期分享一篇NeurIPS 2020的一篇关于Imbalance Learning的文章《Rethinking the Value of Labels for Improving Class-Imbalanced Learning》。数据分布不平衡,即数据呈长尾分布(long-tailed distributions)。在进行分类任务时,占比较小的类别往往在模型预测时,错误的分类为占比较大的类别。本文从理论和实践两名面重新研究了监督Label的价值,提出了应用未标注数据(unlabeled data)进行半监督学习(semi-supervised)以及无需额外数据,进行自监督学习(self-supervised)预训练,其训练结果参数作为常规监督学习网络初始化参数,在large-scale imbalanced benchmarks达到SOTA。

在这里插入图片描述
在这里插入图片描述

论文地址:paper

代码地址:code

从定性可视化的角度分析来看,如下图所示,类别之间由于数量的差异,导致分类界限模糊。文中作者从已标注数据的价值的角度进行分析。根据以往经验,监督学习的结果是优于无监督学习。那么如何进一步挖掘The Value of Labels并由此提出解决两个解决方法是文章的核心。
分类界限

1、Abstract

基于现有的研究可知监督学习的结果优于无监督学习,长尾分布数据导致“标签偏差”,数据中占比较多的数据主导了分类边界的改变。本文研究发现:半监督和自监督学习能够改善数据不平衡学习的分类性能。

2、Challenges

长尾分布数据在现实场景中普遍存在,也有诸多的方法的提出以解决该问题。但到底是什么样的不同特征(相对于数据平衡来说)导致了长尾分布学习的结果?基于现有的研究发现,监督学习结果优于无监督学习。但另一方面,监督学习的的标签缺进一步加剧了“标签偏差”,即结果倾向于数据占比较多的类别。监督学习看似就像一把双刃剑。

3、Contributions

本文的主要贡献点:①对imbalanced label 进行了系统的分析和研究;②有监督信息(即有标注Label)的数据是有价值的。研究发现,给予模型更多不带标签的数据进行半监督训练将减少“标签偏差”,提升分类模型的性能;③s数据分布不平衡的标签数据并不总是有用的。自监督方式训练的模型优于对应的Baseline。

4、Imbalanced Learning with Unlabeled Data

利用未标注的数据,结合自监督semi-supervised learning (SSL)模型,对数据不平衡分类模型进行优化。

4.1、 Experimental Setup

实验的设置:①利用original imbalanced dataset(DL),即原始的长尾分布的带Label的数据训练一个分类器;②利用第一步得到的分类器为未标注标签的数据生成假标签(pseudo-label);③将两部分数据DL和DU混合训练,并在计算loss时,对pseudo-label的数据添加权重w。。

4.2、 Main Results

从结论上看,半监督训练的结果比直接训练不平衡数据训练的结果好!提升约6%~10%。半监督实验设计(为验证未标注数据中数据不平衡比例对结果的影响):其中 ,未标注的数据集; ,未标注数据中长尾分布数据的最大比例; ,表示数据扩增至5倍未标注的数据。
在这里插入图片描述

从表(a)中可以看出:
a. 训练数据中Imbalance Ratio越大,Top-1 test errors越大。即数据不平衡程度越大,错误率越高;b. 对于未标注的数据(加入到训练中),数据不平衡程度越大,错误率越高,反之亦然;c. 自监督能够有效降低Top-1 test errors;d. 数据不平衡程度越大,的提升越大,反之亦然。定性的的可视化结果如下图所示。
在这里插入图片描述
4.3、 Further Analysis and Ablation Studies

通过选取较新的SSL(Semi-Supervise Learning)model,证实unlabeled data 能够超越baselines.

5、A Closer Look at Unlabeled Data under Class Imbalance

根据上述实验以及结论,进一步挖掘SSL的性能,其能否在实际的Imbalanced data中表现出较好的性能呢?对于balanced data,SSL往往表现出“副作用”!SSL往往对unlabeled data与原始数据的相关性非常敏感。并通过实验进行了验证,其性能随着unlabeled data 错误分类而逐步下降;错误率随着长尾分布中数据比例的逐步增加而增大。经过较长篇幅的理论分析,本文引出第二个解决方法:semi-supervised techiques。
在这里插入图片描述

5.1 Self-Supervised Imbalanced Learning Framework

利用自监督学习克服固有的监督信息(label)导致的Bias。即舍弃掉标签信息,首先进行自监督预训练SSP(self-supervised pre-training)。将Imbalance data通过SSP训练获取到更优的label-agnositc初始化参数。将学习到的参数用来初始化常规(standard training)的监督学习模型。

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
想要了解更多关于论文的技术细节,可参考原文及开源代码!

如果觉得对论文的分析和理解对您有帮助,请关注我的微信公众号Deep Learning Engine。
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值