Revisiting the Transferability of Supervised Pretraining: an MLP Perspective

参考资料

CVPR 2022 | MLP才是无监督学习比监督学习迁移性能好的关键因素

迁移能力

迁移能力(transferability)的定义很简单,模型在相同数据下,如何在各种下游任务表现的更好。形象的来说,就是门派内有着大量的弟子(pretraining methods),基于门派内共同的修炼资源(pretraining data),修炼着不同的功法(with different supervision),以期让自己在未来在不同类型的江湖比武(various downstream tasks, various dataset)上都能拔得头筹。而我们想要讲述的是,一个资质平凡的监督学习(supervised learning method,SL),修着最普通的功法(the cross-entropy loss),通过“自我审视”(revisit)和取长补短,总结经验教训(theoretical analysis),在各种迁移任务上成功击败早已声名鹊起的后起之秀(unsupervised learning methods, USL),最终脱颖而出的故事。

相比于之前的对监督学习和无监督学习的分析,这次针对迁移性能的revisit,从监督学习和无监督学习在训练时结构上的差异出发,指出了之前被大家忽视的MLP projector是其中的关键因素。

回看监督学习/无监督学习的差距分析

首先,明确我们的目标:找到监督学习(SL)在迁移能力上真正劣于无监督学习(USL)的原因。只有找到监督学习真正的短板,才能针对性补强,从而完成逆袭。

围绕这一目标,现有的分析和实践性质的文章,主要从两个角度出发:

(1)无监督放弃了标签中的语义信息[1,2],避免模型在训练过程中对标签的过拟合,从而更好保留了instance-specific的特征,使其对下游任务的适应性更好。

(2)Contrastive loss的设计让模型学到了对下游任务更友好的中低层的特征[3,4]。

但是,监督学习方案和现有无监督学习方案在结构上的不同,却一直被大家忽视。

从SimCLR[5]开始,在encoder后引入一个multi-layer perceptron(MLP) projector的方案,就被无监督学习广泛的用于提升当前数据集的表征能力。MLP带来的提升是那么的简单有效,以至于我们当前在设计对比式的无监督学习方案时,都会默认的加入MLP。从而导致在对监督学习和无监督学习迁移性比较上出现了结构上的unfair,得到了不够准确的结论。比如,在提升监督学习迁移能力的方案中,SupContrast[4]在把contrastive loss引入监督学习的同时,MLP projector也被一并引入,但在[3]的进一步分析比较中,却单一地把性能提升归功于contrastive loss设计上的优势。

而实际上,通过这次的revist,我们发现之前被大家忽视的MLP projector才是其中的关键因素。

新视角下的监督学习/无监督学习迁移能力差距

既然我们从一个结构差异(MLP)的视角出发,我们自然就需要按照encoder层级结构的划分,做一个stage-wise的测试。Stage-wise evaluation的结果是出乎意料的:

(1) 监督学习(SL)在前4个stage有着比无监督学习(BYOL,MoCov1,MoCOv2)更高的迁移能力,说明标签中的语义信息能够增益中底层特征的迁移能力;

(2) BYOL和MoCov2在stage4到5保持了迁移能力的提升,而SL和MoCov1则出现了性能的下降,而这两组实验中一个关键的差异就是:BYOL和MoCov2在stage5之后插入了一个只用于预训练的MLP层,而SL和MoCov1没有;

(3) 对MoCov1、MoCov2、BYOL分别进行with/without MLP的ablation后,发现在无监督方案上增加MLP能提升其迁移性能,并避免出现类似MoCov1的stage4到5的迁移能力下降。

说句题外话,实际上可能存在一些其他的非线性结构同样能增加迁移性能,但仅仅从MLP projector的角度出发,也能给我们带来更多有趣的结论。

SL-MLP: MLP带来的有趣现象

参照无监督学习常用的做法,在预训练时,我们在SL的encoder和分类层之间加入了一个MLP,并在迁移到下游任务时丢弃掉,仅使用encoder进行迁移。

这种简单的设计带来了十分有效且有趣的现象。

现象1. SL-MLP避免了监督学习(SL)在stage4-5上的迁移能力下降

 现象2. MLP增大了预训练模型的intra-class variation

         

 

 现象3. MLP拉近了pre-D和eval-D特征分布间的距离

 

虽然SL,SL-MLP,BYOL在开始时的Feature mixtureness都较高,随着训练的进行,SL专注在预训练域pre-D上的表征,预训练域pre-D和迁移域eval-D特征分布间的距离开始拉远,而SL-MLP和BYOL的预训练域pre-D和迁移域eval-D特征分布间的距离则一直保持在一个很高的状态。自然,SL-MLP和BYOL就更容易适应新的迁移数据集。

现象4. MLP能减低特征冗余 

 SL-MLP,BYOL以及MoCov1 w/ MLP,相比他们对应的无MLP变体,有更高的迁移性能与更小的特征冗余度,说明了MLP能减低特征冗余。

 对实验现象的理论分析

(1) 当我们在pre-D上一直优化其辨别能力直到超过一个固定的阈值t之后,进一步优化pre-D会导致模型在eval-D上的迁移能力下降,

(2)当pre-D和eval-D之间的语义差距更大时(此时,在相同的模型下两者的特征分布距离容易更大),t会更小。

那么在应对transfer learning时,

(1)在设计模型结构或者优化函数时,为了更好的迁移能力,我们不能把模型在预训练集的intra-class variation优化的过小,导致模型对于预训练集的overfit。(可以考虑增加MLP来完成)

(2)当被迁移域eval-D和预训练域pre-D的语义差距(semantic gap)更大时,我们需要保留更大的intra-class variation来做应对。

SL-MLP的迁移性能

我们在concept generalization task任务上验证了SL-MLP对多个模型结构的效果。SL-MLP对SL有明显的提升,甚至在相同epoch数下超过了BYOL的迁移性能。同样的,MLP在Swin-ViT上也有一样的效果。在Swin-ViT上的提升较低主要是因为不加MLP的Swin-ViT已经有了和SL-MLP类似的高混合程度(Feature mixtureness)。

我们在cross domain的其他分类数据集上验证了MLP对于SL-MLP和SupContrast的重要性。在linear eval,finetune和few-shot learning任务上,增加MLP都表现出了提升,说明MLP相比于contrastive loss对于有监督的迁移能力提升更加重要。

SL-MLP在检测任务上也能观察到性能的提升。SL-MLP在较少epoch下的性能甚至超过了用更多epoch的无监督方案。

尾声

至此,监督学习通过研究自身与无监督学习之间存在的结构差异,成功掌握了一项提升transferability的关键因素(MLP),用SL-MLP证明了自身有取得与无监督相似或更好的结果的实力。但是,未来的道路还在不断延伸,其他有效简单的非线性模块,亦或是把knowledage直接化用到supervision里,修炼的道路没有尽头。 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值