摘要:
该对比学习的方法选用swin-transformer
作为编码器backbone
,并且组合了MoCo v2
(动量编码器)以及BYOL
(batch normalization
以及predict
头)。该组合的结果经过作者的实验,在使用一些策略后可以超越利用DieT
做为backbone
(基于transformer
)的MoCo v3
以及DINO
。
引言:
首先,文章回顾了在对比学习以及视觉领域的先锋工作者,首次将对比学习定义为字典查询问题的MoCo
,首先将Transformer
引入视觉领域的ViT
,以及通过训练策略优化提升ViT
效果的DieT
。但是,ViT/Diet
在需要密度识别的下游任务时表现并不出色,而Swin Transformer
由于其在本地信息获取,层次化信息提取以及翻译语义信息方面的优势则更为适合作为视觉任务的backbone
。此次的方法没有任何的创新,只是把过往成功的一些算法进行结合并且加以一些策略(超参)的提升。此次实验给出了在下游任务中进行转化的实验准线作为辅助。
以Swin Transformer为骨架网络的自监督方法:
MoBy:在这个模型中,拥有两个编码器:一个在线编码器以及一个目标编码器(此处沿用BYOL的说法)。这两个编码器均包含一个骨架网络(Swin Transforme