MoBy解析(Self-Supervised Learning with Swin Transformers)

摘要:

该对比学习的方法选用swin-transformer作为编码器backbone,并且组合了MoCo v2(动量编码器)以及BYOL(batch normalization以及predict头)。该组合的结果经过作者的实验,在使用一些策略后可以超越利用DieT做为backbone(基于transformer)的MoCo v3以及DINO

引言:

首先,文章回顾了在对比学习以及视觉领域的先锋工作者,首次将对比学习定义为字典查询问题的MoCo,首先将Transformer引入视觉领域的ViT,以及通过训练策略优化提升ViT效果的DieT但是ViT/Diet在需要密度识别的下游任务时表现并不出色,而Swin Transformer由于其在本地信息获取,层次化信息提取以及翻译语义信息方面的优势则更为适合作为视觉任务的backbone。此次的方法没有任何的创新,只是把过往成功的一些算法进行结合并且加以一些策略(超参)的提升。此次实验给出了在下游任务中进行转化的实验准线作为辅助。

以Swin Transformer为骨架网络的自监督方法:

MoBy:在这个模型中,拥有两个编码器:一个在线编码器以及一个目标编码器(此处沿用BYOL的说法)。这两个编码器均包含一个骨架网络(Swin Transforme

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值