MoBy解析（Self-Supervised Learning with Swin Transformers）

最新推荐文章于 2024-08-08 20:39:10 发布

陈俊皓

最新推荐文章于 2024-08-08 20:39:10 发布

阅读量1.3k

点赞数

分类专栏：人工智能文章标签：计算机视觉 pytorch transformer

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_51527580/article/details/124579493

版权

摘要：

该对比学习的方法选用swin-transformer作为编码器backbone，并且组合了MoCo v2(动量编码器)以及BYOL(batch normalization以及predict头)。该组合的结果经过作者的实验，在使用一些策略后可以超越利用DieT做为backbone(基于transformer)的MoCo v3以及DINO。

引言：

首先，文章回顾了在对比学习以及视觉领域的先锋工作者，首次将对比学习定义为字典查询问题的MoCo，首先将Transformer引入视觉领域的ViT,以及通过训练策略优化提升ViT效果的DieT。但是，ViT/Diet在需要密度识别的下游任务时表现并不出色，而Swin Transformer由于其在本地信息获取，层次化信息提取以及翻译语义信息方面的优势则更为适合作为视觉任务的backbone。此次的方法没有任何的创新，只是把过往成功的一些算法进行结合并且加以一些策略(超参)的提升。此次实验给出了在下游任务中进行转化的实验准线作为辅助。

以Swin Transformer为骨架网络的自监督方法：

MoBy:在这个模型中，拥有两个编码器:一个在线编码器以及一个目标编码器(此处沿用BYOL的说法)。这两个编码器均包含一个骨架网络(Swin Transforme

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
MoBy解析（Self-Supervised Learning with Swin Transformers）

摘要：该对比学习的方法选用swin-transformer作为编码器backbone，并且组合了MoCo v2(动量编码器)以及BYOL(batch normalization以及predict头)。该组合的结果经过作者的实验，在使用一些策略后可以超越利用DieT做为backbone(基于transformer)的MoCo v3以及DINO。引言：首先，文章回顾了在对比学习以及视觉领域的先锋工作者，首次将对比学习定义为字典查询问题的MoCo，首先将Transformer引入视觉领域的ViT,以及
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。