MoCo:无监督视觉表示学习中的动量对比

我们提出了一种基于动量对比(MoCo)的无监督视觉表示学习方法。我们将对比学习看作字典查找,从这个角度出发,构建了一个带有队列和移动平均编码器的动态字典。这使得动态构建一个大型且一致的字典成为可能,从而促进无监督对比学习。在ImageNet线性分类协议下,MoCo的结果很有竞争力。更重要的是,MoCo学习到的表示可以很好地迁移到下游任务上。MoCo可以在PASCAL VOC、COCO和其他数据集上的7项检测/分割任务中超过它的有监督预训练对手,有时甚至是远远超过。这表明,在许多视觉任务中,无监督和有监督表示学习之间的差距在很大程度上已经被缩小了。

图1. 动量对比(MoCo)通过使用对比损失将编码的query q与编码的keys字典进行匹配,来训练视觉表示编码器。这种方法为视觉表示学习提供了一个大而一致的字典。

图2. MoCo、end-to-end、memory bank三种对比损失机制的比较。它们在字典大小和一致性方面表现出不同的属性。我们在这里只用了一对query和key进行说明。这三种机制在如何维护keys和如何更新key编码器方面有所不同。(a)用于计算query和key表示的编码器通过反向传播进行端到端更新(两个编码器可能不同)。(b)从memory bank中采样key的表示。(c)MoCo通过momentum-updated编码器对新的key进行动态编码,并维护keys队列(图中未显示)。

上图展示了PyTorch风格的MoCo伪代码。

图3. 在ImageNet线性分类协议下,MoCo、end-to-end、memory bank三种对比损失机制的比较。我们采用相同的pretext任务,仅改变对比损失机制。总的来说,这三种机制都受益于更大的K值。

表1. 在ImageNet线性分类协议下,MoCo与其他方法的比较。MoCo R50的表现很有竞争力,准确率达到了60.6%,优于同类大小的竞争对手。MoCo R50w4x更是实现了68.6%的准确率。

表2. 在PASCAL VOC trainval07+12数据集上微调的目标检测结果。

表3. 在PASCAL VOC目标检测任务上,MoCo、end-to-end、memory bank三种对比损失机制的比较。

表4. 基于PASCAL VOC trainval2007数据集进行目标检测微调,MoCo与以往方法的比较。

表5. 在COCO数据集上微调的目标检测和实例分割的结果。

表6. 在各种任务上进行微调时,MoCo与ImageNet有监督预训练方法的比较。

结论

我们的方法在各种计算机视觉任务和数据集上显示了无监督学习的积极结果。不过有几个悬而未决的问题值得讨论。MoCo从IN-1M到IG-1B的改进一直很明显,但相对较小,这表明更大规模的数据可能没有得到充分利用。我们希望能有一项先进的任务来改善这一点。除了简单的实例识别任务外,还可以将MoCo应用到语言和视觉的掩码自动编码任务中。我们希望MoCo对其他涉及对比学习的任务能有所帮助。

原文:He K , Fan H , Wu Y , et al. Momentum Contrast for Unsupervised Visual Representation Learning[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2020.

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值