Moco：无监督视觉表征学习的动量对比

最新推荐文章于 2024-11-23 16:30:00 发布

巍巍微澜

最新推荐文章于 2024-11-23 16:30:00 发布

阅读量1.6k

点赞数 3

分类专栏： Cantrastive Learning 文章标签：计算机视觉深度学习

本文链接：https://blog.csdn.net/weixin_44846680/article/details/112845703

版权

Moco是一种用于无监督视觉表征学习的方法，通过动态字典和动量更新解决高维连续输入的问题。对比学习思想下，Moco利用InfoNCE损失函数，通过不断更新的编码器保持key的一致性。实验显示，相比于端到端和记忆库方法，Moco在大字典设置下表现出更好的性能，且在ImageNet的线性分类和迁移特征任务中取得优秀结果。此外，Moco v2引入SimCLR改进，进一步提升网络性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1 概述

在NLP领域，无监督表征学习有GPT、BERT等效果非常好的模型，但是CV领域还是有监督模型作为主流。作者认为主要是因为CV和NLP领域处理的数据对应的信号空间不同：语言任务有离散的信号空间，词语词之间可以视为是独立的词组，能够很方便地构成字典（Dictionary），这种词典是无监督学习便于学习依赖的特征；而视觉领域的原始信号是在一个连续且高维空间中，无法成为结构化的信号，使得无监督学习难以展现在NLP领域发挥出的效果。

作者提出了一种动态字典，即MOCO，新的minibatch对应的字典在进入队列时，将会替换最早进入的字典，使得字典始终是所有数据的子集，又始终代表最新的表征，经过试验发现，Moco的表现非常之好。

2 思想

对比学习的思想在于，通过一些已编码的query（q），使其与其对应的key（k）相对应，k是被编码的样本的在字典中的key $\lbrace k_0,k_1,k_2...\rbrace$ ，假设 $q$ 与 $k_+$ 相匹配，对比损失的目的是尽量拉近 $q$ 与 $k_+$ 之间的距离而增大 $q$ 与其他 $k_i$ 之间的距离（拉近正对，缩小负对，其他的 $k_i$ 都是负对），Moco用的是点积的方法衡量相似度，称为InfoNCE loss：