动量对比MoCo论文笔记
Introduction
无监督学习在NLP(自然语言处理)中很成功,但有监督学习在CV(计算机视觉)中仍占主导地位。这是因为语言任务已经有离散的低维信号空间(如词、句等)用于构建字典(dictionary),而在CV中,原始信号(图片等)处于连续的高维空间中,我们应该要进一步关注低维空间中的字典构建。
不明白字典是什么?没关系,在定义部分中会有解释。
对比学习算法回顾
x是训练数据库中输入的某一张图片,经过数据增强,比如调整亮度、图片裁剪、噪声等处理,得到同一张图片的两个不同view: v和v’。fθ是一个映射函数,能够将高维的图片数据映射成低维的编码。v和v’分别被映射为编码y和y’。
将数据库中的图片全部输入,得到一组y和y’。yn和ym’若来自于同一张图像,标记为相似点,若来自不同的图像,标记为不相似点。
在y所处的低维空间中,进行梯度反向传播,学习fθ的参数θ。通过学习映射函数fθ,希望