Contrastive Multiview Coding（多视角的对比学习编码）

最新推荐文章于 2024-08-09 15:35:10 发布

winycg

最新推荐文章于 2024-08-09 15:35:10 发布

阅读量7.1k

点赞数 15

分类专栏：深度学习与pytorch

本文链接：https://blog.csdn.net/winycg/article/details/105658663

版权

深度学习与pytorch 专栏收录该内容

49 篇文章 19 订阅

订阅专栏

原文题目为：Contrastive Multiview Coding
代码链接：https://github.com/HobbitLong/CMC

引言

本文主要提出了Multiview 的contrastive learning。motivation是现实世界中看待同一个物体具有多个视角，每一个视角都是有噪声和不完整的，但是一些对于该物体很重要的元素，例如physics（物理）, geometry（几何）, and semantics（语义）通常是在多个视角间共享的，举个例子：（一只狗可以被看到（seen），听到（heard），摸到（felt）），所以作者认为一个powerful representation建模了多个视角下都不变的元素。

基于这个假设，作者提出了多视角下进行contrastive learning来获得multi-view representation，通过contrastive learning，实际上等同于最大化互信息在多个view之间，即让多个view之间最大化共享的信息。
在这里插入图片描述
如上图所示，对于第 $i$ 个样本，4个不同视角的representation在朝着嵌入空间中靠近优化，而对于另一个 $j$ 样本,嵌入空间朝着远离的方向优化。最终的结果是每个样本簇不同分离开来，每个样本簇包含4个不同视角的嵌入representation。上图展示的是NYU RGBD数据的4个view，最终的表示可以是4个视角的representation concatenation。

方法

two-view contrastive learning

给定数据集 $V_{1}$ 和 $V_{2}$ ，包含样本集合 ${v_{1}^{i},v_{2}^{j}\}_{i=1}^{N}$ ,我们考虑对比congruent(一致)和incongruent(不一致)样本对，即样本来自联合分布 $x\sim p(v_{1},v_{2})$ ，也就是 $x=\{v_{1}^{i},v_{2}^{i}\}$ 认为是positives，相反的，样本来自边缘分布的乘积 $y\sim p(v_{1})p(v_{2})$ ，也就是 $y=\{v_{1}^{i},v_{2}^{j}\}$ 认为是negatives。

我们定义一个判别函数(也称为critic) $h_{\theta}(\cdot)$ ,对positvie的样本对获得高值，对negative样本对获得低值。遵循先前的设置，选择一个正样本对 $x$ ，同时采样 $k$ 个负样本对 ${y_{1},y_{2},...,y_{k}\}$ 进行对比学习：
$\mathcal{L}_{contrast}=-\mathbb{E}_{S}[\log{\frac{h_{\theta}(x)}{h_{\theta}(x)+\sum_{i=1}^{k}h_{\theta}(y_{i})}}]$
其中 $S=\{x,y_{1},y_{2},...,y_{k}\}$ ,具体的，我们固定一个视角的样本 $v_{1}^{i}$ ，从另一个视角选择出正样本 $v_{2}^{i}$ 和采样的 $k$ 个负样本 $v_{2}^{j},j$
$\mathcal{L}_{contrast}^{V_{1},V_{2}}=-\mathbb{E}_{\{v_{1}^{1},v_{2}^{1},v_{2}^{2},...,v_{2}^{k+1},\}}[\log{\frac{h_{\theta}(\{v_{1}^{1},v_{2}^{1}\})}{\sum_{j=1}^{k+1}h_{\theta}(\{v_{1}^{1},v_{2}^{j}\})}}]$
理论上，针对一个样本 $v_{1}^{1}$ 需要遍历 $V_{2}$ 全部的负样本来进行contrast，即 $k$ 为数据集大小减1.但是当数据集很大时，例如imagenet，直接优化上述的loss是不合理的，因为softmax分类的类别过多，计算量太大。因此作者采用随机采样 $k$ 个负样本并进行 $k + 1$ -softmax分类的方法。

critic $h_{\theta}(\cdot)$

$h_{\theta}(\cdot)$ 是一个神经网络，采用编码器 $f_{\theta_{1}}(\cdot)$ 和 $f_{\theta_{2}}(\cdot)$ 来分别编码输入样本 $v_{1}$ 和 $v_{2}$ ，得到的表示来计算余弦相似度：
$h_{\theta}(\{v_{1},v_{2}\})=\exp{(\frac{f_{\theta_{1}}(v_{1})\cdot f_{\theta_{2}}(v_{2})}{||f_{\theta_{1}}(v_{1})||\cdot ||f_{\theta_{2}}(v_{2})||}\cdot \frac{1}{\tau})}$
$\tau$ 是超参数来动态调节范围。
$\mathcal{L}_{contrast}^{V_{1},V_{2}}$ 是将 $V_{1}$ 视为anchor并枚举 $V_{2}$ ，对称地，将 $V_{2}$ 视为anchor并枚举 $V_{1}$ ，将两者相加作为two views loss:
$\mathcal{L}(V_{1},V_{2})=\mathcal{L}_{contrast}^{V_{1},V_{2}}+\mathcal{L}_{contrast}^{V_{2},V_{1}}$

与互信息（MI）的联系

通过证明，可以得到互信息的下界：
$I(z_{i};z_{j})\geq \log{(k)}-\mathcal{L}_{contrast}$
可以看出增加 $k$ 能够导致更好的表示。

contrastive learning 扩展到>2个view

在这里插入图片描述
针对4个views, $V_{1},V_{2},V_{3},V_{4}$ ,提供了（a）和（b）模式。
core view模式是针对某个view $V_{1}$ ,与其他view进行contrastive learning，此时一共有3个目标：
$\mathcal{L}_{C}=\sum_{j=2}^{4}\mathcal{L}(V_{1},V_{j})$
另一种是全图模式，full graph，即每一种view都与其他view进行contrastive learning，因此有6个目标：
$\mathcal{L}_{F}=\sum_{1< i< j< 4}\mathcal{L}(V_{i},V_{j})$
全图模式更能抓住不同view之间的共同信息。

Memory bank

Memory bank是一个存储中间latent representation缓冲区，当我们retrieve $k$ 个负样本时，就从Memory bank获取而不用重新计算representation。Memory bank在训练过程中是动态更新的，每得到样本新的representation，即以滑动的形式更新：
$rep=(1-momentum)*old\_rep+momentum*new\_rep$
momentum一般取0.5，Memory bank的好处是能够快速得到很多负样本的representation，缺点是representation可能略微陈旧。