对比学习损失函数（RINCE/ReLIC/ReLICv2）

最新推荐文章于 2025-04-09 13:42:49 发布

byzy

最新推荐文章于 2025-04-09 13:42:49 发布

阅读量8.5k

点赞数 16

分类专栏：对比学习相关文章标签：深度学习

本文链接：https://blog.csdn.net/weixin_45657478/article/details/125811825

版权

对比学习相关专栏收录该内容

4 篇文章

订阅专栏

对比学习常用的损失函数为InfoNCE。

一、Robust Contrastive Learning against Noisy Views（RINCE）

原文链接：https://arxiv.org/pdf/2201.04309.pdf

本文提出RINCE，一种对噪声（如图像的过度增广、视频的过度配音、视频和标题未对准等）有鲁棒性的损失，且不需要显式地估计噪声。

文章提到：RINCE是一个用Wasserstein dependency measure表示的互信息的对比下界；而InfoNCE是KL散度表示的互信息的下界。

设数据分布为 $D$ ，噪声数据集为 $S=\{x,\hat{y}\}$ ，其中标签正确即 $\hat{y}_i=y_i$ 的概率为 $\eta$ 。则目标为最小化

$R_l^\eta(f)=\mathbb{E}_{D_\eta}[l(f(x),\hat{y})]$

其中 $l$ 为二元交叉熵损失。

对称的损失函数对噪声有鲁棒性。损失函数 $l$ 对称即满足

$l(s,1)+l(s,-1)=c$ (1)

（ $c$ 为常数），其中 $s$ 为 $f$ 产生的预测分数（ $l$ 对 $s$ 的梯度也应具有对称性）。

对称的对比损失有如下形式：

$L(s)=\underbrace{l(s^+,1)}_{\textup{Positive Pair}}+\lambda\underbrace{\sum_{i=1}^Kl(s_i^-,-1)}_{K\textup{ negative pairs}}$ (2)

其中 $s^+$ 和 $s^-$ 分别为正/负样本对的分数。权重 $\lambda$ 的大小反映正负样本的相对重要程度。

InfoNCE不满足对 $s^{+/-}$ 梯度中的对称条件。

RINCE损失如下：

$L^{\lambda,q}_{\textup{RINCE}}(s)=\frac{-e^{q\cdot s^+}}{q}+\frac{(\lambda\cdot(e^{s^+}+\sum_{i=1}^Ke^{s^-_i}))^q}{q}$

其中 $q$ 和 $\lambda$ 均在 $(0,1]$ 范围内（实验表明对 $\lambda$ 的值不敏感）。

$q=1$ 时，RINCE完全满足（2）式的对称性（此时，满足（1）式且 $c=0$ ）：

$L^{\lambda,q=1}_{\textup{RINCE}}(s)=-(1-\lambda)e^{s^+}+\lambda\sum_{i=1}^Ke^{s^-_i}$

此时该损失对噪声有鲁棒性。

$q$ 趋于0时，RINCE渐近趋于InfoNCE。

不论 $q$ 为何值，正样本分数越高，负样本分数越低，损失越小。

在梯度计算时：

         $q=1$ 时，RINCE更重视easy-positive的样本（分数高的正样本）；

        InfoNCE（ $q=0$ ）更重视hard-positive的样本（分数低的正样本）；

        两者均重视hard-negative的样本（分数高的负样本）。

因此InfoNCE在无噪声时收敛更快，而 $q=1$ 的RINCE对噪声更有鲁棒性。实际中在 $[0.1,0.5]$ 的范围内取 $q$ 。

二、Representation learning via invariant casual mechanisms（ReLIC）

原文链接：https://arxiv.org/pdf/2010.07922.pdf

本文把数据分为内容和风格（例如要分类图像是否为狗时，图像中的狗为内容，而背景、光照等因素为风格），学习到的表达应只与内容有关。

采用数据增广的方案在保留内容的同时改变风格（如图像旋转、改变灰度、裁剪和平移等），形成正样本。

$-\sum_{i=1}^N\sum_{a_{lk}}\log\frac{\exp(\phi(f(x_i^{a_l}),h(x_i^{a_k}))/\tau)}{\sum_{m=1}^M\exp(\phi(f(x_i^{a_l}),h(x_m^{a_k}))/\tau)}+\alpha\sum_{a_{lk},a_{qt}}KL(p^{do(a_{lk})},p^{do(a_{qt})})$

上式 $f$ 表示神经网络； $h$ 与 $f$ 相关，往往取 $h=f$ ； $\phi(f(x_i),h(x_j))=\langle g(f(x_i)),g(h(x_j)) \rangle$ ， $g$ 是全连接层。 $a_{lk}=(a_l,a_k)$ 为一对增广； $p^{do(a_{lk})}$ 即 $p^{do(a_{lk})}(Y^R=j|f(x_i))\propto \exp(\phi(f(x_i^{a_l}),h(x_j^{a_k}))/\tau)$ 。

前面一项为通常的对比损失，而后面一项是增广的不变性惩罚（或者不变性损失）（即增广应尽可能地不改变内容），该项可以减小类间距离。

本文还解释了自监督学习成功的原因，即证明了：设下游任务集合 $Y$ ，且任务 $Y_R$ 比 $Y$ 中所有任务均更细化。如果通过 $Y_R$ 学习到的表达只与内容有关，那么这个表达可以泛化到 $Y$ 中所有的下游任务。

三、Pushing the limits of self-supervised ResNets: Can we outperform supervised learning without labels on ImageNet?（ReLICv2）

原文链接：https://arxiv.org/pdf/2201.05119.pdf

ReLICv2和ReLIC的损失函数相似：

$l_{\textup{ReLICv2}}(x_i)=\sum_{x^+_i\in P(x_i)}-\alpha\log p(x_i;x_i^+)+\beta D_{KL}(p(x_i)|p(x^+))$

这里的 $p$ 就是ReLIC中公式第一项 $\log$ 后的内容，而 $D_{KL}$ 就是ReLIC中公式的第二项：

$\log p(x_i;x_i^+)=\log \frac{e^{\phi_\tau(x_i;x_i^+)}}{e^{\phi_\tau(x_i;x_i^+)}+\sum_{x_i^-\in N(x_i)}e^{\phi_\tau(x_i;x_i^-)}}$

$D_{KL}(p(x_i)|p(x_i^+))=\textup{sg}\left [ \mathbb{E}_{p(x_i;x_i^+)}\log p(x_i;x_i^+) \right ]-\mathbb{E}_{p(x_i;x_i^+)}\log p(x_i^+;x_i)$

$\textup{sg}[\cdot]$ 表示stop gradient，在优化过程中可以避免退化解。