《Intriguing Properties of Contrastive Losses》阅读笔记

最新推荐文章于 2023-04-06 20:39:35 发布

巍巍微澜

最新推荐文章于 2023-04-06 20:39:35 发布

阅读量357

点赞数

分类专栏： Cantrastive Learning 文章标签：深度学习人工智能神经网络

本文链接：https://blog.csdn.net/weixin_44846680/article/details/112876117

版权

Cantrastive Learning 专栏收录该内容

7 篇文章 2 订阅

订阅专栏

Intriguing Properties of Contrastive Losses

题目：对比损失的有趣特性

1. 概要

本文对目前广泛使用的标准对比损失进行了推广，并研究了广义对比损失在参数和数据分布上的一些性质。
本文通过实验发现，对比损失倾向于学习简单特征，并且少量简单特征即可压制甚至完全消除图像更为复杂且本质的特征的作用，进而影响模型表现。

2. 广义对比损失

2.1 广义对比损失的定义

本文在目前广泛使用的对比损失的基础之上，提出了广义对比损失的表达形式，并研究了其中的一些性质。

作者提出了一种广义对比损失的表达形式如下:
$\mathcal{L}_{\mathrm{generalized\ contrastive}}=\mathcal{L}_{\mathrm{alignment}}+λ\mathcal{L}_{\mathrm{distribution}}$
第一项为** $\mathcal{L}_{\mathrm{alignment}}$ ，其作用是拉近正对之间的距离**；第二项为 $\mathcal{L}_{\mathrm{distribution}}$ ，作用是让负样本服从于给定的先验分布。

2.2 标准对比损失是广义对比损失的一个特例

那么，我们常用的交叉熵损失是否符合上述表达式呢？

一个标准的基于交叉熵的对比损失表达式如下：

其中， $\mathrm{sim}$ 代表余弦相似度。

将对数项进行分解，转化为如下形式：

上式第一项的作用非常明确，即拉近正对之间的相似性，最小化第二项的作用是拉远负样本与负样本之间的距离，最终将使得隐藏表征 $z$ 趋近于超球面中的均匀分布，因此可以视为是一种分布匹配损失。因此，基于交叉熵的标准对比损失属于广义对比损失的一个特例，最终将使负样本趋近于均匀分布。

在上式右侧，温度参数 $τ$ 出现在第二项的两个地方，其中一个代表的是 $\mathcal{L}_{\mathrm{distribution}}$ 的权重，另一处代表的是高斯核的宽度，作者认为这两处的值不一定非要相等，可以解耦，用 $λ$ 表示代表权值的一处，得到 $τ$ 解耦的广义交叉熵对比损失：

温度参数 $τ$ 和尺度参数 $λ$ 的关系：

解耦之后的标准交叉熵损失具有两个可调参数 $τ$ 和 $λ$ ，作者研究了设置不同值的情况下，二者对用标准对比损失所训练出来的分类模型线性评估结果的影响：

从上图中可以发现， $τ$ 和 $λ$ 对线性评估结果呈现负相关关系，在设置参数时应从左下和右上端取值。

2.3 广义对比损失和互信息的关系

有研究已经证明，基于交叉熵的标准对比损失是互信息的一个下界，本文认为广义对比损失与互信息仍然保持这种关系。

两个潜在变量 $U$ 与 $V$ 的互信息可以写为：
$I (U; V) = H (U) - H (U ∣ V)$
将其与广义对比损失相比较：
$\mathcal{L}_{\mathrm{generalized\ contrastive}}=\mathcal{L}_{\mathrm{alignment}}+λ\mathcal{L}_{\mathrm{distribution}}$
$\mathcal{L}_{\mathrm{alignment}}$ 的作用在于拉近正类内部的相似性，即减少不同类之间的不确定性，与互信息中的第二项相对应，而

$\mathcal{L}_{\mathrm{distribution}}$ 的作用在于尽量使负类之间趋近于先验分布，这一损失将会尽量使得样本的熵最大，故而可以看作 $H (U)$ 在表征中的代理，当先验分布是均匀分布时，熵最大。不过广义对比损失比互信息在第二项多了一个可调参数 $λ$ 。

2.4 使用不同先验分布对对比损失表现的影响

标准正态分布使用的是交叉熵损失，使得 $\mathcal{L}_{\mathrm{distribution}}$ 趋近于超球面上的均匀分布。为了研究其他的先验分布对于对比损失的表现是否有影响，本文根据最优运输理论，构造出了基于Sliced Wasserstein Distance(SWD)距离的均匀超球面(Uniform hypersphere)分布、均匀超立方分布(Uniform hypercube)和高斯分布(Normal distribution):