（ICML-2020）通过超球面的对齐和均匀性理解对比表示学习（一）

顾道长生'

已于 2022-04-11 20:23:00 修改

阅读量3.6k

点赞数 4

分类专栏：基础架构文章标签：机器学习

于 2022-04-11 20:20:08 首次发布

本文链接：https://blog.csdn.net/wl1780852311/article/details/124108289

版权

基础架构专栏收录该内容

92 篇文章

订阅专栏

本文探讨了对比表示学习在单位超球面上的对齐性和均匀性，这两个特性对于学习高质量的特征表示至关重要。研究发现，对比损失在无限负样本情况下优化了对齐和均匀性，并通过实验验证了这两个指标与下游任务性能的强相关性。直接优化这些指标可以取得与对比学习相当甚至更好的效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

通过超球面的对齐和均匀性理解对比表示学习
Abstract
1. Introduction
2. Related Work
3.无监督对比表征学习的初步研究
4. Feature Distribution on the Hypersphere
参考文献

通过超球面的对齐和均匀性理解对比表示学习

paper题目：Understanding Contrastive Representation Learning through Alignment and Uniformity on the Hypersphere

paper是MIT发表在ICML 2020的工作

paper地址：链接

Abstract

对比表征学习在实践中取得了显著的成功。在这项工作中，我们确定了与对比损失相关的两个关键特性：（1）正对特征的对齐（接近）和（2）超球面上（归一化）特征诱导分布的均匀性。我们证明，对比损失渐进地优化了这些属性，并分析了它们对下游任务的积极影响。根据经验，我们引入了一个可优化的度量来量化每个属性。在标准视觉和语言数据集上的大量实验证实了这两个指标和下游任务性能之间的强烈一致性。与对比学习相比，直接优化这两个指标可以在下游任务中获得相当或更好的表现。

项目页面：链接

Code：链接

1. Introduction

最近大量的经验性工作都是在单位 $\ell_{2}$ 规范约束下学习表征，有效地将输出空间限制在单位超球上，包括许多最近的无监督的对比表征学习方法。

直观地说，让这些特征存在于单位超球面上会产生一些令人满意的特征。在点积无处不在的现代机器学习中，固定范数向量可以提高训练的稳定性。此外，如果一个类的特征足够好地聚集，那么它们与其他特征空间（见图2）是线性可分离的，这是用于评估表示质量的常用标准。

图2：超球面。当类被很好地聚集在一起时（形成球状帽），它们是线性可分离的。这一点对于欧几里得空间来说并不成立。

虽然单位超球面是一个流行的特征空间选择，但并非所有映射到它的编码器都是平等的。最近的工作认为，表征应该另外对不必要的细节保持不变，并尽可能多地保留信息。我们把这两个属性称为对齐性和均匀性（见图1）。对齐性倾向于将相似的特征分配给相似的样本的编码者。均匀性更倾向于保留最大信息的特征分布，即单位超球上的均匀分布。

图 1：输出单位超球面上特征分布的对齐性和均匀性示意图。

在这项工作中，我们分析了对齐性和均匀性属性。我们表明，目前流行的对比表示学习形式实际上在无限负样本的限制下直接优化了这两个属性。我们提出了基于理论动机的对齐性和均匀性指标，并观察到它们与下游任务性能之间的一致性。值得注意的是，直接对这两个指标进行优化会获得与对比学习相当或更好的性能。

我们的主要贡献是：

我们提出了用于对齐性和均匀性的量化指标作为表征质量的两个度量，具有理论动机。
我们证明了对比损失渐近优化对齐性和均匀性。
根据经验，我们发现指标和下游任务性能之间有很强的一致性。
尽管形式简单，但我们提出的指标在没有其他损失的情况下直接优化时，凭经验在下游任务中与对比学习相比具有可比或更好的性能。

2. Related Work

无监督对比表征学习在图像和序列数据的表征学习方面取得了显著的成功。这些工作背后的共同动机是InfoMax原则，我们在这里将其实例化为最大化两个视图之间的互信息（MI）。然而，这种解释与实践中的实际行为不一致，例如，优化MI的更严格界限可能会导致更糟糕的表示。对比损失究竟是什么，在很大程度上仍是一个谜。基于潜在类别假设的分析提供了很好的理论见解，但不幸的是，与实证实践存在相当大的差距：代表性质量受到大量负面影响的结果与实证观察结果不一致。在本文中，我们从对齐性和均匀性的角度分析和描述了对比学习的行为，并用标准表征学习任务实证验证了我们的观点。

单位超球面上的表征学习。在对比学习之外，许多其他表征学习方法也将其特征标准化为单位超球面。在变分自编码器中，超球面潜在空间的性能优于欧几里德空间。我们知道，在单位超球面上直接匹配均匀采样点可以提供良好的表示，这与我们的直觉一致，即均匀性是一个理想的特性。Mettes等人（2019年）优化了单位超球面上的原型表示，以进行分类。超球面人脸嵌入的性能大大优于非正规化的人脸嵌入。它的经验成功表明，单位超球面确实是一个很好的特征空间。在这项工作中，我们正式研究了超球面几何和流行的对比表征学习之间的相互作用。

单位超球上的分布点。在单位超球上均匀分布点的问题是一个经过充分研究的问题。它通常被定义为对某一核函数的总势能最小化，例如，寻找电子最小静电势能配置的Thomson问题，以及Riesz s势能的最小化。我们提出的均匀性度量基于高斯势，它可以用来表示一类非常普遍的核，并且与普遍最优的点配置密切相关。此外，还讨论了超球面上的最佳填充问题。

3.无监督对比表征学习的初步研究

流行的无监督对比表征学习方法（本文中通常称为对比学习）从未标记的数据中学习表征。它假设了一种对正样本对进行采样的方法，表示应该具有相似表示的相似样本。根据经验，正样本对通常通过对同一样本的两个独立的随机增强版本获得，例如，同一图像的两个crops。

设 $p_{\text {data }}(\cdot)$ 为 $\mathbb{R}^{n}$ 上的数据分布， $p_{\text {pos }}(\cdot, \cdot)$ 为 $\mathbb{R}^{n} \times \mathbb{R}^{n}$ 上正样本对的分布。基于实践经验，我们假设如下性质。

假定分布 $p_{\text {data }}$ 和 $p_{\text {pos }}$ 应满足

对称性： $\forall x, y, p_{\text {pos }}(x, y)=p_{\text {pos }}(y, x)$
匹配边缘： $\forall x, \int p_{\text {pos }}(x, y) \mathrm{d} y=p_{\text {data }}(x)$

我们考虑以下特定且广泛流行的对比损失形式来训练编码器 $\mathbb{R}^{n} \rightarrow \mathcal{S}^{m-1}$ ，将数据映射到维度为 $m$ 的 $\ell_{2}$ 归一化特征向量。许多最近的表示学习方法已经证明这种损失是有效的。
在这里插入图片描述

其中 $\tau>0$ 是标量温度超参数， $\in \mathbb{Z}_{+}$ 是固定数量的负样本。

对比损失一词也通常用于指基于正面和负面样本的各种目标。在这项工作中，我们关注公式（1）中的具体形式，它在现代无监督对比表征学习文献中被广泛使用。

规范化的必要性。在没有范数约束的情况下，通过简单地缩放所有特征，softmax分布可以变得随机尖锐。Wang等人（2017年）对这种影响进行了分析，并论证了在交叉熵损失中使用特征向量点积时进行归一化的必要性，如在公式(1)中所述。在实验上，Chen等人（2020年）也表明，规范化输出会获得更好的表现。

InfoMax 原则。许多实证工作是由 InfoMax 原则推动的，即对于 $\sim p_{\text {pos }}$ 最大化 $I (f (x); f (y))$ 。通常他们解释公式(1)中的 $\mathcal{L}_{\text {contrastive}}$ 作为 $I (f (x); f (y))$ 的下界。然而，众所周知，这种解释在实践中存在问题，例如，最大化更紧密的界限通常会导致下游任务性能更差。因此，我们没有将其视为界限，而是在以下部分中研究直接优化 $\mathcal{L}_{\text {contrastive}}$ 的确切行为。

4. Feature Distribution on the Hypersphere

对比损失鼓励正样本对的学习特征表示相似，同时将随机采样的负样本对的特征推开。传统观点认为，表示应该提取正样本对之间共享的信息，并且对其他噪声因素保持不变。因此，损失应该优先考虑以下两个属性：

对齐性：形成正样本对的两个样本应该映射到附近的特征，因此（大部分）对不需要的噪声因子保持不变。
均匀性：特征向量应大致均匀分布在单位超球面 $\mathcal{S}^{m-1}$ 上，尽可能多地保留数据信息。

为了凭经验验证这一点，我们将通过三种不同方法获得的 $\mathcal{S}^{1}(m=2)$ 上的 CIFAR-10 表示可视化：

随机初始化。
监督预测学习：编码器和线性分类器从头开始联合训练，在监督标签上具有交叉熵损失。
无监督对比学习：编码器经过 $\tau=0.5$ and $M = 256$ 的 $\mathcal{L}_{\text {contrastive }}$ 训练。

所有三个编码器都共享相同的基于AlexNet的架构，经过修改，可以将输入图像映射到 $\mathcal{S}^{1}$ 中的二维向量。预测学习和对比学习都使用标准数据扩充来扩充数据集和正样本对。

图3总结了验证集特性的结果分布。事实上，来自无监督对比学习的特征（图3的底部）表现出最均匀的分布，并且紧密地聚集在正样本对中。

图3: $\mathcal{S}^{1}$ 上的CIFAR-10验证集表示。对齐分析：我们展示了正样本对特征之间的距离分布（两个随机增强）。均匀性分析：我们用 $\mathbb{R}^{2}$ 中的高斯核密度估计（KDE）和Mises-Fisher（vMF）KDE绘制每个点 $\in \mathcal{S}^{1}$ 的角度（即 $\arctan 2(y, x)$ ）上的特征分布）。最右边的四个图显示了选定特定类别的特征分布。对比学习的表征既一致（具有较低的正配对特征距离），又均匀（在 $\mathcal{S}^{1}$ 上均匀分布）。

Eqn（1）中对比损失的形式也表明了这一点。我们在下面介绍非正式的论点，然后在第4.2节中进行更正式的处理。从 $p$ 的对称性，我们可以导出
$\begin{aligned} &\mathcal{L}_{\text {contrastive }}(f ; \tau, M)=\underset{(x, y) \sim p_{\text {pos }}}{\mathbb{E}}\left[-f(x)^{\top} f(y) / \tau\right] \\ &+\underset{(x, y) \sim p_{\text {pos }}}{\mathbb{E}}\left[\log \left(e^{f(x)^{\top} f(y) / \tau}+\sum_{i} e^{f\left(x_{i}^{-}\right)^{\top} f(x) / \tau}\right)\right] \\ &\quad\left\{x_{i}^{-}\right\}_{i=1}^{M} \sim p_{\text {data }} \end{aligned}$
因为 $\sum_{i} e^{f\left(x_{i}^{-}\right)^{\top} f(x) / \tau}$ 项始终为正且有界在下方，所以损失有利于更小的 $\mathbb{E}\left[-f(x)^{\top} f(y) / \tau\right]$ ，即具有更多对齐的正样本对特征。假设编码器完全对齐，即 $\mathbb{P}[f(x)=f(y)]=1$ ，那么最小化损失就相当于优化
$KaTeX parse error: Undefined control sequence: \substack at position 12: \underset{\̲s̲u̲b̲s̲t̲a̲c̲k̲{x \sim p_{\tex…$
这类似于使用 LogSumExp 变换最大化成对距离。直观地说，将所有特征彼此推开确实应该使它们大致均匀分布。

4.1. Quantifying Alignment and Uniformity

为了进一步分析，我们需要一种测量对齐和均匀性的方法。我们提出以下两个指标（损失）。

4.1.1. ALIGNMENT

对齐损失直接定义为正样本对之间的预期距离：
$\mathcal{L}_{\text {align }}(f ; \alpha) \triangleq-\underset{(x, y) \sim p_{\text {pos }}}{\mathbb{E}}\left[\|f(x)-f(y)\|_{2}^{\alpha}\right], \quad \alpha>0$

4.1.2. UNIFORMITY

我们希望均匀性度量在渐近上是正确的（即，优化该度量的分布应该收敛到均匀分布）并且在有限数量的点上经验上是合理的。为此，我们考虑高斯势核（也称为径向基函数 (RBF) 核） $G_{t}: \mathcal{S}^{d} \times \mathcal{S}^{d} \rightarrow \mathbb{R}_{+}$ ：
$G_{t}(u, v) \triangleq e^{-t\|u-v\|_{2}^{2}}=e^{2 t \cdot u^{\top} v-2 t}, \quad t>0,$
并将均匀性损失定义为平均成对高斯势的对数：
$\mathcal{L}_{\text {uniform }}(f ; t) \triangleq \log \underset{x, y \underset{\text { i.i.d }}{\sim} p_{\text {data }}}{\mathbb{E}}\left[G_{t}(u, v)\right], \quad t>0,$
其中 $t$ 是一个固定参数。

平均成对高斯势与单位超球面上的均匀分布很好地联系在一起。

定义（ $\mathcal{S}^{d}$ 上的均匀分布）。 $\sigma_{d}$ 表示 $\mathcal{S}^{d}$ 上的归一化表面积测量值。

首先，我们证明了均匀分布是最小化预期成对势的唯一分布。

命题1 对于 $\mathcal{S}^{d}$ 上的Borel概率测度集 $\mathcal{M}\left(\mathcal{S}^{d}\right)$ ， $\sigma_{d}$ 是唯一解
$\min _{\mu \in \mathcal{M}\left(\mathcal{S}^{d}\right)} \int_{u} \int_{v} G_{t}(u, v) \mathrm{d} \mu \mathrm{d} \mu .$

此外，随着点的数量趋于无穷大，最小化平均成对势的点分布将 $weak^{*}$ 收敛到均匀分布。回想一下 $weak^{*}$ 的定义。

定义（ $weak^{*}$ 收敛度量）。对于所有连续函数 $\mathbb{R}^{p} \rightarrow \mathbb{R}$ ，在 $\mathbb{R}^{p}$ 中， $\left\{\mu_{n}\right\}_{n=1}^{\infty}$ 收敛到 $\mu$ ，我们有
$\lim _{n \rightarrow \infty} \int f(x) \mathrm{d} \mu_{n}(x)=\int f(x) \mathrm{d} \mu(x)$

命题 2. 对于每个 $N > 0$ ，平均成对势的 $N$ 点最小化器是
$\mathbf{u}_{N}^{*}=\underset{u_{1}, u_{2}, \ldots, u_{N} \in \mathcal{S}^{d}}{\arg \min } \sum_{1 \leq i< j \leq N} G_{t}\left(u_{i}, u_{j}\right)$
与 $\left\{\mathbf{u}_{N}^{*}\right\}_{N=1}^{\infty}$ 序列相关的归一化计数度量将weak $}^{*}$ 收敛到 $\sigma_{d}$ 。

设计一个通过均匀分布最小化的目标实际上是不平凡的。例如，平均成对点积或欧几里得距离可以简单地通过任何均值为零的分布进行优化。在达到最优一致性的核中，高斯核的特殊之处在于它与普遍最优点配置密切相关，也可以用来表示其他核的一般类别，包括 Riesz s-potentials。此外，如下所示，用高斯核定义的 $\mathcal{L}_{\text {uniform, }}$ 与 $\mathcal{L}_{\text {contrastive }}$ 有着密切的联系。

4.2. Limiting Behavior of Contrastive Learning

在本节中，我们将对比学习优化对齐性和均匀性的直觉形式化，并描述其渐近行为。我们考虑所有可测量编码器函数的优化问题，从 $\mathbb{R}^{n}$ 中的 $p_{\text {data }}$ 测量到 Borel 空间 $\mathcal{S}^{m-1}$ 。

我们首先为这些指标定义最优性的概念。

定义（完美对齐）。如果 $f (x) = f (y)$ 几乎肯定在 $\sim p_{\text {pos }}$ 上，我们说编码器 $f$ 是完全对齐的。

定义（完美的均匀性）。如果 $\sim p_{\text {data }}$ 的 $f (x)$ 的分布是 $\mathcal{S}^{m-1}$ 上的均匀分布 $\sigma_{m-1}$ ，我们说编码器 $f$ 是完全均匀的。

完美均匀性的可实现性。我们注意到，并不总是可以实现完美的一致性，例如，当 $\mathbb{R}^{n}$ 中的数据流形的维度低于特征空间 $\mathcal{S}^{m-1}$ 时。此外，在 $p_{\text {data }}$ 和 $p_{\text {pos }}$ 是从有限数据集中采样增强样本形成的情况下，不可能有一个既完美对齐又完美均匀的编码器，因为完美对齐意味着来自单个元素的所有增强都具有相同的特征向量.尽管如此，在 $\geq$ $m - 1$ 且 $p_{\text {data }}$ 具有有界密度的条件下，确实存在完全一致的编码器函数。

我们用无限负样本分析渐近线。现有的实证工作已经确定，大量的负样本始终会导致更好的下游任务性能，并且经常使用非常大的值（例如，He et al. (2019) 中的 M = 65536）。以下定理很好地证实了优化关于限制损失确实需要对齐和均匀性。

定理 1（ $\mathcal{L}_{\text {contrastive }}$ 的渐近线）。对于固定的 $\tau>0$ ，随着负样本的数量 $\rightarrow \infty$ ，（归一化）对比损失收敛到
$\begin{aligned} \lim _{M \rightarrow \infty} & \mathcal{L}_{\text {contrastive }}(f ; \tau, M)-\log M=\\ &-\frac{1}{\tau} \underset{(x, y) \sim p_{\text {pos }}}{\mathbb{E}}\left[f(x)^{\top} f(y)\right] \\ &+\underset{x \sim p_{\text {data }}}{\mathbb{E}}\left[\log \underset{x^{-} \sim p_{\text {data }}}{\mathbb{E}}\left[e^{f\left(x^{-}\right)^{\top} f(x) / \tau}\right]\right] . \end{aligned}$

我们有以下结果： 1. 如果 $f$ 完全对齐，则第一项最小化。 2. 如果存在完全一致的编码器，它们形成第二项的精确最小化器。 3. 对于上式中的收敛，与极限的绝对偏差在 $\mathcal{O}\left(M^{-2 / 3}\right)$ 中衰减。

与 $\mathcal{L}_{\text {uniform }}$ 的关系。补充材料中定理 1 的证明将渐近 $\mathcal{L}_{\text {contrastive }}$ 形式与最小化平均成对高斯势联系起来，即最小化 $\mathcal{L}_{\text {uniform}}$ 。与上式的第二项相比， $\mathcal{L}_{\text {uniform }}$ 本质上将log推到了外部期望之外，而没有改变最小化器（完全一致的编码器）。然而，由于其成对的性质， $\mathcal{L}_{\text {uniform. }}$ 在形式上要简单得多，并且避免了 $\mathcal{L}_{\text {contrastive }}$ 中计算量大的 softmax 操作。

与特征分布熵估计的关系。当 $p_{\text {data }}$ 在有限样本 $\left\{x_{1}, x_{2}, \ldots, x_{N}\right\}$ （例如，收集的数据集），上式中的第二项也可以看作是 $f (x)$ 的重新代入熵估计量，其中 $x$ 遵循生成 $\left\{x_{i}\right\}_{i=1}^{N}$ 的基础分布 $p_{\text {nature }}$ ，通过 von Mises-Fisher (vMF) 核密度估计 (KDE)：
$\begin{aligned} &\underset{x \sim p_{\text {data }}}{\mathbb{E}}\left[\log \underset{x^{-} \sim p_{\text {data }}}{\mathbb{E}}\left[e^{f\left(x^{-}\right)^{\top} f(x) / \tau}\right]\right]\\ &=\frac{1}{N} \sum_{i=1}^{N} \log \left(\frac{1}{N} \sum_{j=1}^{N} e^{f\left(x_{i}\right)^{\top} f\left(x_{j}\right) / \tau}\right)\\ &=\frac{1}{N} \sum_{i=1}^{N} \log \hat{p}_{\mathrm{vMF}-\mathrm{KDE}}\left(f\left(x_{i}\right)\right)+\log Z_{\mathrm{vMF}}\\ &\triangleq-\hat{H}(f(x))+\log Z_{\mathrm{vMF}}, \quad x \sim p_{\text {nature }}\\ &\triangleq-\hat{I}(x ; f(x))+\log Z_{\mathrm{vMF}}, \quad x \sim p_{\text {nature }}, \end{aligned}$
其中

$\hat{p}_{\mathrm{vMF}-\mathrm{KDE}}$ 是基于样本 $\left\{f\left(x_{j}\right)\right\}_{j=1}^{N}$ 使用具有 $\kappa=\tau^{-1}$ 的 vMF 内核的 KDE，
$Z_{\mathrm{vMF}}$ 是 $\kappa=\tau^{-1}$ 的 vMF 归一化常数，
$\hat{H}$ 表示重新代入熵估计量
$\hat{I}$ 表示基于 $\hat{H}$ 的互信息估计量，因为 $f$ 是确定性函数。

与 InfoMax 原则的关系。许多实证工作受到 InfoMax 原理的启发，即最大化 $I (f (x); f (y))$ 对于 $\sim p_{\text {pos}}$ 。然而，已知将 $\mathcal{L}_{\text {contrastive }}$ 解释为 $I (f (x); f (y))$ 的下限与其在实践中的实际行为不一致。我们的结果反而分析了 $I (f (x); f (y))$ 本身的特性。考虑恒等式 $\mid f(y))$ ，我们可以看到虽然均匀性确实有利于大 $H (f (x))$ ，对齐比仅仅希望小的 $\mid f(y))$ 更强。相反，我们的上述分析表明 $\mathcal{L}_{\text {contrastive }}$ 针对对齐和信息保留编码器进行了优化。

最后，即使对于仅使用单个负样本的情况（即 $M = 1$ ），我们仍然可以证明较弱的结果。

参考文献

Mettes, P ., van der Pol, E., and Snoek, C. Hyperspherical prototype networks. In Advances in Neural Information Processing Systems, pp. 1485–1495, 2019.

Wang, F., Xiang, X., Cheng, J., and Y uille, A. L. Normface: L2 hypersphere embedding for face verification. In Proceedings of the 25th ACM international conference on Multimedia, pp. 1041–1049, 2017.

Chen, T., Kornblith, S., Norouzi, M., and Hinton, G. A simple framework for contrastive learning of visual representations. arXiv preprint arXiv:2002.05709, 2020.

He, K., Fan, H., Wu, Y ., Xie, S., and Girshick, R. Momentum contrast for unsupervised visual representation learning. arXiv preprint arXiv:1911.05722, 2019.