论文学习记录--零样本学习(zero-shot learning)

keith_VV

已于 2023-10-17 14:52:36 修改

阅读量1.3k

点赞数 6

分类专栏：论文学习记录文章标签：学习人工智能

于 2023-10-11 19:16:14 首次发布

本文链接：https://blog.csdn.net/weixin_46483785/article/details/133752124

版权

论文学习记录专栏收录该内容

5 篇文章

订阅专栏

Socher R, Ganjoo M, Manning C D, et al. Zero-shot learning through cross-modal transfer[J]. Advances in neural information processing systems, 2013, 26.

注：中文为机翻
zero-shot learning：通过学习类别之间的关系和属性，使得模型能够在没有见过的类别上进行准确的分类。
解决了传统机器学习中的一个重要问题，即在没有足够标记样本的情况下，如何对新类别的样本进行分类。传统的监督学习算法需要大量标记样本来训练模型，但在现实世界中，获取大量标记样本可能是困难、耗时和昂贵的。这种能力对于处理大规模、多类别的问题非常有用，可以扩展模型的应用范围和适应性。

第一范式 – Supervised Learning 问题：很难泛化

在原有数据集训练好模型后需要加入新的类别，会影响原来的分类，且要重新训练
如果加的类别和原来数据极其相似，可能会毁掉整个模型
类别无穷，加不完

第二范式 – Zero-Shot Learning:

第三范式 – Zero-Shot Learning with NLP

在这里插入图片描述

文章目录

通过跨模态迁移进行零样本学习

通过跨模态迁移进行零样本学习

摘要

这项工作介绍了一种模型，即使对于没有该对象类别的训练数据，也能够识别图像中的对象。关于未见过的视觉类别的唯一必要知识来自无监督的文本语料库。与之前的零样本学习模型不同，该模型可以同时处理已见和未见类别的混合数据，在具有数千个训练图像的类别上达到最先进的性能，并在未见类别上获得合理的性能。这是通过将文本中的单词分布视为语义空间来理解对象的外观。我们的深度学习模型不需要手动定义单词或图像的语义或视觉特征。图像被映射到与其类别相对应的语义词向量附近，得到的图像嵌入可以用来区分图像是属于已见类别还是未见类别。然后，我们使用新颖性检测方法来区分未见类别和已见类别。我们展示了两种新颖性检测策略；第一种在未见类别上具有较高的准确性，而第二种在预测新颖性时较为保守，同时保持已见类别的准确性较高。

1. 引言

对未见过的视觉类的实例进行分类的能力（称为零样本学习）在多种情况下很有用。有许多物种和产品没有标记数据和新的视觉类别，例如经常介绍的最新小玩意或汽车模型。在这项工作中，我们展示了如何利用自然语言中可用的大量关于视觉世界的知识来对看不见的物体进行分类。我们试图模拟人们识别未见过的物体的能力，即使关于该物体的唯一知识来自于阅读它。例如，在阅读了“由一根棍子控制的两轮自平衡电动车，您可以站在它上面四处走动”的描述后，许多人可能会在短暂困惑之后识别出“赛格威”，因为新对象看起来与之前观察到的类不同。
我们引入了一个零样本模型，可以预测已见和未见过的类别。例如，在没有看到猫图像的情况下，它可以确定图像是否显示猫或训练集中的已知类别（例如狗或马）。该模型基于两个主要思想。
图 1 说明了该模型。首先，图像被映射到神经网络模型学习的单词语义空间中。词向量从大型、无监督的文本语料库中捕获分布相似性。通过学习映射到该空间的图像，单词向量隐式地基于视觉模态，使我们能够给出各种单词的原型实例。其次，由于分类器更喜欢将测试图像分配到他们已经看过训练示例的类别中，因此该模型结合了新颖性检测，可以确定新图像是否属于已知类别的类别。如果图像属于已知类别，则可以使用标准分类器。否则，图像将根据属于未见过类别的可能性分配给一个类别。我们探索了两种新颖性检测策略，这两种策略都基于异常检测方法的思想。第一种策略更倾向于在未见类别上获得高准确性，而第二种策略更倾向于在已见类别上获得高准确性。

图 1：我们的跨模态零样本模型概述。我们首先将每个新的测试图像映射到较低维的语义词向量空间。然后，我们确定它是否在所看到图像的流形上。如果图像是“新颖的”，即不在流形上，我们将借助无监督语义词向量对其进行分类。在此示例中，看不见的类是卡车和猫。

与之前关于零样本学习的工作不同，该工作只能预测中间特征或区分不同的零样本类别，我们的联合模型可以在已知类别上达到最先进的准确性，并在未知类别上获得合理的性能。此外，与关于知识转移的相关工作相比，我们不需要手动定义零样本类别的语义或视觉属性，而是可以使用最先进的无监督和非对齐图像特征，以及无监督和非对齐的语言语料库。

2. 相关工作

我们简要概述了五个相关研究领域的联系和差异。由于篇幅所限，我们无法完整地呈现文献。

Zero-Shot Learning.
与我们的工作最相似的是Palatucci等人的研究[27]。他们将人们思考特定单词时的功能性磁共振成像（fMRI）扫描映射到手动设计的特征空间中，然后使用这些特征进行分类。他们能够预测即使对于他们没有看到扫描的单词的语义特征，并尝试区分几个零样本类别。然而，他们没有将新的测试实例分类为已见和未见类别。我们通过使用新颖性检测来扩展他们的方法，允许在这种设置下进行分类。Lampert等人[21]为图像类别构建了一组二进制属性，传达了各种视觉特征，例如“毛茸茸”和“爪子”用于熊，“翅膀”和“飞行”用于鸟类。在第6.4节中，我们将我们的方法与他们进行了直接属性预测（DAP）的比较。

One-Shot Learning.
one-shot learning旨在通过使用非常少的训练样本来学习视觉对象类别。这通常通过共享特征表示、模型参数或相似的上下文来实现。Salakhutdinov等人的最新相关工作也是关于one-shot learning的。与他们的工作类似，我们的模型基于使用深度学习技术来学习低级图像特征，然后使用概率模型来传递知识，而且由于跨模态的知识转移，我们的模型不需要任何训练数据，这是一个额外的优势。

Knowledge and Visual Attribute Transfer.
兰伯特等人和法哈迪等人 [21, 10] 是最早使用未见过的类的精心设计的视觉属性对其进行分类的两个人。这与我们的设置不同，因为我们只具有从无监督、非平行语料库中学习的单词的分布特征，并且可以在具有数千或零个训练图像的类别之间进行分类。齐等人 [28]学习何时针对每个实例将知识从一个类别转移到另一个类别。

领域自适应（Domain Adaptation）
当一个领域有大量训练数据而另一个领域几乎没有训练数据时，领域适应非常有用。例如，在情感分析中，人们可以训练电影评论分类器，然后从该领域适应书评。虽然相关，但这一工作线是不同的，因为每个类都有数据，但域之间的功能可能不同。

多模态嵌入（Multimodal Embeddings）
多模态嵌入将来自多个来源的信息进行关联，例如声音和视频[25]或图像和文本。Socher等人[31]使用核化的典型相关分析将单词和图像区域投影到一个共同的空间中，以获得在注释和分割方面的最先进性能。与我们的工作类似，他们使用无监督的大型文本语料库来学习语义单词表示。他们的模型确实需要每个类别的少量训练数据。关于多模态分布方法的研究也已经进行了一些工作[11, 23]。最近，Bruni等人[5]研究了感知基础词义，并表明联合模型能够更好地预测具体物体的颜色。

3. 文字和图像表示

我们从单词和图像的特征表示开始描述完整的框架。分布式方法在捕获单词之间的语义相似性方面非常常见。在这些方法中，单词被表示为分布特征的向量——最常见的是它们与上下文中的单词共现。这些表示已被证明在自然语言处理任务中非常有效，例如意义消歧、同义词库提取和认知建模。
除非另有说明，所有词向量均使用来自 Huang 等人[15]的无监督模型的预训练 d = 50 维词向量进行初始化。他们的模型使用免费的维基百科文本，通过预测每个单词在其上下文中出现的可能性来学习单词向量。他们的模型使用每个单词周围窗口中的本地上下文和全局文档上下文，从而捕获分布式句法和语义信息。有关这些嵌入的更多详细信息和评估，请参阅 [3, 7]。
我们使用 Coates 等人[6]的无监督方法。以无监督的方式从原始像素中提取图像特征。此后，每个图像都由向量 $x ∈ R^I$ 表示。

4. 将图像投影到语义词空间

为了学习图像的语义关系和类成员关系，我们将图像特征向量投影到 d 维，语义词空间 $F$ 中。在训练和测试期间，我们考虑一组类 Y。该集中的一些类别 $y$ 将有可用的训练数据，其他的将是没有任何训练数据的零样本类别。我们将前者定义为可见类 $Y_s$ ，后者定义为未见类 $Y_u$ 。令 $W = W_s ∪ W_u$ 分别为 $R^d$ 中已见和未见视觉类别的词向量集。
所见类别 $y ∈ Y_s$ 的所有训练图像 $x(i) ∈ X_y$ 都映射到与类别名称对应的词向量 $w_y$ 。为了训练这个映射，我们训练一个神经网络来最小化以下目标函数：
在这里插入图片描述
其中 $θ^{(1)} ∈ R^{h×I}$ , $θ^{(2)}$ $R^{d×h}$ 且标准非线性 $f = t anh$ 。我们定义 $θ = (θ^{(1)}, θ^{(2)})$ 。在下面的实验部分中，两层神经网络的性能优于单个线性映射。成本函数使用标准反向传播和 L-BFGS 进行训练。通过将图像投影到单词向量空间中，我们隐式地通过视觉基础扩展了语义，使我们能够查询空间，例如单词的原型视觉实例。
图 2 显示了 50 维语义空间的可视化，其中包含已见和未见类别的词向量和图像。看不见的类是cat 和truck。从 50 维到 2 维的映射是使用 t-SNE 完成的 [33]。我们可以观察到，大多数类都紧密地聚集在其相应的词向量周围，而零样本类（此映射的猫和卡车）没有附近的向量。然而，两个零样本类别的图像接近语义相似的类别（例如猫的情况，它接近狗和马，但远离汽车或船）。这一观察激发了首先检测未见过的类别的图像，然后将它们分类到零样本词向量的想法。
在这里插入图片描述
图 2：语义词空间的 T-SNE 可视化。单词向量位置被突出显示，并且针对已训练该映射的图像和未见过的图像显示映射的图像位置。看不见的类是cat 和truck。

5. 零样本学习模型

在本节中，我们首先概述我们的模型，然后描述它的每个组件。一般来说，我们想要预测 $p (y ∣ x)$ ，即给定测试集 $x ∈ X_t$ 中的图像的已见类和未见类 $y ∈ Y_s ∪ Y_u$ 的条件概率。为了实现这一点，我们将使用这些图像已映射到 $f ∈ F_t$ 的语义向量。
因为标准分类器永远不会预测没有训练样本的类，所以我们引入了一个二元新颖性随机变量，它指示图像是否属于可见类或不可见类 $V ∈ {s, u}$ 。令 $X_s$ 为用于训练所见类别的图像的所有特征向量的集合，并令 $F_s$ 为其相应的语义向量。我们同样将 $F_y$ 定义为 $y$ 类的语义向量。我们通过以下方式预测新输入图像 $x$ 及其映射语义向量 $f$ 的类 $y$ ：
在这里插入图片描述
边缘化新奇变量 $V$ 使我们能够首先区分可见类和未见类。然后可以对每种类型的图像进行不同的分类。可见的图像分类器可以是最先进的softmax分类器，而看不见的分类器可以是简单的高斯判别器。

5.1 新颖性检测策略

我们现在考虑两种策略来预测图像是否属于已知类别或未知类别。 $P(V = u|x,X_s, F_s,W, θ)$ 是图像属于未见过类别的概率。来自未见类别的图像不会非常接近现有的训练图像，但仍大致位于相同的语义区域。例如，猫图像最接近狗，尽管它们不像大多数狗图像那样接近狗词向量。因此，在测试时，我们可以使用异常值检测方法来确定图像是否属于可见类或不可见类。
我们比较两种异常值检测策略。两者都是在映射到语义词空间的训练图像流形上计算的。第一种方法对新颖性的评估相对自由。它在等距、特定类高斯分布下分配给每个图像的边缘上使用简单的阈值。所见类别的映射点用于获得该边际。对于每个可见类 $y ∈ Y_s$ ，我们计算 $P(x|X_y, w_y, F_y, θ) = P(f|F_y, w_y) = N(f|w_y, Σ_y)$ 。每个类别的高斯均值由对应的语义词向量 $w_y$ 的均值和协方差矩阵 $Σ_y$ 参数化，协方差矩阵 $Σ_y$ 根据具有该标签的所有映射训练点估计。我们将高斯函数限制为等距函数以防止过度拟合。对于新图像 x，如果所有类别的边际概率低于某个阈值 Ty，则离群值检测器将变为指示函数，该函数为 1：
在这里插入图片描述
我们在下面提供了各种阈值 T 的实验分析。选择阈值以使来自训练图像的向量的至少一部分高于阈值，即，被分类为可见类别。直观上，较小的阈值会导致较少的图像被标记为看不见。该方法的主要缺点是它不能给出异常值的真实概率。
另一种方法是使用[17]的方法以无监督的方式获得实际的异常值概率。然后，我们可以使用已见类别和未见类别的分类器的加权组合来获得条件类别概率（如下所述）。图 2 显示，许多未知图像在技术上并不是完整数据流形的异常值。因此，该方法在新颖性的分配方面非常保守，因此对于所见类别保持了较高的准确性。
由于我们区分了训练集和测试集，因此我们需要稍微修改原始方法。我们不想使用所有测试图像的集合，因为这样它们就不再被视为异常值。修改后的版本具有相同的两个参数： $k = 20$ ，确定点是否为离群点时考虑的最近邻的数量； $λ = 3$ ，可以粗略地视为标准差的乘数。它越大，点偏离平均值的程度就越大，才能被视为异常值。
对于每个点 $f ∈ F_t$ ，我们在可见类别的训练集中定义 $k$ 个最近邻的上下文集 $C(f) ⊆ F_s$ 。我们可以计算每个点 x 到 C(f) 中的点的概率集合距离 pdist:
在这里插入图片描述
其中 $d (f, q)$ 定义了单词空间中的某个距离函数。我们使用欧几里德距离。接下来我们定义局部异常值因子：

大的 lof 值表明离群值增加。为了获得概率，我们接下来定义一个归一化因子 Z，它可以看作是已知类别的训练集中 lof 值的一种标准差：
在这里插入图片描述
现在，我们可以定义局部异常值概率：

其中 erf 是高斯误差函数。鉴于我们对新测试图像异常值的信念，现在可以使用该概率以适当的量对可见和不可见的分类器进行加权。

5.2 分类

在 $V = s$ 的情况下，即该点被认为属于已知类别，我们可以使用任何概率分类器来获得 $P(y|V = s, x,X_s)$ 。我们在原始 $I$ 维特征上使用 $so f t ma x$ 分类器。对于 $V = u$ 的零样本情况，我们假设每个新类词向量周围存在等距高斯分布，并根据它们的可能性分配类别。

6. 实验

对于我们的大多数实验，我们使用 CIFAR-10 数据集 [18]。该数据集有 10 个类，每个类有 5,000 张 32 × 32 × 3 RGB 图像。我们使用 Coates 和 Ng [6] 的无监督特征提取方法来获得每个图像的 12,800 维特征向量。对于词向量，我们使用 Huang 数据集 [15] 中对应于每个 CIFAR 类别的一组 50 维词向量。在训练过程中，我们省略了 10 个类中的两个，并将它们保留用于零样本分析。其余类别用于训练。
在本节中，我们首先分别分析已见类和未见类的分类性能。然后，我们结合两种类型的类的图像，并讨论两种未见过的类检测策略中涉及的权衡。接下来，总结了整个分类流程的整体性能，并与 Lampert 等人的另一种流行方法进行了比较。 [21]。最后，我们进行了一些额外的实验来评估我们模型的质量和稳健性。

6.1 已见和未见的类的分离

首先，我们评估仅提供训练中使用的类别的图像时的分类准确性。我们训练一个 softmax 分类器来标记 CIFAR-10 中的 8 个类别之一（其中 2 个类别保留用于零样本学习）。在这种情况下，我们在排除猫和卡车的类别集上实现了 82.5% 的准确率，这与使用所有 10 个类别的原始 Coates 和 Ng 论文 [6] 中基于 SVM 的分类结果非常匹配。
我们现在专注于仅两个零样本类别之间的分类。在这种情况下，分类基于等距高斯，这相当于简单地比较未见过的类别的词向量与映射到语义空间的图像之间的距离。在这种情况下，如果至少有一个与零样本类相似的可见类，则性能良好。例如，当从训练中取出猫和狗时，所得的零样本分类效果不佳，因为其他 8 个类别中没有一个与这两个图像足够相似，无法学习良好的语义区分。另一方面，如果取出猫和卡车，则由于与狗的相似性，猫向量可以映射到单词空间，并且由于汽车可以区分卡车，从而产生更好的性能。
图 3 显示了区分属于零样本类别的各种组合的图像所达到的精度。正如预期的那样，我们观察到，在选择语义上不同的类别时可以实现最大准确度。例如，青蛙卡车和猫卡车就表现得很好。当选择猫和狗时，准确度最差。从图中我们可以看出，对于某些零样本类别的组合，我们可以实现高达 90% 的准确率。
在这里插入图片描述

6.2 新颖性检测器对平均精度的影响

我们的下一个研究领域是确定分类器对于包括已见过图像和未见过图像的整个数据集的平均性能。我们比较每个图像通过两个新颖性检测器中的任何一个时的性能，这两个新颖性检测器以一定的概率（在第二种情况下）决定图像是否属于训练中使用的类别。根据此选择，图像要么通过已见类别图像的 softmax 分类器，要么分配给未见类别图像的最近语义词向量的类。
图 4 显示了两种新颖性检测场景所做出的不同选择的测试图像的准确性。测试集包括每个类别中相同数量的图像，其中 8 个类别是以前见过的，2 个是新的。我们分别绘制两种类型图像的精度进行比较。首先，在曲线的最左端，高斯未见过图像检测器将所有图像视为未见，LoOP模型将未见过图像的概率阈值设为0。此时，所有未见图像都在如此对待测试集，我们实现了最高的准确率，对于这个零样本对来说，准确率为 90%。类似地，在曲线的另一个极端，所有图像都被分类为属于所见类别，因此所见图像的 softmax 分类器为这些图像提供了尽可能高的准确度。
在这里插入图片描述
在极端之间，未见图像精度和可见图像精度的曲线以不同的速率下降和上升。由于高斯模型在将图像指定为不可见类别方面很自由，因此它将更多图像视为不可见，因此我们沿着曲线继续获得较高的不可见类精度。 LoOP 模型试图检测图像是否可以被视为每个类别的异常值，但不会为零样本图像分配非常高的异常值概率，因为大量零样本图像分布在所见图像的流形内（原始 50 维空间的二维可视化见图 2）。因此，它继续将大多数图像视为可见图像，从而获得较高的可见类别精度。因此，LoOP 模型可用于不想降低训练集中类的高性能但又允许出现未见过的类的情况。
我们还从图4（c）中看到，由于测试集中的大多数图像属于以前见过的类别，因此在分配未见过的标签方面保守的LoOP模型比高斯模型具有更好的整体精度。一般来说，我们可以为已见类准确率选择一个可接受的阈值，并实现相应的未见类准确率。例如，高斯模型中可见类别的准确度为 70%，根据类别的不同，可以以 30% 到 15% 之间的准确度对看不见的类别进行分类。随机概率为10%。

6.3 混合预测已见类别和未见类别

我们实验的最后一步是执行公式 2 定义的完整贝叶斯流程。我们获得图像为异常值的先验概率。 LoOP 模型输出图像实例为异常值的概率，我们直接使用该概率。对于高斯阈值模型，我们调整对数概率的截止分数，超过该分数的图像将被分类为异常值。我们将概率 0 和 1 分配给该阈值的两侧。我们在图 4 中显示了与贝叶斯管道的整体精度相对应的水平线。

6.4 与基于属性的分类的比较

为了建立比较模型性能的背景，我们还运行 Lampert 等人 [21]概述的基于属性的分类方法。我们构建了一个包含 25 个属性的属性集，突出显示了 CIFAR-10 数据集的不同方面，其中某些方面涉及基于动物的属性，其他方面涉及基于车辆的属性。我们分别训练每个二元属性分类器，并使用训练好的分类器为未见过的类构造属性标签。最后，我们使用 MAP 预测来确定最终的输出类别。下表显示了结果摘要。我们两个模型的总体准确性都优于基于属性的模型。
在这里插入图片描述
一般来说，我们的方法的一个优点是能够快速适应领域，这在基于属性的模型的情况下很困难，因为需要仔细选择适当的属性类型。

6.5 原始特征空间中的新颖性检测

6.2中新颖性检测器的分析涉及到词空间中的计算。作为比较，我们在原始特征空间中使用高斯模型进行相同的实验。在映射空间中，我们观察到，在被指定为异常值的概率最高的 100 张图像中，其中 12% 是误报。另一方面，在原始特征空间中，误报率增加到78%。这可以通过以下事实直观地解释：映射函数从其训练的词向量中收集额外的语义信息，并且图像能够更好地围绕这些假设的高斯质心聚类。在原始空间中，没有语义信息，需要从图像本身中推断出高斯质心，这并不能真正代表其类别的图像空间的中心。

6.6 CIFAR-100的扩展和深度语义映射分析

到目前为止，我们的测试是在 CIFAR-10 数据集上进行的。我们现在描述更具挑战性的 CIFAR-100 数据集 [18] 的结果，该数据集由 100 个类组成，每个类中有 500 个 32 × 32 × 3 RGB 图像。我们删除了词汇表中没有可用矢量表示的 4 个类别。然后，我们组合 CIFAR-10 数据集以获得一组 106 个类别。选择了六个零镜头类别：“森林”、“龙虾”、“橙色”、“男孩”、“卡车”和“猫”。和以前一样，我们训练神经网络将向量映射到语义空间。通过这种设置，我们获得了 52.7% 的峰值非零样本准确率，这几乎接近 100 个类别的基线 [16]。当所有图像都标记为零样本时，6 个未见过的类别的峰值准确度为 52.7%，其中机会为 16.6%。
由于对应 100 个类的语义空间很大，因此图像与其适当类向量的接近程度取决于映射到语义空间的质量。我们假设在这种情况下有一个两层神经网络，如第 4 节中所述将比单层或线性映射表现更好。图5证实了这一假设。与单层神经网络的 42.2% 相比，2 层神经网络的零样本准确率提高了 10%。
在这里插入图片描述
图 5：使用一层网络和两层网络训练语义映射后，修改后的 CIFAR-100 数据集的先前见过和未见类别的图像的准确性比较。映射函数越深，性能越好。

6.7 带有干扰词的零样本类

当有大量未见过的类别可供选择时，我们希望零样本图像能够被正确分类。为了用许多可能但不正确的未见类来评估这样的设置，我们创建了一组干扰词。我们比较两种情况。首先，我们将随机名词添加到语义空间中。在第二个中，难度更大，我们添加一个词向量的 k 个最近邻。然后我们评估每个新集合的分类准确性。对于零样本类别的猫和卡车，最近的邻居干扰物包括兔子、小猫和老鼠等。
如果添加随机干扰名词，准确性不会有太大变化。这表明语义空间的跨越性很好，并且我们的零样本学习模型非常稳健。图 6 显示了第二种情况的分类精度。在这里，随着越来越多的语义相关的最近邻被添加到干扰项集中，准确性会下降。这是可以预料的，因为没有足够的相关类别来准确地区分非常相似的类别。达到一定数量后，新的干扰词的效果就很小了。这与我们的预期一致，即一定数量的密切相关的语义邻居会分散分类器的注意力；然而，除了这个有限的集合之外，其他类别在语义空间中会更远，并且不会影响分类准确性。
在这里插入图片描述
图 6：当还存在来自给定类别的最近邻集的干扰词时，零样本分类准确度的可视化。

7. 结论

我们引入了一种基于深度学习的单词和图像表示联合进行标准和零样本分类的新颖模型。两个关键思想是：（i）使用语义词向量表示可以帮助在模态之间转移知识，即使这些表示是以无监督的方式学习的；（ii）我们的贝叶斯框架首先将新的未知的类与语义上的点区分开来。多种经过训练的类可以帮助将零样本类别和已知类别合并到一个框架中。如果任务只是区分各种零样本类别，我们可以使用完全无监督的模型获得高达 90% 的准确率。