MAtch,eXpand and Improve:Unsupervised Finetuning for Zero-Shot ActionRecognition with Language Knowl_unsupervised finetuning for zero-shot action recog-CSDN博客

大规模视觉语言（VL）模型在视觉和文本模态之间对齐表示方面取得了巨大成功，这使得零样本识别、图像生成与编辑以及许多其他激动人心的任务取得了显著进展。然而，VL模型往往过度关注物体，而对动词的关注较少，并且为了获得最佳零样本动作识别性能，还需要对视频数据进行额外的调整。虽然之前的工作依赖于大规模、完全标注的数据，但在这项工作中，我们提出了一种无监督的方法。我们使用一组未标记的视频和一个不成对的动作字典，将VL模型调整为适用于零样本和少样本动作识别。基于这些，我们利用大型语言模型和VL模型，通过匹配、文本扩展和描述性标题为每个未标记的视频构建文本包。我们在多实例学习设置中利用这些文本包，将图像-文本主干模型调整为适应视频数据。尽管我们的模型是在未标记的视频数据上进行微调的，但我们的结果模型在多个未见零样本下游任务中展示了高转移性，将基础VL模型的性能提高了高达14%，甚至在零样本和少样本视频识别迁移方面与完全监督的基准相比也表现优异。代码已发布在https://github.com/wlin-at/MAXI。

1. 简介

视觉语言（VL）模型[36, 23, 17]通过零样本迁移学习的承诺，在解锁许多视觉应用[36]以与潜在无限的开放词汇一起工作方面取得了空前的成功。这是通过视觉和语言表示空间之间的对齐来实现的，而这种对齐是通过VL模型利用大量成对的图像和文本数据有效实现的。将VL模型作为源（基础）模型或架构组件，使得在相对较小的数据集（例如，与庞大的VL预训练相比，观察到的对象或其他视觉概念的数量有限）上进行微调得以扩展，从而在推理时实现零样本迁移。这种零样本迁移包括识别[55, 57, 58]、检测[14, 39, 59]、分割[22, 37]，甚至生成[40]在微调阶段未见过的对象，这些对象仅在推理阶段首次遇到。

然而，尽管在零样本图像任务上取得了进展，但人们发现，在没有进行任何微调的情况下，将VL模型应用于视频数据的零样本动作识别时，其性能并不理想[47, 33, 18, 50, 5, 38]。几项研究[46, 56, 53, 15]广泛探讨了可能的原因，指出VL模型倾向于主要表示物体（名词），而不是动作（动词或动词短语）。因此，为了应对VL模型在零样本动作识别方面的这些不足，之前的工作[47, 33, 18, 50, 5, 38]使用了带有完整标注的数据集（例如K400[19]）来微调VL模型（例如最受欢迎的CLIP[36]），以提高视频零样本识别的性能。这种方法的潜在缺点是：（i）依赖于耗时且成本高昂的大规模动作数据集的全标注，（ii）在监督微调过程中，模型仅接触到有限的动作词汇（例如K400的400个动作与英语中超过8000个可能的单一动词动作以及更多可能的通用动作相比），这限制了零样本迁移到未见动作类别的性能。在这种情况下，我们提出了“MAtch, eXpand and Improve”（MAXI）——允许在完全未标记的视频数据（例如未标记的K400[19]）和一组语言源（如未配对的动作词典、大型语言模型（LLM）（例如GPT-3[3]）以及用于匹配（例如CLIP[36]）和描述（例如BLIP[23]）的VL模型）上进行微调。为此，MAXI依赖于基于不同语言源收集和完善的与未标记集中的每个视频相对应的潜在文本个体包。然后，它应用多实例学习（MIL）来利用这些包对VL模型进行微调，如图1所示。我们在七个训练过程中完全未见过的下游零样本和少样本迁移动作识别基准上广泛评估了MAXI的性能。我们展示了MAXI在利用未标记视频数据方面的有效性，它不仅在所有这些任务上显著（高达14%）提高了源VL模型的性能，而且与在同一微调数据的完全监督对应项上训练的最先进监督方法相比，也展现出了竞争力，甚至在一些零样本和少样本动作识别迁移任务上超越了它们。

图1：以前的工作依赖于动作数据集的全标注，而全标注的收集既耗时又昂贵，但我们的方法MAXI利用未标记的视频数据对VL模型进行微调。具体来说，我们利用一组语言源（动作词典、VL模型和LLM）为每个未标记的视频构建一个文本包，并采用多实例学习（MIL）目标进行微调。MAXI在下游新颖动作数据集上的零样本和少样本迁移方面展示了显著的改进。

我们的贡献如下：（i）我们提出了MAXI，一种利用未标记视频集和一组语言源来改善下游零样本动作识别的方法；（ii）我们提出了将每个未标记视频与从语言源中挖掘的知识文本包进行匹配，并利用这些文本包通过多实例学习对VL模型进行微调的方法；（iii）我们在七个未见过的动作识别基准上广泛评估了我们的方法，并展示了与源VL模型相比，绝对零样本性能提高了高达14%，甚至在某些情况下超越了在同一数据上通过完全监督方式训练的基线模型。

2. 相关工作

视觉-语言（VL）模型的革命始于CLIP[36]和ALIGN[17]，它们证明了在从网络上收集的包含大量噪声图像-文本对的数据集上进行的大规模（数以亿计）预训练，在许多不同的下游零样本任务中取得了显著进展。VL模型通过对比学习目标来优化图像-文本的对齐。早期的方法，如[45, 8, 25]，依赖于预训练的对象检测器来提取区域特征。为了放宽这一限制，[20, 17, 51, 23]中提出了具有自监督学习目标的跨注意力层、图像-文本匹配以及掩码/自回归语言建模。BLIP[23]结合了多种技术进行多任务VL预训练，在多个下游VL任务中取得了显著成果，如图像检索、视觉问题回答（VQA）、图像描述生成和推理任务。在[12, 52, 10, 26, 11]中尝试了更精细级别的文本-图像对齐，这些方法在CLIP的基础对比损失之上增加了额外的损失和逻辑。FILIP专注于细粒度的对比学习，最大化图像和文本标记之间的标记级相似性。CyClip[12]利用图像和文本嵌入之间的几何一致性。DeCLIP[26]通过检索最近邻来扩展正对比匹配的集合。虽然这些方法在许多图像基准测试中取得了强大的零样本结果，如ImageNet[41]和MS-COCO[27]，但最近的研究如VL-CheckList[56]、Winoground Challenge[46]和ARO[53]表明，这些模型无法很好地区分细粒度的语言细节或理解更结构化的概念，如通常需要理解时间概念、运动和物体之间关系的动作。在本文中，我们展示了如何使VL模型适应以更好地理解给定的未标记视频数据中的动作。

零样本学习动作识别是在训练过程中识别未见过的动作的任务，这需要在视觉特征和语义表示之间建立桥梁。以前的工作使用手动定义的属性[28, 54]，以及动作名称[2, 30, 35, 42]或动作描述[7, 34, 48]的词嵌入作为语义表示。ER-ZSAR[7]和JigsawNet[34]利用带有手动校正的爬取动作类别描述，这需要人类注释者修改描述的努力。这些类别描述是根据真实标签分配给视频的。相反，我们的文本包构建既不需要手动校正的努力，也不需要视频的真实标签注释。

最近的工作致力于将大规模视觉-语言（VL）模型适应于视频理解，包括零样本动作识别任务[47, 33, 18, 50, 5, 38]。Action-CLIP[47]、Ju等人[18]和XCLIP[33]通过为视频数据添加时空建模组件来适应CLIP，并在视频任务上展示了性能提升。最新的ViFi-CLIP[38]表明，通过特征池化的帧级处理能够实现更好的视觉-语言对齐，并且优于具有额外可学习时空组件的复杂相关方法。在这项工作中，我们遵循ViFi-CLIP的架构和微调范式。

3. 方法

在这项工作中，我们提出了一种方法，该方法有效地利用了一组未标记的视频和一个预定义的动作字典（一个可能包含噪声的可能动作文本标签的集合）来微调CLIP模型，而无需任何真实标签注释。微调的目的是使CLIP适应视频数据，并促进随后对在训练过程中未见过的新视频类别的零样本（ZS）转移到视频识别任务。我们将预定义的动作字典表示为D，将未标记的视频集合表示为V = {xj|j ∈ I}，其中I = {1, ..., NV}是索引集。

我们的流程如图2所示。首先，我们将CLIP的图像编码器适配为视频编码器，以便在视频数据上进行部署（第3.1节）。其次，给定未标记的视频集合V和预定义的动作字典D，我们使用不同的语言来源为每个视频构建一个文本包（第3.2节）。这个文本包是一个（可能存在噪声的）文本集合，它们可能与视频内容相对应。第三，我们执行多实例学习（MIL）从未标记的视频和带有噪声的文本包中学习（第3.3节），这允许我们以无监督的方式稳健地微调CLIP。

3.1. CLIP处理视频数据

CLIP [36] 包含了一个视觉编码器 ϕv(·; θv) 和一个文本编码器 ϕt(·; θt)。我们的目标是调整 CLIP 的图像编码器以适应视频处理。在 [38] 中已经证明，对 CLIP 图像编码器进行帧级处理并结合特征池化有助于隐式地建模时间线索，这种方法还导致性能超过了那些额外引入可学习时空组件的相关方法。因此，遵循 [38] 的方法，给定一个视频 x，我们将 M 帧送入视觉编码器，并计算这些帧特征的平均值作为视频表示，即 $z_{v} = \sum_{m}\phi_{v}(x_{m}^{F};\theta_{v})/M$ 。这种范式的优点在于，网络可以直接从大规模预训练的视觉-语言模型（例如，在 4 亿个网络图像-文本对上预训练的 CLIP [36]）初始化，而无需添加任何随机初始化的参数。这为微调之前提供了一个具有合理初始性能的良好起点。我们还探索了扩展非随机初始化参数的范式，以包括例如无参数的时间感知模块（见补充材料），这进一步证实了 [38] 的发现，即复杂的时间模块并不一定能更好地将 CLIP 适应到视频处理中。

在推理过程中，给定一组类别提示 $\{t_{c}|_{c=1}^{N_{C}}\}$ ，文本特征被计算为 $z_{t_c} = \phi_t(t_c;\theta_t)$ 。为了简化表示，我们用 $z_{v} = \bar{\phi}_{v}(x)$ 和 $\begin{matrix}z_{t}&=&\bar{\phi}_{t}(t)\end{matrix}$ 分别表示 L2 归一化后的视频特征和文本特征。零样本学习分类是通过选择与视频表示具有最大相似度的类别提示来执行的，即 $\hat{c}=\arg\max_{c}\bar{\phi}_{v}(x)^{\top}\bar{\phi}_{t}(t_{c})$ 。

3.2. 文本袋构造

给定一个未标记的视频集合V和一个预定义的动作字典D（其中每个条目都是一个描述动作的短句或动词短语，如图2所示），我们为每个视频 $x_i \in V$ 构建一个文本包 $T_i$ ，即一个描述视频内容的文本提示的噪声集合。

预定义动作字典。在实际场景中，我们通常期望对未标注视频集合中可能的动作类型有大致的先验知识。这种先验知识定义了动作字典。为了获得一个合理的动作字典，我们包含了用于微调CLIP的动作数据集的类别名称。然而，我们在实际情况下可能获得的先验知识可能并不完全准确。因此，我们还探索了两种带有噪声的动作字典情况：a) 一个不完全指定的字典，仅包含动作集合中部分可能的动作；b) 一个过度指定的字典——通过从另一个文本语料库中随机收集噪声动词和动词短语来添加内容。这些设置的评估在第4.5.2节中给出。

CLIP 匹配。对于视频 $x_i \in V$ ，我们使用原始的 CLIP 来根据余弦相似度将 $x_i$ 与字典 D 中的文本进行匹配。我们将与视频匹配度最高的文本（即 Top-1 匹配的文本）记作 $\hat{t}_i=\arg\max\limits_{t\in D}\sin(\phi_v(x_i),\phi_t(t))\quad(1)$

其中 $\mathrm{sim}(u,v)=u^{\mathsf{T}}v/(\|u\|\|v\|)$ 表示余弦相似度。我们将 $\hat{t}_i$ 包含在文本包 $T_i$ 中。

CLIP 匹配是一种从原始 CLIP（作为教师）中提取知识的方法。常见的未标记视频集合 V 的规模通常远小于原始 CLIP 的领域，并且可能容易过拟合。利用原始 CLIP 的知识可以防止模型在较小的领域 V 上过拟合，从而保留了 CLIP 预训练阶段学到的泛化能力。这个假设在 4.3 节和 4.4 节的实验中得到了支持，我们展示了与所有监督微调基线相比，所提出的无监督预训练显著提高了零样本学习迁移以及在其他新数据集上的少量样本适应能力。

GPT-3 文本扩展。我们利用大规模语言模型（LLM）GPT-3 [3] 来扩展文本包。我们基于这样一个事实：GPT-3 在语言指令任务上表现出色 [3]。通过向 LLM 提供最佳匹配的文本 $\hat{t}_i$ 作为指令，要求它使用其语言知识（世界知识）来描述这个文本（如图2中的指令示例所示），我们获得了一组扩展的、对动作的替代描述。这些描述包含了 LLM 利用其集体世界知识所“幻想”出的细节。我们从生成的扩展动作描述中提取动词和动词短语。此外，我们还通过包含动词的原形和动名词（现在分词）形式来进行文本增强。我们将这些词汇集合添加到文本包 $T_i$ 中。

BLIP 视频转文本扩展。我们采用视觉-语言模型BLIP [23]来为视频的单个帧生成字幕。请注意，这个图像字幕模型并没有在任何视频领域上进行预训练。帧标题提供实例级描述，这些描述依赖于未标记视频的帧的视觉内容。类似于GPT-3文本扩展的情况，我们从这些描述中收集动词和动词短语，并进行文本增强（如上所述），将结果文本添加到文本包 $T_i$ 中。

过滤文本包。为了提高文本包的质量，我们为CLIP匹配的相似度得分设置了一个阈值δp。我们确定δp，使得在阈值化后，有p×100%的视频（或文本包）被保留下来。对于视频 $x_i \in V$ ，如果最佳匹配文本 $\hat {t}_i$ 的相似度高于阈值，即 $sim(\phi_v(x_i),\phi_t(\hat{t}_i)) \geq \delta_p.$ ，则我们保留相应的文本包 $T_i$ 。过滤后，我们得到一个采样的索引集 $I_{p}=\{i | \mathop{\mathrm{sim}}(\phi_{v}(x_{i}),\phi_{t}({\hat{t}}_{i}))\geq\delta_{p},\forall i\in I\}$ 和视频集 $V_{p}=\{x_{i}\mid i\in I_{p}\}$ 。

3.3. 多实例学习

我们采用多实例学习（MIL）来从未标记的视频和上面收集的带噪声的文本包中学习。在[31]中提出的MIL-NCE损失结合了多实例学习和噪声对比估计。遵循MIL-NCE的思想，我们不是强制每个视频与一个特定的正文本匹配，而是将文本包 $T_i$ 与每个视频 $x_i \in V$ 进行软关联，其中文本包中的一个或多个文本可能与视频正匹配。由于不同的视频在文本包中的文本数量不同，我们在每次训练迭代中从原始文本包中随机抽取Nbag个文本。我们将采样文本包 $T_i$ 的定义细化为 $T_{i}=\{t_{i,n}|_{n=1}^{N_{\mathrm{bag}}}\}$ ，其中Nbag是恒定的文本包大小。

原始的MIL-NCE损失鼓励每个视频与其对应的文本包在实例级别上进行匹配。在这项工作中，我们进一步提出鼓励那些具有相同最佳匹配文本的视频和文本包相互靠近。请注意，每个视频xi在CLIP匹配步骤中都有一个在字典中的最佳匹配文本 $t^i$ ，那么我们提出的损失函数是

$\begin{aligned}\mathcal{L}=-\frac{1}{|I_B|}\sum_i\log\frac{\sum_j\sum_n\exp(\bar{\phi}_v(x_i)^\top\bar{\phi}_t(t_{j,n})/\sigma)\cdot\mathbb{I}(\hat{t}_i=\hat{t}_j)}{\sum_k\sum_n\exp(\bar{\phi}_v(x_i)^\top\bar{\phi}_t(t_{k,n})/\sigma)}\\(2)\end{aligned}$

其中 i,j,k∈IB 且 n∈{1,...,Nbag}。IB⊂Ip 是采样得到的一个索引批次。tj,n∈Tj 是文本包中的一个文本，σ 是对比学习中的温度参数。 $\mathbb{I}(\hat{t}_{i}=\hat{t}_{j})$ 是一个指示器，表示 xi 和 xj 具有相同的最佳匹配文本。

4. 实验

4.1. 数据集

我们在没有任何真实标签的情况下，对Kinetics 400（K400）数据集进行了自监督微调。K400是动作识别任务中最流行的基准数据集，包含大约24万个训练视频，涵盖了400个类别。我们在几个基准数据集上评估了动作识别的零样本学习和少样本学习迁移能力：UCF101、HMDB51、MiniSSv2（SSv2的子集）、Kinetics600（K600）、Charades、UAV Human（UAV）和Moments-in-Time（MiT）。UCF、HMDB和K600是在线用户视频的集合，在风格上与K400更为接近。其余的数据集与K400在领域上存在较大的差异，包括第一人称视角的运动（MiniSSv2）、人类和动物的视频（MiT）、包含小主体的无人机视频（UAV）以及30秒长的家庭长期视频（Charades）。关于数据集的更多详细信息在补充材料中给出。

我们遵循了[38, 33]中零次学习和少次学习动作识别的评估协议。我们在Charades数据集上报告了多标签分类的平均精度均值（mAP），并在其余数据集上报告了单标签分类的Top1/Top5准确率。

4.2. 实现细节

我们使用了带有ViT-B/16视觉编码器的CLIP模型。我们遵循[38]的全微调配置，对视觉编码器和文本编码器都进行了微调。我们将温度参数σ一致地设置为0.02。对于零次学习设置，我们在K400上进行微调，无需任何真实标签。我们使用AdamW优化器[29]，初始学习率为5×10−6，并采用余弦衰减调度器。我们从每个视频中采样16帧，并使用256的批大小训练10个周期。对于少次学习，我们每个视频采样32帧。我们将学习率设置为2×10−6，并使用64的批大小训练50个周期。在推理时，我们从每个视频中采样1个视图。受到[49, 16]的启发，我们在原始CLIP（比例为0.2）和微调模型之间进行线性权重空间集成。在主要结果中，我们将文本包过滤比例p设置为90%，并将包大小设置为16。我们的代码已在补充材料中提供，并将在论文接受后公开。

4.3 零样本动作识别

我们在去除了原始真实标签的大规模K400数据集上对CLIP进行了微调。我们在七个不同的数据集上进行了零次学习动作识别，以验证微调后跨数据集模型的可泛化性转移。在零次学习设置中，模型直接在包含未见类别的下游数据集上进行评估，而无需在这些数据集的任何样本上进行训练。

在表1中，我们首先将我们的方法与其他最先进的方法进行了比较，这些方法都使用K400数据集来适配CLIP模型，以便在UCF、HMDB和K600数据集上进行零次学习识别任务。我们遵循[38, 33, 7]的方法，报告了三个官方验证集的结果均值和标准偏差。ER-ZSAR[7]和JigsawNet[34]是零次学习动作识别方法，它们使用K400的真实标签进行训练。这些方法利用抓取的动作类别描述并进行人工校正，这需要人类标注者的努力。之后，基于真实标签，将类别描述分配给视频。我们可以看到，原始的CLIP在三个数据集上都有良好的直接零次学习性能，表现优于或相当于ER-ZSAR[7]和JigsawNet[34]。其余的比较方法都在视频-文本对上使用K400的真实类别标签作为文本来适配CLIP模型。其中，最新的ViFi-CLIP[38]取得了最佳结果，超过了所有其他方法，而且没有添加任何可学习的时空模块（如其他方法[47, 18, 33]所做的那样）。

表1:UCF101、HMDB51、K600上的零样本动作识别。我们报告了三个官方验证分裂结果的均值和标准差。所有型号(除了原来的CLIP)都是在K400上训练的。我们将文本袋过滤比率p设置为90%。我们以每个视频16帧进行训练，并在这里报告16帧和32帧的单视图推理结果。*表示我们的重新评估。

与ViFi-CLIP类似的全面微调范式下，MAXI在不使用任何真实标签的情况下取得了良好的结果。我们报告了MAXI使用不同语言源组合的性能。仅使用原始的K400动作词典，我们已经在三个数据集上超越了大多数相关工作。通过在文本集中添加额外的GPT-3动词和BLIP动词，我们进一步提升了性能，在三个数据集上都达到了最先进水平。

为了全面分析模型的泛化能力，我们在表2中进一步报告了MAXI在四个与K400具有较大领域差异的数据集（Charades、MiT、MiniSSv2和UAV）上的性能。与原始CLIP相比，我们的微调模型在所有数据集上的零次学习迁移能力都有所提高。通过添加GPT-3和BLIP的额外语言资源，我们甚至在具有挑战性的MiT和MiniSSv2数据集上超过了使用K400真实标签训练的ViFi-CLIP。

4.4. 少样本动作识别

我们进行了少样本全类别动作识别来评估模型在低数据情况下的学习能力。在这种设置下，我们特别验证了我们在K400数据集上的自监督微调是否为少样本学习提供了适当的初始化。我们遵循ViFi-CLIP [38]和XCLIP [33]的少样本配置，并在2、4、8和16次样本实验中使用了相同的训练样本，为了公平比较，我们没有添加额外的语言资源。我们在每个视频中使用32帧进行训练。我们使用自监督微调的最佳骨干网络（来自第4.3节）作为少样本训练的模型初始化。在表3中，我们报告了MAXI在三个数据集上的少样本结果，并同时报告了我们的初始化模型的零次学习性能作为参考。我们与直接在CLIP上执行少样本学习的相关方法进行了比较。为了公平比较，我们还包括了使用在ViFi-CLIP范式中带有真实标签预训练的CLIP模型进行少样本训练的结果。

我们发现，使用MAXI预训练的骨干网络进行少样本学习在大多数设置下都取得了最佳性能，甚至超过了ViFi-CLIP的全监督预训练骨干网络。在更具挑战性的极限数据场景下（例如HMDB和UCF上的2次样本），性能差距尤其显著。使用全监督预训练作为初始化可能会在接下来的少样本学习中导致性能下降（例如HMDB上的8次样本，UCF上的4次样本），而我们的自监督微调模型则缓解了这个问题，表明了泛化能力的改进。

4.5. 消融研究

4.5.1文本袋过滤

为了提高训练中使用的文本包的质量，我们在CLIP匹配的相似度分数上设定了一个阈值δp，使得在阈值过滤后，相似度分数最高的p×100%的视频得以保留（见第3.2节）。我们对未标记的K400视频和K400动作字典进行CLIP匹配，并使用过滤后的视频和文本包对CLIP进行微调。在表4中，我们报告了过滤后的匹配准确率，以及使用过滤后的K400视频和文本包微调后的模型的零次学习迁移性能。作为参考，我们还报告了CLIP的零次学习性能，以及使用真实标签在100%准确的视频-文本包对上进行微调的情况，这在大多数数据集上都能达到最佳的零次学习迁移性能。

在表4中，我们注意到随着过滤比例p的降低，CLIP的匹配准确率不断提高。将p设置为90%时，与p=100%的情况相比，零次学习迁移性能得到了一致的提升，这是因为匹配的文本质量得到了改善。将p设置为50%时，与p=100%相比，性能得到了一定程度的提升。然而，进一步将p降低到50%以下会导致性能下降，因为用于训练的数据量有限。这表明选择CLIP确信的文本包可以确保更有效的微调，以实现更有效的零次学习迁移。但是，在过滤数据的质量和用于训练的数据量之间存在权衡。

4.5.2对噪声动作字典的鲁棒性

在实际场景中，我们对未标注视频集合中可能存在的动作类型有大致的先验知识，这定义了一个动作字典。但是，这样的知识可能是有噪声的。我们探索了我们的微调流程对这种有噪声的动作字典的鲁棒性。我们考虑了两种有噪声的动作字典情况：（1）一个不完整的字典，只包含原始K400动作字典中的一半词汇。具体来说，我们使用了MiniKinetics [6]（K400的一个200类的子集）中的200个动作名称。（2）一个过度指定的字典，通过在原始K400动作字典中添加有噪声的动词和动词短语来构建。我们从WebVid2.5M数据集[1]的验证集字幕中解析动词，并随机抽取400个动词添加到字典中，最终得到一个包含800个动词或动词短语的字典。

在表5中，我们报告了使用这些有噪声的字典进行微调后模型的零次学习迁移性能。为了改进文本包的质量，我们将文本包过滤比例p设置为50%。同时，我们也报告了使用原始K400动作字典作为参考的结果。显然，使用干净的原始K400动作字典在大多数下游数据集上实现了最佳的零次学习迁移性能。然而，与使用CLIP零次学习结果相比，即使使用有噪声的动作字典进行微调，仍然能显著提高性能。这表明我们的流程对于不同情况下有噪声的预定义字典具有鲁棒性。

4.5.3文本包中应该包含哪些单词?

在表6中，我们研究了文本包中包含的不同单词组合。除了原始的K400动作字典（K400 dict.）外，我们还探索了以下几种组合：（1）BLIP动词：从BLIP字幕中解析出的动词；（2）BLIP对象名词：从BLIP字幕中解析出的对象的名词；（3）GPT3动词：来自GPT3文本扩展的动词和动词短语。为了进行全面的消融研究，我们将文本包过滤比例p设置为100%，以保持完整的含噪声文本包特性。

在表6中，我们注意到，在原始的K400动作字典基础上添加其他语言源能够进一步提高零次学习迁移性能。有趣的是，使用BLIP动词的结果略优于使用BLIP对象名词的情况。我们假设这是因为CLIP具有很强的对象偏向性，并且对动词的语言不那么敏感。通过向CLIP注入动词进行微调，可以提高动作识别的零次学习性能。因此，在文本包中结合BLIP动词和GPT3动词可以实现最佳的零次学习迁移。

4.5.4如何从文本包中学习单词?

在表7中，我们探索了从文本包中的单词学习的不同策略：（1）交叉熵：在固定的类别空间中进行分类。（2）NCE（负采样对比估计）：对比学习以鼓励视频和文本对之间的实例级匹配。在这种情况下，我们在每次迭代中从文本包中随机抽取一个文本。（3）MIL-Max：在每次迭代中，从文本包中的单词中，我们选择与视频相似度最大的单词，并将该相似度传递到对比损失中。（4）MIL-NCE：如第3.3节所述，我们将一个文本包与视频进行软关联，并计算文本包中所有文本的相似度之和。（5）MIL-NCE仅实例级：MIL-NCE关注视频和文本包之间的实例级匹配，鼓励具有相同最佳匹配文本的视频和文本包相互接近（见第3.3节）。在表7中，我们可以看到在固定类别空间中的分类交叉熵导致了最差的结果，而我们的MIL-NCE策略取得了最好的改进。鼓励具有相同最佳匹配文本的视频和文本包相互接近也相对于仅实例级匹配带来了一定的性能提升。

4.5.5袋子尺寸

我们在表8中对文本包大小进行了消融实验。包大小为1的情况与表7中随机单词采样的NCE损失相同。将包大小从较小的数字增加到8时，性能持续提高。使用大小为16的文本包会进一步轻微提高性能。我们在包大小为16的情况下报告了我们的主要结果。

4.6. 注意力热图

为了更深入地了解MAXI性能提升的原因，我们在图3和图4中比较了几种方法的注意力热力图。CLIP是原始的CLIP[36]，没有经过任何微调。ViFi-CLIP[38]通过在K400数据集上使用真实标签进行有监督分类来微调CLIP。MAXI是我们的方法。具体的解释和更多的可视化结果可以在附录中找到。

图3：在具有动词形式（词根或动名词）直接包含在K400字典中的动作上的注意力热力图。我们比较了CLIP（第二行）、ViFi-CLIP（第三行）和我们的MAXI（第四行）。暖色和冷色分别表示高注意力和低注意力。MAXI在拍手（clap）时更多地关注手部，在踢球（kick ball）时更多地关注腿部。

图4：在K400字典中没有包含任何动词形式的新动作上的注意力热力图。我们比较了CLIP（第二行）、ViFi-CLIP（第三行）和我们的MAXI（第四行）。暖色和冷色分别表示高注意力和低注意力。MAXI在挥手（wave）时更多地关注手和手臂，在咀嚼（chew）时更多地关注嘴巴区域。

5. 结论

在这项工作中，我们考虑了利用未标记的视频集合和一系列语言资源来微调视觉语言（VL）模型，以改进零样本学习动作识别的任务。据我们所知，我们的“匹配、扩展和改进”（MAtch, eXpand and Improve，简称MAXI）方法是这一领域中的首创。具体来说，我们利用一系列语言资源（未配对的动作词典、大型语言模型和视觉语言模型）为每个未标记的视频构建一个文本包。然后，我们使用未标记的视频和文本包，以多实例学习为目标来微调视觉语言模型。我们在多个未见过的动作基准测试中，对零样本学习和少样本学习动作识别进行了广泛的评估，结果显示我们的方法相较于原始视觉语言模型以及以完全监督方式训练的基线模型，在性能上有了显著的提升。

读后总结

出发点：大规模视觉模型往往更多关注物体，而对动词关注少，并且为了实现视觉模型在零样本动作识别的任务。

创新点：通过无监督学习，使用一组未标记的视频和一个不成对的动作字典，将视觉模型调整为适用于零样本和少样本动作识别。通过构建文本词袋获得对应视频可能相关的文本，以预定义动作词典和视频帧作为输入，使用CLIP匹配获得相似度最高的文本信息（将该文本信息输入文本词袋），再将该文本输入GPT-3生成相关的动作描述（将该描述中的动词和动名词输入词袋）；视频帧通过BLIP生成标注，获得每帧的文本描述（将文本描述的动词和动词短元音输入文本词袋）。最后将文本词袋中的文本特征与视频特征进行MIL-NCE损失计算。