VarCMP: Adapting Cross-Modal Pre-Training Models for Video Anomaly Retrieval

最新推荐文章于 2025-04-30 16:06:04 发布

七77.

最新推荐文章于 2025-04-30 16:06:04 发布

阅读量1.4k

点赞数 17

文章标签：深度学习多模态

本文链接：https://blog.csdn.net/weixin_46687145/article/details/147356425

版权

在这里插入图片描述

标题：VarCMP: 适配跨模态预训练模型的视频异常检索方法
原文链接：https://ojs.aaai.org/index.php/AAAI/article/view/32909
发表：AAAI-2025

摘要

视频异常检索（VAR）旨在通过文本描述、同步音频等跨模态查询，从长未修剪视频集合中检索相关的异常或正常视频。跨模态预训练（CMP）模型通过对大规模图像 - 文本等跨模态对进行预训练，能够学习不同模态间的丰富关联，这种跨模态关联能力使其在传统检索任务中具有优势。受此启发，如何利用CMP模型强大的跨模态关联能力，从长未修剪视频中搜索关键视觉组件成为重要研究问题。为此，本文提出一种基于CMP模型的VAR方法VarCMP。首先，提出统一的层次化对齐策略，约束视频 - 文本的语义与空间一致性，以及视频 - 音频的语义、时间与空间一致性。该策略通过多粒度跨模态相似度计算，充分利用CMP模型的高效跨模态关联能力，实现视频 - 文本和视频 - 音频VAR任务的全方位信息匹配。此外，为解决长未修剪视频的对齐问题，在细粒度对齐中设计异常偏置加权机制，利用异常先验识别长视频中的关键片段并赋予更高权重，摒弃无关片段信息，实现与跨模态查询的更精准匹配。大量实验表明，VarCMP在视频 - 文本和视频 - 音频VAR任务中均表现高效，在UCFCrime - AR（文本 - 视频）和XDViolence - AR（音频 - 视频）数据集上，R@1指标分别比最优对比方法提升5.0%和5.3%。

引言

近年来，随着视频数据的指数级增长和人工智能技术的快速发展，视频异常检测（VAD）取得显著进展，涌现出一系列研究成果（Sultani, Chen, and Shah 2018; Wu, Liu, and Shen 2019; Wu et al. 2020; Park, Noh, and Ham 2020; Georgescu et al. 2021; Feng, Hong, and Zheng 2021; Wu et al. 2024c,d,b）。然而，视频中的事件通常捕捉随时间演化的动作和实体间交互，仅使用VAD中的单标签可能不足以全面阐释这些序列性事件。相比之下，视频异常检索（VAR）通过详细的文本描述或同步音频，提供视频中事件的更完整刻画，因此在智能视频分析（如危险事件证据筛查）中至关重要。此外，与针对短修剪片段的传统视频检索不同，VAR面向长未修剪视频，旨在检索正常/异常视频（异常可能仅出现在长视频的某些片段），这带来了新挑战。

ALAN（Wu et al. 2024a）是首个针对VAR的研究，其利用异常引导采样捕捉局部异常片段，并通过基于视频提示的掩码短语建模学习跨模态细粒度关联。但该方法未能实现视觉 - 文本特征及音频特征间更细粒度的交互，且未利用最新CMP模型强大的跨模态语义匹配能力，存在改进空间。

近期，CLIP（Radford et al. 2021）和CLAP（Wu et al. 2023）等CMP模型在跨模态检索任务中得到广泛应用。CLIP4Clip（Luo et al. 2022）是将CLIP集成到视频 - 文本检索（VTR）的先驱方法，其引入时间融合模块聚合不同视频帧的特征，促进视频 - 文本特征的模态间对齐，提升检索能力。但该方法直接对齐视频 - 文本特征的融合时间序列，限制了细粒度交互的捕捉。在CLIP4Clip基础上，后续研究探索了从粗到细粒度的对齐策略（Ma et al. 2022; Gorti et al. 2022; Wang et al. 2023; Yang et al. 2024），以更准确捕捉视频与文本的复杂关系。另一方面，CLAP通过对比学习机制对大规模音频 - 文本对进行联合训练，在音频 - 文本检索中也取得显著进展。显然，CMP模型凭借其强大的跨模态关联能力，在传统视频检索中已获得显著成功，但其如何应对VAR任务的独特挑战仍需深入研究。

本文提出VarCMP，将跨模态预训练模型适配于VAR任务。我们的目标不仅是使用CMP模型，更旨在设计针对性优化以解决VAR挑战。具体而言，首先利用CLIP的图像和文本编码器提取视觉和文本特征，利用CLAP的音频编码器提取音频特征，将原始数据转化为高层表示并显著增强跨模态对齐。然后提出统一的层次化对齐策略：对于视频 - 文本VAR，在视频 - 句子、帧 - 句子、补丁 - 单词三个层级进行对齐；对于视频 - 音频VAR，在视频 - 音频、帧 - 音频段、补丁 - 音频段层级对齐。这种视频 - 帧 - 补丁多粒度对齐策略可提取丰富多样的信息。然而，由于VAR任务的长未修剪视频特性，细粒度信息可能引入大量无关内容。为此，在层次化对齐框架内引入异常偏置加权机制，利用异常先验识别视频中的异常片段，在细粒度对齐中为关键信息赋予更高权重。需强调的是，本文的层次化对齐方法不同于以往视频 - 文本VAR中的细粒度对齐，其不仅为检索提供更详细信息，还能从大量无关内容中提取关键信息，使检索更具针对性。实验表明，该方法在视频 - 文本和视频 - 音频VAR任务中均表现优异。训练过程中，CLIP图像/文本编码器和CLAP音频编码器的权重保持固定，梯度反向传播仅优化新设计模块的可学习参数。

综上，本文贡献如下：

提出基于视频 - 文本语义与空间一致性、视频 - 音频语义/时间/空间一致性的统一层次化对齐机制，实现视频 - 文本和视频 - 音频任务的统一检索。
在层次化对齐中引入异常偏置加权机制，从长未修剪视频中提取关键信息，使主导片段在细粒度对齐中获得更高权重。据我们所知，这是首次将异常先验有效植入VAR的细粒度加权对齐。
在两个主流基准数据集上验证VarCMP的鲁棒性和有效性，其性能达到SOTA：在UCFCrime - AR文本 - 视频检索中R@1提升 $5.0\%$ ，在XDViolence - AR音频 - 视频检索中R@1提升 $5.3\%$ ，显著超越现有方法。

方法

总体框架

首先介绍提取不同模态表示的特征编码器，然后提出统一的层次化对齐策略以实现多粒度模态间匹配，接着阐释异常偏置加权机制以挖掘关键片段并在细粒度对齐中赋予更高注意力，最后说明模型训练过程。方法框架如图1所示。
在这里插入图片描述

特征编码器

现有研究依赖I3D（Carreira and Zisserman 2017）、BERT（Devlin et al. 2018）、VGGish（Gemmeke et al. 2017）等预训练模型提取视频、文本、音频特征并进行对齐。近期，CLIP和CLAP等大规模预训练跨模态模型在下游任务中展现出卓越的泛化能力。受CLIP及相关检索任务启发，本文采用CLIP和CLAP的编码器作为主干网络，提取视频、文本、音频特征，利用视觉内容、文本描述、同步音频间的强相关性。

视频编码器：沿用Liu等（2022）、Luo等（2022）、Wang等（2023）的方法，使用预训练CLIP视觉编码器 $F_{v}$ 提取单帧视觉特征。对于包含 $N_{v}$ 帧的视频，其表示为 $[F_{v}^{1}, F_{v}^{2}, \dots, F_{v}^{N_{v}}]$ 。对于第 $n$ 帧 $F_{v}^{n}$ ，将其划分为不重叠的补丁，添加[CLS]标记，通过视觉编码器 $F_{v}$ 得到补丁表示 $p_{v}^{n} = F_{v}(F_{v}^{n}) \in \mathbb{R}^{M \times C}$ ，其中 $M$ 为单帧补丁数， $C$ 为视觉特征维度。提取各帧的[CLS]表示并组合为帧级表示 $f_{v} = [f_{v}^{1}; f_{v}^{2}; \dots; f_{v}^{N_{v}}] \in \mathbb{R}^{N_{v} \times C}$ ，再通过时间编码器生成视频级表示 $e_{v} \in \mathbb{R}^{C}$ ，其中利用Token移位模块以最小成本学习时间信息（Wang et al. 2023）。

文本编码器：给定文本查询 $T$ （末尾附加[EOS]标记），使用预训练CLIP文本编码器 $F_{t}$ 生成单词特征 $w_{t} = F_{t}(T) \in \mathbb{R}^{N_{t} \times C}$ ，其中 $N_{t}$ 为单词序列长度。取[EOS]标记的表示作为句子级特征 $s_{t} \in \mathbb{R}^{C}$ 。

音频编码器：给定音频查询 $A$ ，使用预训练CLAP音频编码器 $F_{a}$ 生成音频段特征 $e_{a} = F_{a}(A) \in \mathbb{R}^{N_{a} \times C}$ ，其中 $N_{a}$ 为音频段序列长度。通过Transformer编码器获取[CLS]标记表示，作为音频特征 $m_{a} \in \mathbb{R}^{C}$ 。注意，视觉、文本、音频特征均嵌入到相同维度空间 $C$ 。

统一层次化对齐

语义一致性指不同模态传达的核心意图对齐，空间一致性指模态间内容在空间维度的一致性（如视频中物体/场景/动作的位置应与文本描述的空间信息对应），时间一致性指模态间事件时序的对齐（Wei et al. 2022）（如视频 - 音频VAR中音频内容应与视频时间线同步，确保事件顺序一致）。基于这些特性，本文为视频 - 文本和视频 - 音频VAR任务提出统一的层次化对齐策略，通过系统对齐多级别语义、空间、时间元素显著提升检索精度。该策略从多粒度利用CMP模型的高效跨模态匹配能力，克服了仅考虑粗粒度或细粒度对齐的不足。需说明的是，该方法形式统一，是一种广义表达，既支持视频 - 文本多模态对齐，也支持视频 - 音频跨模态对齐。

粗粒度对齐：反映全局语义一致性。在视频 - 文本VAR中，通过计算整个视频与句子的相似度得分实现；在视频 - 音频VAR中，计算整个视频与整个音频的相似度得分。具体公式为：
$S_{vg} = \frac{1}{2} \left( f_{gw}(l)(\tilde{l})^{\top} \tilde{e}_{v} + f_{ew}(e_{v})(\tilde{l})^{\top} \tilde{e}_{v} \right)$
其中， $l$ 在视频 - 文本VAR中为句子 $s_{t}$ ，在视频 - 音频VAR中为音频 $e_{a}$ ； $f_{gw}(l)$ 为句子/音频级特征权重， $f_{ew}(e_{v})$ 为视频级特征权重，均由经典MLP和Softmax函数构成； $\tilde{e}_{v} = e_{v}^{i} / \|e_{v}^{i}\|_{2}$ 为视频特征的通道归一化操作， $\tilde{l}$ 以相同方式归一化。

细粒度对齐：在视频 - 文本VAR中体现为局部语义一致性，在视频 - 音频VAR中体现为独特的时间一致性。对于视频 - 文本VAR，在视频帧和句子级别进行细粒度对齐，计算帧级视觉特征与文本查询特征的相似度，得到帧 - 句子相似度得分。受Wang等（2022b, 2023）启发，通过Token级交互自适应挖掘细粒度关联：
$S_{fs} = \frac{1}{2} \left( f_{sw}(s_{t}) \max_{j=1}^{N_{v}} (\overline{s}_{t})^{\top} \overline{f}_{v}^{j} + \sum_{j=1}^{N_{v}} f_{fw}^{j}(f_{v})(\overline{s}_{t})^{\top} \overline{f}_{v}^{j} \right)$
其中， $f_{fw}(f_{v})$ 和 $f_{sw}(s_{t})$ 分别为帧级和句子级特征权重。

对于视频 - 音频VAR，计算帧级视觉特征与音频段特征的相似度，得到帧 - 音频段相似度得分，具体公式为：
$S_{fe} = \frac{1}{2} \left( \sum_{i=1}^{N_{a}} f_{ew}^{i}(e_{a}) \max_{j=1}^{N_{v}} (\overline{e}_{a}^{i})^{\top} \overline{f}_{v}^{j} + \sum_{j=1}^{N_{v}} f_{fw}^{j}(f_{v}) \max_{i=1}^{N_{a}} (\overline{e}_{a}^{i})^{\top} \overline{f}_{v}^{j} \right)$

更细粒度对齐：体现不同模态在局部空间层面的一致性。在视频 - 文本VAR中，通过计算补丁级视觉特征与单词级文本特征的相似度实现更细粒度匹配；在视频 - 音频VAR中，则计算补丁级视觉特征与音频段特征的相似度。具体公式为：
$S_{po}=\frac{1}{2}\left(\sum_{i = 1}^{N_{y}}\left[f_{ew}(o_{y}^{i})\max_{j = 1}^{N_{v}\times M}(\overline{o}_{y}^{i})^{\top}\overline{p}_{v}^{j}\right]+\sum_{j = 1}^{N_{v}\times M}\left[f_{pw}^{j}(p_{v}^{j})\max_{i = 1}^{N_{y}}(\overline{o}_{y}^{i})^{\top}\overline{p}_{v}^{j}\right]\right)$
其中， $o_{y}$ 在视频 - 文本VAR中为单词，在视频 - 音频VAR中为音频段； $f_{ew}(o_{y})$ 为单词级或音频段级特征权重， $f_{pw}(p_{v})$ 为补丁级特征权重； $N_{y}$ 在视频 - 文本VAR中为 $N_{t}$ ，在视频 - 音频VAR中为 $N_{a}$ 。

异常偏置加权机制

在这里插入图片描述

在层次化对齐的细粒度阶段，我们引入一个模块，利用异常先验信息定位长未修剪视频中的关键片段，并提出面向异常的细粒度对齐方法。以下分两部分详述：

关键帧检测：借鉴弱监督VAD方法VadCLIP（Wu et al. 2024d），将视觉编码器输出的视频特征 $f_{v}\in\mathbb{R}^{N_{v}\times C}$ 输入包含前馈网络（FFN）、全连接层（FC）和Sigmoid激活函数的二分类器，计算帧级异常置信度 $A\in\mathbb{R}^{N_{v}\times 1}$ ：
$\text{Sigmoid}\left(\text{FC}\left(\text{FFN}(f_{v}) + f_{v}\right)\right)$

权重分配：训练阶段，根据标签判断视频是否为异常。若是异常视频，则基于异常置信度分配帧级和补丁级权重以突出关键信息；否则使用网络学习的权重。测试阶段，通过异常置信度评估测试视频是否为异常，从而动态分配权重，具体公式为：
$f_{fw}(f_{v})=\begin{cases}f_{fw}(f_{v}),&y/\hat{y}=0\\S_{\tau}(A),&y/\hat{y}=1\end{cases}$
$S_{\tau}(A_{i})=\frac{\exp(A_{i}/\tau)}{\sum_{j}\exp(A_{j}/\tau)}$
其中， $y/\hat{y}=0$ 表示正常视频， $y/\hat{y}=1$ 表示异常视频， $\hat{y}$ 为基于 $A$ 的视频级预测。异常视频的补丁级权重通过广播机制基于帧级权重分配。

训练与推理

相似度计算：视频 - 文本VAR中的相似度得分 $R(v_{i},t_{j})$ 和视频 - 音频VAR中的 $R(v_{i},a_{j})$ 均通过多粒度对齐结果融合得到：
$R(v_{i},t_{j})=\frac{1}{3}\left(S_{vg}+S_{fs}+S_{po}\right) \quad \text{（视频 - 文本）}$
$R(v_{i},a_{j})=\frac{1}{3}\left(S_{vg}+S_{fe}+S_{po}\right) \quad \text{（视频 - 音频）}$
统一用 $R(v_{i},q_{j})$ 表示跨模态相似度。

损失函数：采用对称InfoNCE损失优化检索模型，给定批量大小 $B$ 的视频 - 文本对，生成 $B\times B$ 相似度矩阵，损失函数为：
$\mathcal{L}_{v2t/v2a}=-\frac{1}{B}\sum_{i = 1}^{B}\log\frac{\exp(R(v_{i},q_{i}))}{\sum_{j = 1}^{B}\exp(R(v_{i},q_{j}))}$
$\mathcal{L}_{t2v/a2v}=-\frac{1}{B}\sum_{i = 1}^{B}\log\frac{\exp(R(v_{i},q_{i}))}{\sum_{j = 1}^{B}\exp(R(v_{j},q_{i}))}$
弱监督VAD的分类损失 $\mathcal{L}_{bce}$ 采用二元交叉熵计算，最终目标函数为：
$\mathcal{L}=\mathcal{L}_{bce}+\mathcal{L}_{v2t/v2a}+\mathcal{L}_{t2v/a2v}$

推理过程：检索时计算所有视频与查询的相似度，按相似度排序返回结果。文本 - 视频和音频 - 视频检索流程类似，仅查询模态方向相反。

实验

在这里插入图片描述

数据集与评估指标

为评估 VarCMP 的性能，我们在两个主流的视频异常检索（VAR）数据集上进行了实验：

UCFCrime - AR：这是一个用于视频 - 文本 VAR 任务的数据集。它包含了各种犯罪场景的长未修剪视频，并且每个视频都配有详细的文本描述，用于描述视频中的异常事件。
XDViolence - AR：该数据集主要用于视频 - 音频 VAR 任务。它包含了包含暴力事件的视频，同时提供了与视频同步的音频信息。

我们采用了基于排名的评估指标来衡量模型的性能：

Recall at K（R@K）：其中 $K$ 取值为 1、5 和 10。 $R @ K$ 表示在前 $K$ 个检索结果中包含相关视频的比例。例如， $R @1$ 表示第一个检索结果就是相关视频的比例，它衡量了模型的顶级检索性能。
中位数排名（MdR）：它表示所有相关视频在检索结果中的排名的中位数。MdR 值越小，说明模型的检索性能越好。

实现细节

以下是 VarCMP 模型的具体实现细节：

网络结构：
- 图像和文本编码器采用了 CLIP（ViT - B/32）模型，其特征维度 $C = 512$ 。
- 音频编码器使用了 CLAP（630k - audioset - fusion - best）模型，同样将特征嵌入到维度为 512 的空间中。
补丁选择：对于每帧视频，我们选取 $M = 4$ 个最显著的补丁进行特征提取，以减少计算量并聚焦于关键视觉信息。
时间编码：使用了一层 Transformer 层进行时间编码，头数设置为 8，前馈网络（FFN）的维度为 1024。这种设置有助于模型学习视频帧之间的时间依赖关系。
数据采样：每个视频采样 $N_{v}=32$ 帧，以平衡计算效率和信息完整性。同时，文本和音频查询的最大长度限制为 32，以适应模型的输入要求。
训练配置：
- 我们使用单块 NVIDIA RTX 4090 GPU 进行训练，基于 PyTorch 深度学习框架实现。
- 采用 AdamW 优化器，批量大小设置为 8，学习率为 $1 e - 4$ 。
- 模型训练了 15 个 epoch，以确保模型充分收敛。

与 SOTA 方法对比

表 1 和表 2 展示了 VarCMP 与现有最先进（SOTA）方法在 UCFCrime - AR 和 XDViolence - AR 数据集上的对比结果。对比方法包括非 CLIP 基方法和 CLIP 基方法，其中符号“*”表示 CLIP 方法使用了 I3D 特征，“†”表示基于 CLIP 特征重新实现的方法。

实验结果表明，VarCMP 在文本 - 视频、视频 - 文本、音频 - 视频和视频 - 音频检索的所有评估指标上均显著优于现有方法：

在 UCFCrime - AR 文本 - 视频检索任务中，VarCMP 的 $R @1$ 指标相较于首个 VAR 方法 ALAN 提升了 $18.3\%$ ，相较于近期的粗到细对齐方法 UCoFiA 提升了 $5.0\%$ 。这表明 VarCMP 能够更准确地根据文本查询检索到相关的视频。
在 XDViolence - AR 音频 - 视频检索任务中，VarCMP 的 $R @1$ 指标比现有基线方法提升了 $5.3\%$ ， $R @10$ 指标提升了 $9.6\%$ 。这充分证明了 VarCMP 在处理视频 - 音频跨模态检索时，能够有效地保持视频和音频之间的时间一致性，从而提高检索性能。

消融实验

为了验证 VarCMP 中各个组件的有效性，我们进行了消融实验。

层次化对齐有效性

表 3 和表 4 展示了层次化对齐策略的有效性。通过对比仅采用粗粒度对齐和同时采用粗粒度与细粒度对齐的实验结果，我们发现同时考虑多粒度对齐的方法在 $R @1$ 和 $R @10$ 指标上都有明显的提升。这验证了多级别对齐策略对于捕捉视频细节差异和提高检索精度的重要性。粗粒度对齐可以提供全局语义信息，而细粒度对齐则能够捕捉局部的语义和时空信息，两者结合能够更全面地匹配跨模态信息。

异常偏置加权有效性

表 5 展示了异常偏置加权机制的有效性。当移除该机制时，模型的检索性能显著下降。这是因为在长未修剪视频中，异常事件通常只占一小部分，如果采用平等的对齐策略，会导致关键的异常片段信息被大量无关的正常片段信息淹没。而引入异常偏置加权机制后，UCFCrime - AR 数据集上的 $R @1$ 指标提升了 $0.7\%$ ，XDViolence - AR 数据集上的 $R @1$ 指标提升了 $2.3\%$ 。这证明了该机制能够有效地聚焦于关键的异常片段，提高模型与跨模态查询的匹配精度。

定性分析

检索结果可视化

图 2 展示了在 UCFCrime - AR 数据集上的检索结果可视化。对于给定的视频进行文本检索和给定的文本进行视频检索，我们展示了前 3 个检索结果。从图中可以看出，检索结果与查询高度匹配。例如，当文本查询为“夜间男子在路边汽车旁纵火”时，模型成功检索到了包含“汽车 - 道路 - 火灾”等关键细节的视频片段。这体现了 VarCMP 中细粒度对齐策略的有效性，能够准确地捕捉到文本和视频之间的局部语义关联。