Cross-modal Causal Relation Alignment for Video Question Grounding

七77.

已于 2025-03-27 14:16:27 修改

阅读量920

点赞数 23

文章标签：深度学习

于 2025-03-25 13:04:37 首次发布

本文链接：https://blog.csdn.net/weixin_46687145/article/details/146458613

版权

在这里插入图片描述
标题：视频问题定位的跨模态因果关系对齐
原文链接：https://arxiv.org/pdf/2503.07635
源码链接：https://github.com/WissingChen/CRA-GQA/tree/main
发表：CVPR-2025

摘要

视频问题定位（Video Question Grounding, VideoQG）要求模型回答问题的同时，推断出相关的视频片段以支持答案。然而，现有的VideoQG方法通常受虚假跨模态相关性的影响，无法识别与目标问题一致的主要视觉场景。此外，视觉语言模型在具有挑战性的下游任务（如VideoQG）中表现出不可靠的泛化性能，且缺乏稳健性。在这项工作中，我们提出了一种名为跨模态因果关系对齐（Cross-modal Causal Relation Alignment, CRA）的新型VideoQG框架，以消除虚假相关性，提高问答与视频时间定位之间的因果一致性。我们的CRA包含三个关键组件：

高斯平滑定位（Gaussian Smoothing Grounding, GSG）模块，通过跨模态注意力估计时间间隔，并利用自适应高斯滤波器进行去噪；
跨模态对齐（Cross-Modal Alignment, CMA）模块，通过利用估计的视频片段与问答特征之间的双向对比学习，提升弱监督VideoQG的性能；
显式因果干预（Explicit Causal Intervention, ECI）模块，用于多模态去混杂，包括对视觉的前门干预和对语言的后门干预。在两个VideoQG数据集上进行的大量实验证明了我们的CRA在发现基于视觉定位的内容和实现稳健的问题推理方面的优越性。代码可在https://github.com/WissingChen/CRA-GQA获取。

1. 引言

近期，视觉语言模型（VLMs）的进展显著提升了视频问答（Video Question Answering, VideoQA）任务的性能。然而，这些改进并不总是可靠的，因为模型可能依赖训练数据中的统计偏差（即语言/视觉捷径或虚假的视觉语言相关性），而非真正的因果视觉证据（即与预测相关的主要视觉内容）。为确保性能提升的可靠性，视频问题定位（VideoQG）任务应运而生，通过突出视觉定位内容与问题推理过程之间的相关性，为给定答案明确提供视觉证据。

一般来说，VideoQG模型需要使用从VideoQA任务中导出的带注释的时间间隔进行训练。然而，由于标注成本高昂，所采用的数据集通常缺乏与视频定位相关的注释。尽管当前的视频语言模型也可以执行零样本VideoQG，但这些能力在很大程度上依赖于对预先对齐、精心策划的视频文本数据集的大量训练。这种依赖性表明，此类模型在处理像VideoQG这样的域外（OOD）下游任务时可能效果不佳。此外，这些大型视频语言模型固有的幻觉倾向会引入大量噪声，可能损害模型的可靠性。鉴于现有的VideoQA数据集数量众多，对于一个VideoQG模型而言，仅利用VideoQA数据集中视频的视觉特征和问答对的文本特征来实现VideoQG至关重要。具体来说，VideoQG模型可以使用多个预处理的候选时间间隔来估计与问答任务相关的视频片段，这就是所谓的两阶段方法。此外，一阶段VideoQG模型也可以直接估计时间间隔，这种方法建模更简单，推理效率更高。
在这里插入图片描述

然而，由于视频和语言中存在的偏差，VideoQG模型在训练过程中可能会依赖这些由多模态偏差导致的虚假相关性。这些虚假相关性使模型依赖不可靠的视觉定位场景来回答问题，而非因果相关的视觉定位场景。如图1（a）所示，NextGQA数据集展示了一个视频V，其中描绘了“婴儿”和“女人”之间的互动，基于此提出了一个问题L和一个答案集。在这种情况下，VideoQG需要同时输出相应的答案a和视频的时间间隔t。但现有的VideoQG模型基于不可靠的视觉定位场景输出了正确答案E。通过分析，我们有两个主要发现：

语言偏差：通过分析训练集中同时涉及“婴儿”和“女人”的问题及其答案，我们发现了显著的分布差异，即数据偏差，如图1（b）所示。
视觉偏差：此外，如图1（c）所示，视频片段与完整视频的比例约为0.1，这使得模型进行精确的定位极具挑战性。这种不平衡还导致模型在给出答案时，在混杂因素（“婴儿”和“女人”）与正确答案E之间建立虚假相关性，从而忽略正确的视觉线索。因此，为VideoQG明确发现多模态因果关系既重要又具有挑战性。

为应对这些挑战，我们利用结构因果模型（SCM）进行分析，并构建因果图对VideoQG任务进行建模。与现有的因果方法不同，我们的方法旨在在端到端的前门干预框架中找到与问答语义一致的明确视觉证据（即时间定位）。此外，由于在不依赖训练良好的语义提取器的情况下，很难描述VideoQG的视觉混杂因素，我们采用前门干预进行视觉去混杂。另外，前门干预中现有的中介变量通常是潜在特征，难以描述和说明其机制。为实现可靠的问答和视觉定位，VideoQG被明确纳入VideoQA的因果链中，这不仅消除了对额外注释的需求，还增强了可解释性。由于语言混杂因素可以通过句法分析以结构化形式分解，我们使用后门干预进行语言去混杂。

为实现这些目标，我们提出了跨模态因果关系对齐（CRA）框架，它包含三个关键组件：高斯平滑定位（GSG）模块、显式因果干预（ECI）模块和跨模态对齐（CMA）模块。CRA以VideoQA任务作为弱监督信号，精细地对齐视频特征与问答特征，并指导GSG模块生成时间间隔。ECI随后将估计的视频片段作为前门干预的中介变量，通过考虑整个视频和每个潜在的视频片段，隔离并消除由混杂因素导致的虚假相关性。这种方法不仅提高了VideoQA的性能，还能通过定位性能量化干预的有效性。此外，通过对问答中的实体及其语义关系进行统计分析，后门干预可以将它们视为混杂因素，减少由关键词引起的虚假相关性。我们的CRA不仅提升了VideoQG的性能，还为因果推理在多模态任务中的应用提供了新的思路。主要贡献总结如下：

为同时捕捉视频与问答之间的关系并抵御时间上不相关的噪声，我们提出了高斯平滑定位（GSG）模块，它能通过跨注意力可靠地生成时间间隔。
鉴于VideoQG注释的缺乏以及大型模型在下游VideoQG任务中的局限性，我们引入了双向跨模态对齐模块，有效地实现了弱监督VideoQG。
为实现因果关系对齐，视频片段被明确纳入VideoQA的因果链作为中介变量，这不仅实现了可解释的因果干预，还能通过定位结果量化干预效果。

2. 相关工作

2.1 时间定位视频问答

在时间定位视频问答任务中，模型必须整合视频理解、自然语言处理和时间信息提取，以定位视频中与问题相关的时间间隔，并提供准确答案。为有效提取细粒度且对齐的多模态表示，人们提出了许多方法，包括跨模态注意力、记忆网络和图推理。在VideoQG中，通常有两种方法：两阶段方法，即先生成候选间隔，然后进行匹配；一阶段方法则直接从全局特征中解码位置间隔。两阶段方法在复杂场景中通常表现更好，而一阶段方法虽然更简单高效，但在处理长视频时往往存在困难。目前，时间定位视频问答任务中的模型仍面临挑战，如处理长视频和复杂事件的能力有限，以及对大规模标注数据的严重依赖。为解决这些问题，我们在潜在空间中对齐多模态特征，在不依赖显式定位注释的情况下生成时间间隔。我们通过VideoQA任务的弱监督实现时间定位，并分别对视觉和文本表示实施前门和后门干预。

2.2 多模态因果学习

传统的多模态方法主要依赖相关性分析，但它们对因果关系的忽视会导致在涉及因果依赖的任务（如VideoQG任务）中存在局限性。为应对这一挑战，研究人员引入了因果干预机制，包括后门干预、前门干预和反事实推理。这些方法旨在消除虚假相关性，从而提高模型的稳健性。在VideoQG任务中，因果推理帮助模型在时间维度上识别因果相关的链，使其能够基于与这些因果链对应的视频片段可靠地回答问题。IGV和EIGV利用因果场景与答案之间的相关性在不同互补场景下应保持不变的原理，实现因果VideoQA。然而，这些方法难以从视频中提取细粒度的概念语义并发现因果关系。为克服这一问题，我们提出双向跨模态对齐，以更全面地理解视频中的跨模态关系。然后，CRA框架的显式因果干预模块将估计的视频片段作为中介变量进行前门因果干预，以定位性能作为干预效果的衡量指标。

3. 方法

在这里插入图片描述

图2展示了我们的CRA框架的概述，其中上方展示了我们在CRA中提出的SCM（语义因果模型）。(a) 它分别提取视频和语言学特征。(b) 使用时间编码器融合时间信息，并通过语言学因果干预模块利用语义结构图作为混杂因素Le来减轻QA特征的偏差。© 我们的高斯平滑注意力定位模块估计跨模态注意力以优化视频特征，然后提供平均视觉特征V¯、定位视觉特征M以及预处理的视觉特征簇 $\tilde{V}$ ，用于(d)中的显式因果干预模块。最后，计算交叉熵损失用于a，并对选定的正负多模态样本应用双向对比学习以进行CMA（跨模态对齐）。

为提高VideoQG的可靠性，如图2所示，我们提出的CRA框架包含高斯平滑定位（GSG）模块、跨模态对齐（CMA）模块以及包括语言因果干预（LCI）模块和显式因果干预（ECI）模块在内的多模态因果干预模块。GSG模块首先利用去混杂的语言特征通过跨注意力估计视频片段，多模态特征可以对齐以用于弱监督VideoQG。最后，ECI模块应用前门因果干预来减轻跨模态特征之间的混杂。

给定一个完整视频 $V$ 和一个带有候选答案集 $A$ 的问题 $L$ ，VideoQG模型应推断出答案 $\alpha$ ，并识别作为答案依据的视频片段的时间间隔 $t$ 。该任务可表述为：
$a^{*}, t^{*}=\underset{a \in A}{\arg\max} \Psi(a | V, L, w) \Phi(w | V, L)$
其中 $w$ 是与 $L$ 相关的时间注意力，可用于计算时间间隔 $t$ ，有根据的视频特征为 $v_{t}$ ， $\Psi$ 和 $\Phi$ 分别是包含CRA的VideoQA和VideoQG对应模块。

具体来说，如图2（a）所示，我们首先使用预训练的CLIP模型从视频中均匀采样的 $n$ 帧中提取特征 $\in \mathbb{R}^{n ×d}$ ， $d$ 表示嵌入维度。对于语言部分，我们使用RoBERTa模型对问题和答案集进行编码，以获得语言特征 $\in \mathbb{R}^{m ×d}$ ， $m$ 是问答的长度，然后应用最大池化操作得到全局表示 $l_{g} \in \mathbb{R}^{1 ×d}$ 。

3.1 高斯平滑定位模块

特征提取后，可使用时间编码器将时间信息融合到 $v$ 中，如图2（b）所示。时间编码器由一个2层的Transformer组成，通过自注意力层增强每个帧序列的上下文信息。然后，可通过跨模态注意力 $w$ 实现对与 $L$ 相关的视频片段的时间间隔 $t$ 的估计，如图2（c）所示。与Temp[CLIP]类似，时间间隔 $t$ 可通过对GSG模块的注意力进行事后分析来计算。

如图3（a）所示，我们的GSG模块计算 $l_{g}$ 与 $v$ 之间的相关性，并通过GSLayer估计跨模态注意力，其公式如下：
$w=G\left(MLP\left(v \cdot l_{g}^{T}\right)\right)$
其中 $G(\cdot)$ 是一个具有可学习参数的自适应高斯滤波器，能够抵抗时间注意力的不稳定性。为获得时间间隔，通过注意力池化对 $w$ 进行汇总，以聚合视频片段特征 $v_{t}=w ×v$ ，并通过VideoQA任务进行优化。最后，确定注意力值最高的片段或帧，并在其周围应用阈值处理来确定 $t$ 。

3.2 跨模态对齐

然而，仅依靠VideoQA任务的交叉熵损失不足以对VideoQG提供有力的指导。因此，我们提出一种双向对齐方法，以指导CRA估计跨模态注意力。在VideoQG任务中，对有根据的视频特征 $v_{t}$ 和语言特征 $l_{g}$ 进行估计，然后对这些特征进行随机采样，生成多模态正样本和负样本。首先，为将语言特征与视觉特征对齐，按照Xiao等人的方法，从同一批次的不同视频中采样 $k_{l}$ 个问答对作为负样本 $l^{-}$ ，而将与当前视频对应的问答对作为正样本 $l^{+}$ 。此外，从同一批次中采样 $k_{v}$ 个不同的有根据的视频特征作为负样本 $v^{-}$ ，而将与当前问答相关的有根据的视频特征视为正样本 $v^{+}$ 。最终得到以下损失函数：
$\mathcal{L}_{Align }=\lambda_{1} * \mathcal{L}_{InfoNCE }\left(v, l^{+}, l^{-}\right)+\lambda_{2} * \mathcal{L}_{InfoNCE }\left(l_{g}, v^{+}, v^{-}\right)$
此外，损失函数 $\mathcal{L}_{InfoNCE }$ 的公式如下：
$\mathcal{L}_{InfoNCE }=-\log \left(\frac{e^{\text{sim}\left(q, k^{+}\right) / \tau}}{e^{\text{sim}\left(q, k^{+}\right) / \tau}+\sum_{i=1}^{N} e^{\text{sim}\left(q, k_{i}^{-}\right) / \tau}}\right)$
其中操作符 $\text{sim}$ 表示点积。

3.3 显式因果干预模块

建立VideoQG的基本框架后，模型可表示为：
$P (a ∣ V, L)$
然而，受 $Z$ 的影响，因果关系 $\to a$ 和 $\to a$ 可能被忽略，导致出现虚假相关性 $\leftarrow Z \to L$ 和 $\to a$ ，如图2所示。
在这里插入图片描述

因此，公式5可重写为：
$P (a ∣ V, L, Z = z) P (Z = z ∣ V, L)$

为缓解这一问题，可通过引入 $d o$ 演算 $d o (\cdot)$ 来实施因果干预。利用语言学中可观测的混杂因素 $Z_{l}$ ，如实体“婴儿”和“女人”及其语义关系，实施后门干预，阻断路径 $Z_{l} \to L$ ，减轻 $L$ 中的混杂，如图2（b）所示。去混杂后的概率 $P (a ∣ V, d o (L))$ 可表示为：

其中 $Z_{l}$ 可从由 $L$ 构建的语义结构图 $\tilde{L}$ 的聚类中估计。具体来说，我们将问题 $Q$ 中的实体分为三类： $s u b$ （主语）、 $v er b$ （动词）和 $o bj$ （宾语），分别对应句子中的主语、动词和宾语。基于这三个元素，以及问题 $Q$ 本身及其类型，我们构建一个语义结构图。此外，由于一些数据集使用有限数量的模板生成问题，通常需要来自答案 $A$ 的补充信息。由于问题中提到的主语在答案中通常不存在，我们从答案中提取动词和宾语，并将这些信息与问题结合，构建一个更完整的语义结构图，如图3（b）所示。
在这里插入图片描述

图3展示了(a)高斯平滑定位模块和(b)多模态因果干预模块，后者包括(b)后门干预模块和©显式干预模块，其中 $\tilde{L}$ 是由Stanza[25]构建的语义图，而 $\tilde{V}$ 是从训练集中的所有帧构建的。

然而，视觉混杂因素 $Z_{v}$ 仍然阻碍可靠的答案，如公式7所示。鉴于解构视觉混杂因素的挑战，我们将 $v_{t}$ 视为中介变量 $M$ ，实施前门因果干预，中介变量 $M$ 可以被描述，从而为因果干预的机制提供见解。然后， $P (a ∣ d o (V), d o (L))$ 可表示为：
$P\left(a | do(V), do(L), M=v_{t}\right) P\left(M=v_{t} | do(V), do(L)\right)\quad (8)$
其中 $M$ 由 $V$ 和 $L$ 引入， $L$ 已去混杂，且 $V$ 和 $M$ 之间没有后门路径。因此，公式8可重新表述为：
$\sum_{v_{t}} P\left(a | do\left(M=v_{t}\right), do(L)\right) P\left(M=v_{t} | V, do(L)\right) \quad (9)$

其中概率 $P(a | do(M=v_{t}), do(L))$ 可通过在 $\leftarrow V \gets Z \to a$ 处应用后门干预来表示：
$\sum_{\hat{v}} P\left(a | do\left(M=v_{t}\right), do(L), V=\hat{v}\right) P\left(V=\hat{v} | do\left(M=v_{t}\right)\right)=\sum_{\hat{v}} P(V=\hat{v}) P\left(V=\hat{v}, M=v_{t}\right)\quad(10)$

其中，对于第一步

其中 $\hat{v}$ 是从 $V$ 中选择的特征，用于表示数据集的总体分布。结合公式9和公式10，我们可以进一步将公式8计算为：
在这里插入图片描述

其中 $\cdot$ 是点积， $\hat{v}$ 可从由CLIP模型嵌入的帧特征的聚类中心 $\tilde{V}$ 中估计。最后，我们使用归一化加权几何均值（NWGM）来估计公式11如下：
$\approx \text{Softmax}(g(V, L, \theta(\tilde{L}), \theta(\tilde{V}))) \quad(12)$

其中， $g(\cdot)$ 是一个网络，用于获得经过去偏且准确的响应，如图3（c）所示。考虑由 $v_t$ 表示的估计跨模态注意力，相较于捕捉整体信息的基于均值的视频特征 $\bar{v}$ ，是否对任务完成更有效，我们的ECI模块通过模拟干预操作，提升模型的因果一致性。最终，训练目标可表示为：
$\mathcal{L}=\mathcal{L}_{CE}+\mathcal{L}_{Align}$
其中， $\mathcal{L}_{CE}$ 表示VideoQA的交叉熵损失。

4. 实验与分析

4.1 数据集、评估指标与基线模型

在这里插入图片描述

数据集：
- NextGQA：NextGQA是弱监督VideoQG任务的基准数据集，基于NextQA进行扩展。它包含两种类型的问题：因果类（“why/how”）、时间类（“before/when/after”），并排除了大多与全局内容相关（例如“what event?”）或答案几乎可在整个视频中找到（例如“where is?”）的描述性（“what/who/where”）问题。该数据集包含与8,911个问答对和1,557个视频相对应的10,531个有效时间片段注释，如表1所示。大多片段短于15秒，平均时长为7秒，显著短于约40秒的视频总长度。这些片段平均仅占完整视频的20%，且它们在视频的左、中、右位置分布均匀。
- STAR：STAR是一个情境化视频问题推理数据集，由自然动态、具有组合性和逻辑性的真实世界视频构建而成，包含4,901个视频、60,206个问题以及相应的时间片段，如表2所示。这些问题基于情境超图通过编程方式生成。情境推理还需要结构化的情境理解和逻辑推理，这对VideoQG模型而言是一个具有挑战性的基准。它包含四种类型的问题：交互类、序列类、预测类和可行性类。数据集中的视频场景被分解为包含原子实体和关系（如动作、对象和交互）的超图。
- 对比：NextGQA是基于NextQA开发的，其文本内容也源自后者。NextQA主要聚焦于因果和时间推理，提出诸如“why”和“how”的问题以探究事件的顺序和原因。相比之下，STAR强调情境推理，涉及基于视频上下文和关系的逻辑推理。虽然NextGQA采用选择题和开放式问题，但STAR提供了更广泛的问题类型，需要各种形式的逻辑推理，如预测未来动作或基于视频上下文评估事件的可行性。此外，STAR的问题和答案是通过遵循标准模板的自动脚本生成的，而NextQA依赖人工注释。这意味着STAR中自动生成的问题和答案可能会引入更系统、更微妙的偏差。因此，正如正文所讨论的，与在NextGQA数据集上的性能相比，我们的CRA模型在STAR数据集上显示出更显著的改进。另外，在NextGQA中，存在单个问答对对应多个时间间隔的情况。
评估指标：我们采用NextGQA中的评估指标，包括定位问答的准确率（Acc@GQA）、视频问答的准确率（Acc@VQA）、预测交集（IoP）和交并比（IoU）。平均IoP（mIoP）和平均IoU（mIoU）指的是多个视频或样本上IoP和IoU的平均值。IoU@0.3/0.5和IoP@0.3/0.5是分别使用0.3和0.5阈值计算的特定IoP和IoU指标。
基线模型：在实验中，我们选择了几个性能优异的视觉语言模型作为基线，每个模型代表不同的模型架构、语言编码器和视觉编码器。这些基线模型包括：
- IGV和Sevila：最初为VQA任务设计，我们对这些模型进行了修改，使其包含关键帧定位功能，并通过事后处理实现问题在视频中的准确定位。
- VIOLEv2：它使用Swin Transformer进行视频编码，BERT进行文本编码。然后通过多模态Transformer实现视频和文本特征的交互，展现出卓越的视频 - 文本学习能力。
- VGT：它采用图Transformer来捕捉视觉对象，同时利用双结构促进视频和文本相关性的比较。
- Temp[Swin]、Temp[CLIP]、Temp[BLIP]：这些模型均采用双结构，仅在视觉编码器的使用上有所不同。“PH”和“NG+”代表用于生成定位间隔的不同方法。
- FrozenBiLM：利用冻结的双向语言模型提取文本特征，该模型在VideoQA任务中表现出色，有效结合了文本理解与视频分析。
- TimeCraft：一种用于VideoQG的双向推理框架，利用大语言模型（LLMs）扩展数据集，并实现自监督的时间定位和回答。这些基线模型的选择和比较对于评估各种方法的性能以及为进一步优化提供有价值的见解至关重要。

4.2 实验设置

遵循Temp[CLIP]的设置，我们从原始视频中均匀采样32帧。在特征提取过程中，CLIP-L模型保持冻结状态，而Roberta模型进行微调。在ECI模块中，我们使用512个视觉聚类中心，并且在LCI模块中对问答部分进行类似聚类，以获得512个图特征。在计算对齐损失时，我们从同一批次中采样32个负样本。此外，参数 $\lambda_1$ 和 $\lambda_2$ 分别设置为1和0.5。其他参数参考NextGQA基准，我们的模型使用一块RTX A800 GPU进行训练。

4.3 定量分析

在这里插入图片描述

我们将评估指标分为两类：可靠答案评估（Acc@GQA）和时间定位评估（IoP和IoU）。

可靠答案：如表3所示，我们的方法优于对比方法，尤其是Temp[CLIP] (NG+)，尽管我们的模型规模仅比其大15M参数，但在Acc@GQA上实现了显著提升，比Temp[CLIP] (NG+)高出3%。此外，当使用FrozenBiLM作为骨干网络时，我们的方法仍比当前最先进的模型TimeCraft高出0.3%。这表明我们的方法不仅在VideoQA任务中提供了更高的准确率，而且在时间定位方面也更有效，从而实现了整体更优的性能。

此外，对于随机方法，我们观察到其IoU并不逊色于像IGV这样经过明确训练的模型。然而，其Acc@GQA指标显著低于表中的所有方法，这凸显了模型确保答案不仅正确，而且基于与因果推理一致的视觉线索的必要性。我们的CRA有效地防止模型依赖虚假相关性，促进了视频内容与生成答案之间更深入、更可靠的联系。STAR数据集上的结果进一步验证了这一观点，在该数据集上我们的CRA也取得了最佳的Acc@GQA分数，如表4所示。

此外，我们采用了类似于Acc@GQA的指标。IoP < 0.3的样本可以标记为：错误答案记为偏差错误；正确答案视为不可靠答案。我们有效地减少了由偏差引起的错误，并降低了不可靠答案的出现频率，这与Acc@GQA指标的改进相符（表5）。
在这里插入图片描述

在这里插入图片描述

时间定位：表3和表4显示，尽管TimeCraft使用大语言模型构建伪标签进行跨模态对齐，但我们的方法在IoP和IoU指标上表现更优，尤其是在更严格的IoP@0.5和IoU@0.5指标上。这表明我们的CRA能更有效地实现多模态对齐，减轻多模态偏差，同时显著增强VideoQG的因果一致性。此外，我们观察到Temp[CLIP]采用的朴素高斯（NG）策略虽然简单有效，但生成的定位间隔以关键帧为中心。然而，与问题相关的关键帧并不总是位于间隔的中心，它们可能位于间隔的两端。例如，在图1的间隔中，主要信息（如女人和婴儿之间的互动）出现在第一帧。

为验证这一点，我们比较了四种不同策略生成的时间间隔的准确性，如表6所示。PH策略仍然表现出较好的性能，但其IoU@0.5指标最差。此外，与不使用高斯平滑的GSG（GSG w/o GS）相比，后者在Acc@GQA上更高，但Acc@VQA更低，这表明仅基于视频显著性的定位不可靠。这是因为单个视频可能包含多个事件，每个事件对应不同的问答对。另外，我们比较了不使用高斯平滑的GSG（GSG w/o GS†），去除高斯平滑后，模型无法基于粗略的注意力细化准确的视觉特征。尽管其IoU@0.5与GSG w/o GS一致，但其整体性能最差。值得注意的是，应用高斯平滑后，IoU@0.5有显著提升。这表明GSG中的高斯平滑在抑制与时间无关的噪声、增强模型对关键区域的关注方面起着关键作用。
在这里插入图片描述

NextGQA的详细分析：如表7所示，我们基于NextGQA基准中的不同问题类型进行了更详细的分析。该基准包含两类主要问题：因果类问题，有3,252个示例（占总数的58.6%），如数据集分析部分所述；时间类问题，有2,301个示例（占总数的41.4%）。将这些结果与整体性能进行比较，发现CRA框架在因果类问题上表现更优。值得注意的是，虽然Temp[CLIP]和FrozenBiLM在Acc@GQA上得分相同，但Temp[CLIP]的IoP@0.5显著更高，而FrozenBiLM在Acc@VQA上更胜一筹。这表明更大的模型尽管利用了从大量数据集中学习到的先验知识，但也引入了更明显的偏差。然而，与NG+方法相比，CRA框架在FrozenBiLM模型上显著减轻了这些偏差。

此外，对于时间类问题，CRA在两个模型上均取得了最高的Acc@GQA分数。这表明CRA在VideoQG任务中，在检索到的视频片段与答案之间展现出更高程度的因果一致性。关于IoP@0.5指标，Temp[CLIP]和FrozenBiLM之间的差异极小，这表明时间类任务受大规模模型预训练中引入的偏差影响较小。因此，CRA在各种场景下均展现出稳健的改进。
在这里插入图片描述

STAR的详细分析：在对STAR数据集的分析中，我们将问题分为四类：交互类（2,398个问题，占总数的33.8%）、序列类（3,586个问题，占50.5%）、预测类（624个问题，占8.8%）和可行性类（490个问题，占6.9%），如表8所示。显然，交互类和序列类问题在数据集中占主导地位，占问题总数的85%以上，对整体性能有显著影响。

首先，对于交互类问题，尽管我们的方法在Acc@VQA和Acc@GQA指标上表现一般，但在时间定位任务中取得了最佳结果。这表明我们的模型在解释视频中人与物体之间的交互时，能够更准确地定位相关信息。然而，这种强大的定位性能并未转化为答案中的因果一致性。

序列类问题表现突出，尽管在Temp[CLIP]模型上，我们提出的方法在Acc@VQA分数上比FrozenBiLM (NG+)低1.6%，但在IoP@0.5上比后者高出6.7%，在Acc@GQA上高出2.7%。这些结果凸显了模型在处理时间推理任务方面的卓越性能，展示了其捕捉事件序列和逻辑的卓越能力。这有助于更深入地理解视频内容，并实现高度的因果一致性。

对于预测类问题，整体性能略优于序列类问题。如表所示，FrozenBiLM的性能始终优于Temp[CLIP]，包括在IoP@0.5指标上。这表明更大规模的模型在预测未来事件方面表现出更强的推理能力，这得益于其训练数据中嵌入的先验知识。

此外，在可行性相关问题中，这一观点得到了进一步验证。这类问题具有多样性和复杂性，不仅涉及从视频中直接可观察到的信息，还包括隐含条件和假设。这些问题通常需要对视频上下文有深入理解，并能够推断给定场景在现实生活中的合理性。这往往需要复杂的逻辑推理和对多个因素的考虑。例如，一个问题可能要求模型在特定条件下判断一个动作的可行性，这不仅需要理解视频内容，还需要对潜在的物理原理和常识知识进行推理。这些问题的固有难度解释了为什么大规模的FrozenBiLM模型在这一类别中表现最佳。值得注意的是，通过CRA框架的增强，FrozenBiLM在IoP@0.5上取得了令人瞩目的41.8%的分数。这一发现促使我们进一步开发CRA框架，结合更大的模型，以增强其处理此类复杂推理任务的能力。

4.4 定性分析

在这里插入图片描述

尽管大部分真实时间间隔相对较短，但如图4（a）所示，仍有相当数量的间隔超过20秒。我们的方法和NG+倾向于生成集中在约2.5秒短时长附近的时间间隔，忽略了对较长间隔的估计。进一步分析发现，在真实数据中，短于2.5秒的间隔数量少于2.5秒至5秒之间的间隔，而估计的间隔主要集中在2.5秒左右。这是因为估计的注意力峰值通常较窄，不准确的注意力可能导致不精确的短间隔。然而，如图4（b）所示，未纳入因果干预的NG+表现明显不如CRA。这表明NG+中的注意力权重过于集中，而我们采用因果干预的方法更具稳健性。

在这里插入图片描述

我们的方法能更有效地观察关键帧周围的信息，更好地捕捉相关细节，并且与时间间隔的真实分布更紧密对齐。

CRA在NextGQA数据集上的可视化：如图6所示，我们展示了CRA在NextGQA测试集上的可视化结果。在图6（a）中，问题属于时间类。去除高斯平滑后，注意力权重沿时间轴出现显著振荡，使模型无法有效估计间隔。然而，我们提出的GSG模块成功减轻了这些噪声影响，实现了相关间隔的准确定位，从而提高了IoP@0.5和IoU@0.5的性能。尽管如此，Temp[CLIP]模型在这些增强的权重下，仍然无法正确回答这个问题。相比之下，FrozenBiLM模型仅依赖最后一帧就给出了正确答案。从注意力权重可以明显看出，该模型非常自信，产生了一个单一的窄峰，并识别出一个短的时间间隔。这种行为凸显了大规模模型的固有偏差。

类似地，如图6（b）所示，我们的方法有效地识别出相关间隔，并正确回答了因果类问题。然而，值得注意的是，虽然FrozenBiLM也回答正确，但它关注的是错误的视觉信息。这进一步证实了大型模型中由数据偏差引入的更严重的虚假相关性。此外，通过与提供的真实数据进行比较，我们发现我们的方法并非完全错误。CRA估计的视频片段足以支持答案，而真实的时间间隔似乎不必要地冗余。这一观察强调了IoP@0.5相较于IoU@0.5的重要性，因为该任务优先考虑间隔估计的精确性。
在这里插入图片描述

CRA在STAR数据集上的可视化：如图7所示，我们展示了CRA在STAR数据集上的可视化结果。如前所述，图7（a）描绘了一个男人整理衣柜的场景，这个活动贯穿整个视频。真实的片段位于视频中心，这是一个合理的选择。然而，各种方法采用的视频片段似乎都足以作为回答问题的依据。这表明数据集可能包含一些注释噪声，并且评估方法可能存在一定的局限性。另一方面，在图7（b）所示的可行性类问题的示例中，高斯平滑的有效性再次得到证实。这种方法有效地抑制了噪声，促进了更好的多模态对齐。

4.5 消融实验

如表9所示，我们的CRA框架在GSG模块中利用跨模态注意力，有效地检索与当前问答最相关的间隔，而不是仅仅依赖视觉显著性。当移除GSG模块时，IoU@0.5性能显著下降（从10.6降至8.0）。这种下降归因于GSG模块整合了跨模态信息，并使用高斯平滑进行去噪，从而实现更广泛、更稳健的注意力，产生更准确的时间间隔，如图5所示。此外，尽管在应用高斯平滑前后，注意力和间隔没有显示出显著差异，但其对后续结果的影响很大，如表6所示。值得注意的是，虽然图中FrozenBiLM生成的间隔与真实区域的重叠更多，但其注意力分布明显不那么集中，有两个明显的峰值。这表明，虽然更大的模型可能捕捉到更广泛、更细粒度的信息，但并非所有这些信息都有利于定位。
在这里插入图片描述

此外，移除CMA模块会导致Acc@GQA和IoP@0.5显著下降，分别下降2%和2.2%。这凸显了CMA模块在VideoQG任务中的关键作用，表明CMA通过双向对比学习有效地对齐多模态信息，增强了模型从视频内容中推断正确答案的能力，而无需依赖大量标记数据。因此，CMA模块对于在弱监督VideoQG任务中实现稳定性和准确性不可或缺。

移除因果模块也会导致整体指标明显下降。然而，与CMA模块不同，IoP@0.5的下降较小，而Acc@GQA的下降较大。这一结果与使用ECI模块干预跨模态特征的目的一致，旨在在这些特征和答案之间建立更基本的因果关系，从而增强VideoQA和视频时间定位之间的因果一致性。此外，我们对语言和视觉模态的因果模块进行了额外的消融实验，如表9所示。移除视觉因果干预导致性能下降更严重（1.2%），特别是在IoP@0.5指标上。这表明对视觉模态的显式因果干预有效地对齐了因果关系，其有效性在IoP@0.5指标中得到了明显体现。

大语言模型的消融实验：此外，我们使用更先进的大语言模型作为文本模型进行了实验。在FrozenBiLM框架内，用Qwen2.5-1.5B替换DeBERTa-V2-XL，其余组件保持不变。从表10中可以观察到，尽管Acc@QA指标略有增加（0.2），但我们的方法在Acc@GQA和IoP@0.5指标上取得了显著改进。这表明我们的方法有效地专注于捕捉跨模态因果关系，增强了VideoQA任务的因果一致性，而不是依赖虚假相关性来获得表面的性能提升。此外，由于FrozenBiLM采用了从跨模态预训练中微调的权重，而我们的实验仅使用了Qwen2.5的大语言模型版本，预期会存在性能差距。
与IGV使用相同骨干网络的比较：大多数现有工作隐式地进行去混杂，其因果模块的有效性主要使用Acc@VQA指标进行评估。我们的CRA将因果前门干预与有根据的VideoQA任务相结合，使间接训练的时间定位性能能够直接量化因果模块的有效性。此外，虽然IGV基于场景不变性构建因果模型，但与视频剪辑的粗粒度分割和重组相比，我们的CRA通过因果干预实现了更精细的对齐。为了进行公平比较，我们使用与IGV相同的骨干网络进行实验，我们的方法仍然表现出优异的性能，如表11所示。

5. 结论

本文旨在进行跨模态因果关系对齐，以在VideoQG的问答过程中解释有根据的视频片段。我们提出了一种弱监督VideoQG模型，利用现有的VideoQA数据集，并引入跨模态对齐来进一步增强跨模态的特征对齐。此外，我们纳入了显式因果干预模块，以消除虚假的跨模态相关性，从而提高问答与时间定位之间的因果一致性。在NextGQA和STAR数据集上的大量实验证明了我们方法的有效性。有前景的结果，包括高Acc@GQA和IoU@0.5分数，表明我们的CRA实现了稳健可靠的VideoQG性能，有效地定位视觉内容并支持准确的问题推理。