Local-Global Multi-Modal Distillation for Weakly-Supervised Temporal Video Grounding 论文阅读

文章信息:

在这里插入图片描述

发表于 2024AAAI

原文链接:https://ojs.aaai.org/index.php/AAAI/article/view/27831
源码:无

Abstract

本论文首次利用多模态视频进行弱监督的时间视频定位。由于对视频片段进行标注非常费时且主观,弱监督方法近年来受到越来越多的关注。然而,由于监督不足,这些方法本质上可能会影响性能表现。为了解决这一挑战,我们首次关注于利用从多模态视频(如 RGB 帧、光流)中提取的互补信息,在弱监督的背景下引入更丰富的监督。我们的动机是通过整合视频的不同模态,模型可以从协同监督中学习,从而获得更强的泛化能力。然而,处理多个模态不可避免地会增加额外的计算开销,并且在某些特定模态无法访问的情况下可能变得不可行。为了解决这一问题,我们采用了一种新颖的路径:构建一个多模态蒸馏算法,在模型训练过程中利用多模态知识作为监督,同时在推理阶段仍然能够仅使用单一模态输入。这样,我们可以利用多模态的补充性优势,而不影响在实际场景中的适用性。具体来说,我们首先提出了一个跨模态的互学习框架,并训练了一个复杂的教师模型,通过多模态视频协同学习。然后我们从教师模型中识别出两类知识,即时间边界和语义激活图,并设计了一个局部-全局蒸馏算法,将这些知识在局部和全局层面传递给仅有单模态输入的学生模型。在大规模数据集上的广泛实验表明,我们的方法在有/无多模态输入的情况下都达到了最先进的性能。

在这里插入图片描述

图1:1)由于缺乏时间边界标注,弱监督的时序视频定位相比于全监督场景面临着低效的监督问题。2)我们通过利用互补的多模态视频作为辅助监督信号来缓解这一问题。我们提出了一种局部-全局多模态蒸馏算法,在局部和全局层面上,将教师模型的多模态知识转移到单模态学生模型中。

Introduction

给定一个自然语言查询和一个未剪辑的视频,时序视频定位任务(Gao等,2017;Krishna等,2017)旨在根据语言查询在时间上定位视频片段。这是视频理解中最基本的任务之一,并且具有广泛的实际应用场景(Qi等,2021;Bao等,2023;Sreenu和Durai,2019;Zhu等,2021),例如视频定位、视频摘要以及视频监控分析。虽然取得了显著的性能,完全监督的时序视频定位方法(Liu等,2018;Zhang等,2019a,b,2020a;Bao,Zheng和Mu,2021)需要费力的人工标注来确定时序片段的边界。因此,弱监督设置(如图1所示)近年来受到越来越多的关注(Chen等,2020;Tan等,2021;Lin等,2020;Zheng等,2022a,b),在训练过程中只需要配对的视频和自然语言查询。然而,由于现有弱监督方法的标注信息不完整,无法提供充分的监督信号,其定位能力仍不尽如人意,且落后于完全监督的对照方法。

与现有的弱监督学习研究仅考虑视频特征的RGB帧(Gao等,2019;Chen等,2020;Lin等,2020;Tan等,2021;Zheng等,2022a,b)不同,我们着重探索使用视频的不同模态(例如RGB帧、光流、音频)的潜力,这些模态的互补信息可以自然地提升定位准确性。例如,RGB帧特征可以捕捉到有用的外观特征,将句子和视频中的对象和场景对齐,但缺少对运动的显式建模。此外,RGB帧对遮挡和光照条件变化也比较敏感。相比之下,光流特征可以通过更丰富的运动信息来弥补这一点,有助于理解动作,并增强对遮挡和光照变化的鲁棒性。因此,直观上来说,利用视频多模态的协同线索而不仅仅处理RGB帧是有益的。然而,虽然整合多模态可以提高模型的泛化能力和鲁棒性,但也带来了潜在的负面影响。首先,额外引入的模型参数增加了计算成本。其次,使用多模态在方法的实用性上也受到限制,既有计算上的考虑(例如光流的高计算负担(Dosovitskiy等,2015;Lucas和Kanade,1981)),也有数据可用性方面的限制(例如监控视频中常常缺少音频模态)。

为此,我们开发了一种新颖的技术路线,以更有效和灵活地利用多模态数据:1)通过多模态的互补输入训练模型;2)在推理过程中仅使用单模态数据。这样,该方法在保持实用性的同时成功提升了建模能力。如图1所示,我们的想法是首先训练一个复杂的教师模型,通过多模态视频进行协同学习。随后,将该教师模型视为伪标注者,向学生模型提供时间边界的真实标签以及视频和语言之间的潜在语义结构。由于学生模型仅以单模态视频作为输入,因此它维持了计算成本,并在推理时消除了额外的多模态视频。据我们所知,这是首次尝试通过蒸馏多模态知识来缓解弱监督情境下的挑战。相比于在全监督/半监督设置中的传统知识蒸馏(Hinton, Vinyals 和 Dean 2015;Tarvainen 和 Valpola 2017;Qiao 等 2018),我们的情况更加困难,因为在弱监督环境下,由于标注不完整,监督信号不足,这本质上带来了挑战。

具体来说:

  1. 我们首先设计了一个跨模态互学习框架,用于在输入多模态视频的场景下训练教师模型。不同模态源的补充信息被用于明确弥补每个单一模态的错误。
  2. 然后,我们从教师模型中识别出两种知识,即时间边界和语义激活图。我们提出了一种多模态蒸馏算法,将这些知识转移到单模态输入的学生模型。在局部层面,表示视频片段和语言潜在相似性的语义激活图被强制在教师模型和学生模型之间保持一致。在全局层面,教师模型对时间边界的预测被视为伪标签,用来训练学生模型。通过这种方式,学生模型可以利用来自多模态视频的额外知识来处理弱监督信号的问题,同时保持单模态视频作为输入。
  3. 此外,我们还提出了一个局部-全局对比学习算法,用于单模态基线模型。在该算法中,设计了局部和全局层面的对比学习,以对齐语言和视频的语义。即使在训练或推理过程中不使用任何多模态视频,这个单模态基线模型仍然可以超越现有最先进的弱监督方法。

我们的贡献总结如下:

  1. 据我们所知,我们是首个利用多模态视频来缓解弱监督时间视频定位中监督不足问题的研究。我们提出了一种多模态蒸馏算法,在局部和全局层面上将知识传递给单模态学生模型。
  2. 作为附带成果,我们首次探索了使用多模态视频输入的弱监督时间视频定位问题。我们设计了一种互学习算法,以协同学习来自不同模态源的信息,互相补偿,从而减少定位错误。
  3. 我们设计了一个新颖的单模态基线模型,采用局部-全局对比学习,避免在训练或推理中使用多模态视频。
  4. 在两个大规模数据集上的广泛实验表明,无论是否使用多模态输入,我们的方法均达到了最先进的效果。

Related Works

全监督时间视频定位。时间视频定位任务最早由 Gao 等人(2017)提出,旨在根据查询句子确定视频片段的开始和结束时间点。Liu 等人(2018)建议应用注意力机制来突出视觉特征中的关键部分。(Bao、Zheng 和 Mu 2021)开发了一个事件传播网络,用于定位语义相关且在时间上协调的视频片段。尽管这些全监督方法取得了令人瞩目的性能(Mun、Cho 和 Han 2020;Wang、Ma 和 Jiang 2020;Bao 和 Mu 2022;Zhang 等人 2019a,2020a),但它们依赖于对时间边界的劳动力密集型标注。

弱监督时间视频定位。现有的研究(Gao 等人 2019;Zheng 等人 2022a,b;Bao 等人 2024;Chen 等人 2020;Lin 等人 2020;Tan 等人 2021)在弱监督时间视频定位任务中采用视频的 RGB 帧作为输入。早期的研究(Mithun、Paul 和 RoyChowdhury 2019;Tan 等人 2021)使用联合视觉-语义嵌入和文本引导的注意力机制,以避免繁琐的时间边界标注。最近,Zheng 等人(2022a)设计了对比提案学习,以区分同一视频中高度混淆的正负视频片段。不同于仅考虑 RGB 帧的现有工作,我们创新性地利用协同多模态视频作为辅助训练指导,以应对不完整标注的困境。

多模态时间视频定位。唯一使用多模态视频进行时间视频定位的工作是(Chen、Tsai 和 Yang 2021)。他们的动机集中在特征层面:在全监督设置下使用多模态视频增强特征表示。我们强调,在弱监督情境下,我们的动机和公式与他们的工作有显著区别。我们使用多模态的目标在于监督层面,即通过将多模态作为辅助监督来解决监督不足的问题。这个特殊问题是我们弱监督场景独有的,在全监督的对照方法中没有出现。此外,我们的公式与(Chen、Tsai 和 Yang 2021)不同的是,我们仅将多模态视频作为额外监督,而在推理过程中不需要多模态输入。

知识蒸馏。知识蒸馏最早由 Hinton、Vinyals 和 Dean(2015)创新提出,用于将大型、复杂模型所获取的知识转移到较小且更高效的模型中。近年来,知识蒸馏进一步应用于领域适应(Chen 等人,2019)、零样本学习(Nayak 等人,2019)和多模态学习(Gupta、Hoffman 和 Malik,2015;Wang 等人,2020)。与我们的工作最相关的是(Yu、Liu 和 Chan,2021;Garcia、Morerio 和 Murino,2018),他们分别将骨架(Yu、Liu 和 Chan,2021)或深度帧(Garcia、Morerio 和 Murino,2018)的知识转移到 RGB 模态的学生网络中。与他们不同的是,我们专注于时间定位,并且我们识别出的本地和全局语义知识的转移是针对我们任务的特定要求。

Local-Global Multi-Modal Distillation

Method Overview

在这里插入图片描述

图2:局部-全局多模态蒸馏(MMDist)概述。它包括:1)使用局部-全局对比学习的单模态基线模型;2)在局部和全局层面上通过多模态蒸馏算法训练的单模态学生模型;3)通过跨模态互学机制学习的多模态教师模型。深绿色的候选提议代表预测为正的提议。

我们提出的方法——局部-全局多模态蒸馏(MMDist),旨在利用多模态视频进行弱监督的时间视频定位(TVG)。我们的目标不仅是通过多模态输入增强模型,还希望将多模态视频作为辅助监督指导,来训练单模态模型,期望能够缓解监督不足的问题。如图2所示,我们的方法包含三部分:单模态基线、多模态教师模型和单模态学生模型。

  1. 单模态基线模型仅接收单模态视频作为输入。我们提出了局部和全局对比学习,以对齐视频和句子的语义内容,同时考虑局部和全局视角。

  2. 多模态教师模型从视频的多种模态源中协同学习。我们设计了跨模态互学机制,强制不同模态的语义激活图保持一致性。对于视频的每一种模态,我们首先分别计算视频片段和查询句子之间的语义激活图。然后,通过整合其他模态来补偿单一模态的差异,从而提高整体性能并减轻误差。

  3. 单模态学生模型的网络架构设计与基线模型相同,但在训练期间,它接受来自教师模型的额外监督。具体而言,多模态教师模型预测了更准确的时间边界,而在弱监督学习的环境中,这些边界的真实值是未知的。此外,教师模型提供了更好的语义激活图估计,揭示了语言与视频之间的内在语义关系。为此,我们设计了全局层面和局部层面的蒸馏算法,分别鼓励学生模型模仿教师模型在时间边界和语义激活图上的预测。学生模型在训练时接收来自多模态视频的监督信号,而在推理阶段仍然使用单模态视频作为输入。

这里我们强调我们的创新点。

  1. 我们为单模态基线模型设计了局部-全局对比学习。值得注意的是,该基线模型在不涉及多模态视频的情况下,能够在训练和推理阶段超越最先进的方法。
  2. 我们的学生模型是文献中第一个利用多模态视频来应对监督不足问题的模型。我们设计了一种多模态蒸馏算法,在局部和全局范围内提炼多模态知识。
  3. 为教师模型提出了一种新颖的跨模态互学框架,能够互相补偿由单一模态引入的误差。

Contrastive Learning at Local and Global Level

单模态基线模型旨在通过使用单模态视频输入,在训练和测试中定位句子中描述的时间片段。以往的方法要么仅强调整体候选片段与语言之间的语义对齐(Lin等,2020;Zheng等,2022a,b),即从全局角度,要么特别处理视频片段与句子之间的局部相似性(Tan等,2021;Chen等,2020)。然而,局部和全局对齐能够从不同的角度捕捉句子和视频之间的潜在语义结构和关系。它们都有助于后续阶段中的多模态知识转移,从而为接下来的局部和全局蒸馏过程建立了基础框架。为此,我们提出了局部-全局对比学习,旨在同时兼顾局部和全局范围的需求。

Global contrastive learning. 我们的全局对比学习模块类似于CPL网络(Zheng等,2022b),包括一个候选片段生成器和一个句子重构器。我们使用候选片段生成器生成一系列候选片段,这些候选片段由中心和宽度定义为 ( c k , w k ) ({c_k},{w_k}) (ck,wk),其中 k = 1 … K k=1\ldots K k=1K K {K} K 是候选片段的数量。然后,类似于CPL的transformer编码器提取第 k k k 个候选片段的视觉特征为 v k v_k vk,句子特征为 q q q,每个特征向量的维度为 d d d。网络架构的详细信息在此省略,具体可参考(Zheng等,2022b)。接着,我们在句子中随机遮蔽 M M M 个单词 w i m ( i = 1 … W ) w_i^m(i=1\ldots W) wim(i=1W),并强制重构器根据视频片段重构被遮蔽的单词,其中 W W W 代表句子中的单词数量。重构误差公式如下:

在这里插入图片描述

与句子查询在语义上匹配的候选片段被视为正样本片段,而整个视频则被视为负样本。假设正样本片段在遮蔽单词的重构误差上低于负样本片段。我们可以通过启发式地选择重构误差最小的候选片段 k ∗ k^* k 作为正样本片段。

在这里插入图片描述

全局对比学习目标 L g l o b a l B \mathcal{L}_{global}^{\mathcal{B}} LglobalB 被表述为:

在这里插入图片描述

其中,正样本提案与完整视频之间的重建损失通过一个边界 ξ f u l l \xi^{full} ξfull 进行对比, L r e c f u l l \mathcal{L}_{rec}^{full} Lrecfull 表示由完整视频产生的重建损失。

Local contrastive learning.具体而言,我们首先通过应用一系列卷积层和 ReLU 激活函数来增强视频片段特征 V ∈ R L × d V \in \mathbb{R}^{L \times d} VRL×d 的局部信息,从而形成上下文增强的局部特征 V ^ ∈ R L × d \hat{V} \in \mathbb{R}^{L \times d} V^RL×d。这里 L L L 表示视频片段的数量, d d d 是视频特征的通道维度。然后,我们计算语义激活图 m ∈ R L × 1 m \in \mathbb{R}^{L \times 1} mRL×1,该图表示视频片段与句子之间的语义相似度,计算公式为:

在这里插入图片描述

其中, m l m_l ml 表示第 l l l 个视频片段的语义激活图值, q q q 表示句子特征。由于视频是未裁剪的,与查询句子相关的前景特征与不相关的背景元素交织在一起。为了更准确地估计训练批次中第 i i i 个视频和第 j j j 个句子之间的相似度 l i j l^{ij} lij,我们自适应地选择 m l i j m_l^{ij} mlij 的前 L T L_T LT 个值,并取其平均值,公式为:

在这里插入图片描述

其中, m ~ i j \tilde{m}^{ij} m~ij m i j m^{ij} mij 的重新排列版本,按降序排序。局部对比学习鼓励模型最大化正视频-句子对之间的相似度,同时最小化不匹配的负对。为实现这一目标,我们首先计算第 i i i 个视频与第 i i i 个句子匹配的概率 p i p_i pi

在这里插入图片描述

其中, τ \tau τ 是温度超参数, N N N 表示批量大小。然后,我们可以定义局部对比学习的损失函数 L l o c a l B \mathcal{L}_{local}^{\mathcal{B}} LlocalB 为:

在这里插入图片描述

Local-global contrastive learning.局部-全局对比学习的最终目标函数被公式化为
在这里插入图片描述

这共同训练了局部和全局对比学习,其中 α \alpha α 是一个权重超参数,用于平衡 L g l o b a l B \mathcal{L}_{global}^{\mathcal{B}} LglobalB L l o c a l B \mathcal{L}_{local}^{\mathcal{B}} LlocalB。最终,提议 p p p 的起始点和结束点 point ( p s , p e ) \textit{point}\left ( p_s, p_e\right ) point(ps,pe) 从局部/全局对比学习分支中计算得出,公式为:

在这里插入图片描述

其中, γ \gamma γ 是一个权重超参数, m i i m^i_i mii 表示第 i i i 个视频片段与其查询句子的语义激活图,而 r p r_p rp 表示提议 p p p 的重建误差,如公式 (1) 所定义。最终,从候选提议中选择得分最高的提议作为最终预测。

Multi-Modal Distillation at Local and Global Level

假设可以训练一个强大的多模态模型用于弱监督的时间视频定位(详见“跨模态互学习”小节)。由于利用了来自不同模态的附加信息,这个多模态模型在定位精度和泛化能力上优于单模态模型。但它也面临更高的计算复杂度,并依赖于在现实应用中可能无法获得的多种输入模态。为了解决这一问题,我们将多模态模型视为教师模型 T T T,并将其多模态知识转移到单模态学生模型 S S S。这种多模态蒸馏的优越性在于能够利用多模态的监督来训练学生模型,同时保持计算效率,并使用单模态输入。这样的蒸馏范式可以有效地应对弱监督设置中的监督不足问题。我们确定了两种特定于我们任务的多模态知识,即全局层面的时间边界知识和局部层面的语义激活图知识。因此,我们制定了一个由全局层面蒸馏和局部层面蒸馏构成的多模态蒸馏算法,分别转移这两种知识。

Global-level distillation.在弱监督场景中,仅提供视频-句子对用于训练,而真实的时间边界是不可用的。多模态教师模型在全局层面上对时间边界进行预测时具有较高的准确性和鲁棒性。因此,我们将教师模型的预测视为学生模型的伪标签。假设教师模型选择了第 k T k^\text{T} kT 个提议候选作为预测。在单模态基线模型的设计中,我们通常选择具有最小重建损失的提议候选作为潜在的真实提议。然而,由于缺乏足够的训练监督,这种选择通常不准确。因此,对于学生模型,我们明确将教师模型的预测,即第 k T k^\text{T} kT 个提议候选,设置为伪真实值以训练学生模型。全局层面蒸馏损失 L g l o b a l S \mathcal{L}_{global}^{\mathcal{S}} LglobalS 定义为

在这里插入图片描述

其中 s k T s_k^\mathcal{T} skT 是由教师模型评估的第 k k k 个提议候选的预测得分, L g l o b a l \mathcal{L}_{global} Lglobal 是在单模态基线中定义的全局对比学习损失函数。

Local-level distillation。语义激活图 m ∈ R L × 1 m \in \mathbb{R}^{L \times 1} mRL×1 是一种中间输出,用于估计查询句子与每个视频片段在局部级别上的相似度。与全局级别的时间边界知识不同,激活图的局部级别知识提供了对语言和视频之间潜在数据结构和关系的更深刻理解。因此,模仿语义激活图为从教师模型到学生模型转移多模态知识提供了宝贵的指导,从而在没有多模态视频输入的情况下,提高学生模型的泛化能力。为此,我们设计了局部级别蒸馏损失 L l o c a l S \mathcal{L}_{local}^{\mathcal{S}} LlocalS,作为教师模型和学生模型之间语义激活的一致性:

在这里插入图片描述

其中, φ \varphi φ 是激活图的距离函数,如 L 1 L_1 L1 范数或 L 2 L_2 L2 范数。

最终的损失 L S \mathcal{L}^S LS 用于训练单模态学生模型 S \mathcal{S} S,包括蒸馏损失和基线模型的原始损失,表示为:

在这里插入图片描述

其中β是平衡蒸馏损失和基线损失之间的权重的超参数。

Cross-Modal Mutual Learning

这一小节描述了多模态教师模型的跨模态互学算法。教师模型 T \mathcal{T} T 处理多模态视频特征输入,记作 V 1 , V 2 ∈ R L × d V_1, V_2 \in \mathbb{R}^{L \times d} V1,V2RL×d。对于全局对比模块,视频特征的不同模态通过连接的方式进行早期融合。对于局部对比模块,我们首先分别为两个模态生成语义激活图 m 1 , m 2 ∈ R L × 1 m_1, m_2 \in \mathbb{R}^{L \times 1} m1,m2RL×1。教师模型 T \mathcal{T} T 的最终语义激活图 m T m_\mathcal{T} mT 作为两个模态的平均值进行整合:

在这里插入图片描述

注意到不同模态包含互补信息,因此可以相互弥补错误。为了实现不同模态的协同学习,我们设计了一个跨模态互学目标,其中通过整合补充模态来弥补一个模态中产生的差异。具体来说,对于一个模态的语义激活图,我们将另一个模态的语义激活图作为参考。然后,我们强制语义激活图及其参考之间的一致性,公式化为:

在这里插入图片描述

其中, φ \varphi φ 代表两个向量的距离函数,如 L 1 L_1 L1 L 2 L_2 L2 范数, δ \delta δ 表示梯度停止操作。

Experiments

在这里插入图片描述

Conclusion

本文首次利用多模态视频进行弱监督的时序视频定位。首先,我们提出了一个跨模态互学习框架,以协同训练输入多模态视频的教师模型。其次,我们设计了局部和全局层面的蒸馏算法,将教师模型中的知识转移到单模态的学生模型中。此外,我们引入了一个局部-全局对比学习框架作为基线模型,在局部和全局范围内同时对齐视频和语言的语义内容。大量实验结果证明了我们方法在两个广泛使用的数据集上的有效性。

阅读总结

在这里插入图片描述

个人感觉不是很创新的工作。上图中的局部对比损失,最小化负对的距离,从公式7中并没有看到哪里体现了对比,这只有一个正对损失吧。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值