Boosting Weakly-Supervised Temporal Action Localization with Text Information

最新推荐文章于 2024-06-19 23:22:26 发布

七77.

最新推荐文章于 2024-06-19 23:22:26 发布

阅读量676

点赞数 15

文章标签：机器学习深度学习计算机视觉视觉检测

本文链接：https://blog.csdn.net/weixin_46687145/article/details/139778624

版权

标题：利用文本信息增强弱监督时间动作定位

源文链接：https://openaccess.thecvf.com/content/CVPR2023/papers/Li_Boosting_Weakly-Supervised_Temporal_Action_Localization_With_Text_Information_CVPR_2023_paper.pdfhttps://openaccess.thecvf.com/content/CVPR2023/papers/Li_Boosting_Weakly-Supervised_Temporal_Action_Localization_With_Text_Information_CVPR_2023_paper.pdf

源码链接：lgzlIlIlI/Boosting-WTAL (github.com)https://github.com/lgzlIlIlI/Boosting-WTAL

发表：CVPR-2023

摘要

由于缺乏时间标注，当前的弱监督时间动作定位（WTAL）方法通常面临过度完整或不完全定位的问题。在本文中，我们旨在从两个方面利用文本信息来增强WTAL的性能，即（a）通过判别性目标来增大类间差异，从而减少过度完整的情况；（b）通过生成性目标来增强类内完整性，从而找到更完整的时间边界。对于判别性目标，我们提出了一个文本片段挖掘（TSM）机制，该机制基于动作类别标签构建文本描述，并将文本作为查询来挖掘所有与该类别相关的片段。由于动作的时间标注缺失，TSM会将文本查询与整个数据集的视频进行比较，以挖掘出最佳匹配的片段，同时忽略不相关的片段。然而，由于不同类别的视频中可能存在共享的子动作，仅应用TSM可能过于严格而忽略与语义相关的片段，从而导致不完全定位。为了进一步解决这一问题，我们引入了一个名为视频-文本语言补全（VLC）的生成性目标，它专注于从视频中所有与语义相关的片段来补全文本句子。我们在THUMOS14和ActivityNet1.3数据集上取得了最先进的性能。令人惊讶的是，我们还发现我们提出的方法可以无缝地应用于现有方法，并显著提高它们的性能。相关代码已公开在 https://github.com/lgzlIlIlI/Boosting-WTAL。

1. 简介

时间动作定位旨在在未剪辑的视频中时间上定位感兴趣的动作实例。尽管当前的完全监督时间动作定位方法[5, 26, 42, 51]已经取得了显著的进展，但它们需要耗时且劳动密集型的帧级标注。为了减轻标注成本，最近弱监督时间动作定位（WTAL）方法[15, 22, 32, 35]受到了更多关注，这些方法仅需要有效的视频级标注。

在仅有视频级监督的情况下，现有的WTAL方法[15, 22, 35, 45]通常利用视频信息来训练一个分类器，该分类器用于生成一系列类别对数值（logits）或预测，这些预测被称为时间类别激活映射（T-CAM）。尽管已经取得了显著的进步，但当前的方法仍然面临两个问题，即不完整和过度完整的定位。如图1(a)所示，一些辨别度较低的子动作可能会被忽略，而一些对分类有贡献的背景片段可能会被错误地分类为动作，从而导致不完整和过度完整的定位。

与仅利用视频信息的现有方法不同，在本文中，我们旨在从两个方面探索文本信息以改进WTAL：（a）通过判别性目标来增大类间差异，从而减少过度完整的定位；（b）通过生成性目标来增强类内完整性，从而找到更完整的时间边界。对于判别性目标，我们提出了一种文本片段挖掘（TSM）机制，其中动作标签文本可以用作查询来挖掘视频中的所有相关片段。具体来说，我们首先使用提示模板将类别标签信息融入文本查询中，在没有时间标注的情况下，TSM需要将文本查询与数据集中不同视频的所有片段进行比较，如图1(c)所示，在比较过程中，将挖掘出与文本查询最匹配的片段，同时忽略其他不相关的片段，这类似于“匹配滤波器”[43, 50]。通过这种方式，来自所有视频的同类片段和文本查询将被拉近，而将其他不同类的片段推开，从而增强了类间差异。

图1。我们提出的框架与当前WTAL方法的比较。(a)现有WTAL方法的常见失败。(b)现有WTAL模式的管道。(c)提出的文本片段挖掘和视频文本语言补全框架，其中颜色的深度表示片段和文本之间的相关程度。

对于不同类别的视频，存在一些共享的子动作，例如，“接近”这个子动作既存在于“跳高”视频中，也存在于“跳远”视频中。仅仅使用TSM（文本片段挖掘）机制过于严格，可能会忽略语义相关的片段，从而导致定位不完整，例如忽略了“接近”片段。为了克服这个问题，我们进一步引入了一个名为视频-文本语言补全（VLC）的生成性目标，它专注于所有语义相关的片段来补全文本句子。首先，我们为视频的动作标签构建一个描述句子，并掩蔽句子中的关键动作词，如图2所示。然后，我们设计了一个注意力机制来尽可能多地收集语义相关的片段，通过语言重构器来预测被掩蔽的动作文本，从而增强了类内完整性，通过将TSM和VLC结合自监督约束，我们的方法在两个流行的基准测试集THUMOS14 [17]和ActivityNet1.3 [1]上达到了新的最先进性能。此外，我们还发现我们提出的方法可以应用于现有方法，并以明显的优势提升它们的性能。

SM机制的工作原理通常是通过文本查询（如动作标签）来在视频中寻找与查询最匹配的片段。在这个过程中，TSM会尝试找到与查询文本语义上最接近的片段。然而，由于“接近”这样的子动作在多个类别的视频中都是共享的，因此它们在语义上可能与多个类别的动作标签都有一定的相关性。

问题出现在于，TSM机制往往专注于找到与特定类别动作标签最直接、最紧密相关的片段，即那些最能代表该类别核心特征的片段。在这个过程中，一些虽然与动作相关但并非核心特征的片段，如“接近”片段，可能会被忽视或权重降低。这是因为TSM机制的设计目标是最小化类内差异并最大化类间差异，以便更好地区分不同类别的动作。

图2. 所提出框架的说明。在这项工作中，文本片段挖掘目标使用动作标签文本作为查询，在视频中挖掘语义相关的片段以实现动作定位。此外，语言补全目标旨在尽可能全面地关注视频中与动作标签文本相关的区域，以补全被掩蔽的关键词，并以自监督的方式缓解匹配策略过度关注最相关片段而导致的定位错误。

我们的贡献可以总结为以下三个方面：（a）据我们所知，我们是第一个利用文本信息来提升WTAL（弱监督时序动作定位）的研究。我们还证明了我们的方法可以很容易地扩展到现有的最先进方法，并提升它们的性能。（b）为了利用文本信息，我们设计了两个目标：判别性目标用于增大类间差异，从而减少过度完整的定位；生成性目标用于增强类内完整性，从而找到更完整的时间边界。（c）广泛的实验表明，我们的方法在两个公开数据集上优于当前方法，全面的消融研究揭示了所提出目标的有效性。

2. 相关工作

弱监督时序动作定位（Weakly Supervised Temporal Action Localization, WTAL）仅需要视频级别的标签。由于缺乏精确的边界标签，大多数先进的WTAL方法[15, 16, 29, 35]都采用了通过分类进行定位的流程来处理WTAL任务。基于擦除的方法[29, 40, 48, 54]精心设计了对抗性擦除策略，通过擦除最具判别性的区域来找到许多不太具有判别性的区域。基于度量学习的方法[12, 30, 33, 35]采用中心损失或三元组损失来减少类内差异并增加类间差异。此外，基于背景片段抑制的方法[16, 22, 23]通过设置额外的背景类别来学习背景抑制权重，旨在将动作片段与背景片段分离。一些基于伪标签的方法[15, 28, 49]利用视频信息生成伪标签，以提高T-CAMs（时间类激活映射）的质量。另外，Lee等人[21]使用了视频中的音频作为辅助信息。现有方法可以采用上述策略中的一种或多种来提高T-CAM的质量和定位性能。然而，尽管这些方法取得了成功，但它们仅利用了视频信息，而没有充分利用文本形式类别标签中蕴含的语义信息。在本文中，我们设计了一个新颖的框架，包含两个目标，即文本片段挖掘和视频-文本语言补全，以利用动作标签文本信息来提升WTAL。

自监督学习。自监督学习利用未标记的数据来使模型从数据中学习内在信息。目前，已经提出了几种方法来利用自监督学习策略，在缺乏完整标注数据的情况下学习更好的表示。例如，Gong等人[8]提出了自监督等变变换一致性约束来实现自监督动作定位。TSCN[49]和UGCT[47]利用RGB和光流视频特征进行交叉监督，以提高WTAL（弱监督时序动作定位）的性能。Su等人[41]利用时间多分辨率信息生成伪标签，以进行更好的表示学习。VLC（视频文本语言补全）模型倾向于关注与动作文本相关的所有视频片段，以实现文本完整性，这可以用来缓解TSM（文本-片段挖掘）对重要片段的过度关注。在本文中，我们利用标签文本信息来构建VLC模型，并在TSM和VLC模型之间设计了一个自监督约束，以实现更完整的定位结果。

视觉-语言模型。近年来，一系列关于视觉和语言交互的工作在过去几年中吸引了越来越多的关注，如视觉语言预训练[18, 38]、视频字幕生成[44]、视频定位[6, 31, 52]、视频问答[24]等。然而，在WTAL（弱监督时序动作定位）任务中，如何充分利用动作标签文本中蕴含的信息尚未被探索。在本文中，我们设计了一个新颖的框架来探索利用动作标签的文本信息来提升WTAL任务。通过将判别性目标TSM（文本-片段挖掘）和生成性目标VLC（视频文本语言补全）相结合，所提出的框架实现了间接使用文本信息来提升WTAL任务。

3. 提出的方法

3.1. 整体架构

问题阐述。在弱监督时序动作定位（WTAL）任务中，我们得到一组N个未修剪的视频，定义为 $\{V_{j}\}_{j=1}^{N}$ ，并且所有这些视频都带有相应的视频级动作类别标签 $\{\mathbf{y}_j\}_{j=1}^N$ 。通常，标签yj被离散化为一个二进制向量，指示每个动作类别在视频vj中的存在/缺失。每个视频V包含一组片段： $V=\{v_{t}\}_{t=1}^{\mathcal{T}}$ ，其中T是视频中的片段数量。通常，T个片段被输入到一个预训练的3D卷积神经网络（CNN）模型[2]中，以提取RGB特征Xr ∈ RT×1024和光流视频特征Xf ∈ RT×1024。在推理过程中，我们为输入视频预测一系列动作{ci,si,ei,confi}，其中ci是动作类别，si和ei分别代表开始和结束时间，而confi是置信度分数。

概述。所提出的整体框架如图2所示，该框架从两个方面利用动作标签的文本信息来提升弱监督时序动作定位（WTAL）的性能，即文本-片段挖掘（TSM）和视频-文本语言补全（VLC）。对于第3.2节中的TSM，首先将RGB和Flow视频特征Xr和Xf输入到一个由卷积层组成的视频嵌入模块，以生成视频特征嵌入。其次，我们通过提示模板为动作标签构建文本描述，并通过文本编码器根据描述生成文本查询。然后，在视频-文本匹配模块中，TSM将文本查询与视频的所有片段进行比较，以生成查询响应来挖掘与文本语义相关的视频片段。此外，我们为每个视频片段生成注意力权重，以进一步抑制背景片段对文本查询的响应。对于第3.3节中的VLC，首先将提取的视频特征Xr和Xf输入到一个全连接层，以获得视频特征嵌入。随后，我们为视频的动作标签构建描述句子并屏蔽句子中的关键动作词。然后，设计了一个注意力机制来收集与文本语义相关的片段，通过语言重构器预测被屏蔽的动作词。最后，在第3.4节中，我们通过在TSM和VLC的注意力之间施加自监督约束来结合它们，以获得更准确和完整的定位结果。

3.2. 文本-片段挖掘（Text-Segment Mining）

在本节中，我们介绍了文本-片段挖掘目标（TSM），以充分利用动作标签文本中包含的信息。具体来说，TSM包括一个视频嵌入模块、一个文本嵌入模块和一个视频-文本特征匹配模块。

视频嵌入模块。与其他WTAL模型类似，视频嵌入模块由两个一维卷积层组成，后面跟着ReLU和Dropout层。我们使用与[11]类似的策略来融合RGB和Flow特征，以获得视频特征X ∈ RT×2048作为视频嵌入模块的输入。然后，通过Xe = emb(X)可以得到对应的视频特征嵌入Xe ∈ RT×2048，其中emb(·)表示视频嵌入模块。此外，根据之前的工作[11, 16]，我们使用了一个注意力机制来为每个视频Vj生成注意力权重：

$\mathrm{att}_m=\sigma(\mathcal{A}(\mathbf{X})),\quad(1)$

其中A(·)是由多个卷积层组成的注意力机制，σ(·)表示sigmoid函数。

文本嵌入模块。文本嵌入模块的目的是使用动作标签文本来生成一系列查询，以便在视频中挖掘与类别文本相关的片段。我们为C个动作标签文本类别采用特定类别的可学习提示，以形成文本嵌入模块的输入Lq：

$\mathbf{L}_q=[\mathbf{L}_s;\mathbf{L}_p;\mathbf{L}_e],\quad(2)$

其中Ls表示随机初始化的[START]标记，Lp表示长度为Np的可学习文本上下文，Le表示通过GloVe[36]嵌入的动作标签文本特征。此外，第C+1个额外的背景类别嵌入被初始化为零。

然后，一个Transformer编码器trans(·)被用作文本嵌入模块来生成文本查询。具体来说，类别文本查询Xq可以通过Xq = trans(Lq)获得，其中Xq是一个(C+1)×2048的实数矩阵。这意味着对于C个动作类别加上一个额外的背景类别，我们得到了一个具有2048个特征的文本查询矩阵。

视频-文本特征匹配。视频-文本特征匹配模块用于匹配语义相关的文本查询和视频片段特征。

具体来说，我们在视频嵌入特征Xe和文本查询Xq之间进行内积运算，以生成片段级别的视频-文本相似度矩阵S ∈ RT×(C+1)。

此外，遵循基于背景抑制的方法[11,16,22]，我们也应用注意力权重attm来抑制背景片段对动作文本的响应。通过 $\mathbf{\bar{S}}=\mathrm{att}_{m}*\mathbf{S}$ ，我们可以得到背景抑制后的片段级别匹配结果¯S ∈ RT×(C+1)，其中'*'在本文中表示逐元素相乘。

最后，类似于当前的方法[30, 35]，我们也使用top-k多实例学习来计算匹配损失。具体来说，我们计算同一个视频的不同片段对应于特定文本查询类别的时间维度上的top-k相似度的平均值，作为视频级别的视频-文本相似度。

对于第j个动作类别，视频级别的相似度vj和 $\overline{v}_j$ 分别从S和 $\overline{S}$ 生成，如下所示：

$\mathbf{v}_{j}=\max_{l\subset\{1,\ldots,T\}}\frac{1}{k}\sum_{i\in l}\mathbf{S}_{i}(j),\quad\bar{\mathbf{v}}_{j}=\max_{l\subset\{1,\ldots,T\}}\frac{1}{k}\sum_{i\in l}\bar{\mathbf{S}}_{i}(j),(3)$

其中，l是一个集合，包含与第j个文本查询相似度最高的前k个片段的索引，k是所选片段的数量,片段级别的视频-文本相似度矩阵S ,背景抑制后的片段级别匹配结果¯S。然后，我们对vj和¯vj应用softmax函数来生成视频级别的相似度得分pj和 $\overline{p}_j$ 。

我们鼓励视频-文本类别匹配的正分数接近1，而负分数接近0，以训练TSM（Temporal Segment Matching，时间片段匹配）目标函数，

$\mathcal{L}_{mil}=-(\sum_{j=1}^{C+1}\mathbf{y}_{j}\log{(\mathbf{p}_{j})}+\sum_{j=1}^{C+1}\hat{\mathbf{y}}_{j}\log{(\hat{\mathbf{p}}_{j})}),\quad(4)$

其中 $y_j$ 和 $\hat{y}_j$ 是视频-文本匹配的标签。此外，在 $\hat{y}_j$ 中，额外的第C+1个背景类别的标签是0，而在 $y_j$ 中是1。

此外，在这项工作中，我们遵循[11, 16]的研究，还采用了协同活动损失（coactivity loss）[30, 35]、归一化损失（normalization loss）[22, 23]和引导损失（guide loss）[11, 16]来训练TSM模型。由于这些并不是本工作的主要贡献，因此我们在本文中不对它们进行详细阐述。

3.3. 视频文本语言补全（Video-Text Language Completion）

视频文本语言补全（VLC）的目标是通过尽可能全面地关注与文本相关的视频片段，来补全视频描述中被掩码的关键词。提出的VLC还包含一个视频嵌入模块和一个文本嵌入模块。此外，还使用了一个transformer重构器来进行多模态交互和原始文本描述的补全。

视频嵌入模块。给定在3.2节中描述的原始视频特征X ∈ RT×2048，我们可以通过VLC模块中的一个全连接层获得对应的视频特征嵌入Xv ∈ RT×512。

为了挖掘与文本语义相关的视频的正向区域，所提出的补全模型特别设计了一种与3.2节相同结构的注意力机制。VLC的注意力权重attr ∈ RT×1可以通过以下方式获得：

$\text{att}_r=\sigma(\mathcal{A}(\mathbf{X})),\quad(5)$

其中A(·)是由多个卷积层组成的注意力机制，σ(·)代表sigmoid函数。

文本嵌入模块。WTAL任务的数据集仅提供动作视频和它们的动作标签，但并不包含描述相应视频的任何句子。因此，我们首先使用提示模板“a video of [CLS]”和动作标签文本来为视频构造一个描述句子。然后，我们掩蔽描述句子中的关键动作词，并使用GloVe[36]和一个全连接层来嵌入掩蔽后的句子，从而得到句子特征嵌入 ˆXs ∈ RM×512，其中M是句子的长度。

transformer重构器。在视频文本语言补全模型中，使用了一个转换器重构器来补全被掩蔽的描述句子。首先，根据[27]，我们随机掩蔽句子中的1/3的单词作为备选描述句子，这可能会导致以高概率掩蔽动作标签文本。然后，使用转换器的编码器来获取显著的视频特征F ∈ RT×512，通过以下方式：

$\mathbf{F}=E(\mathbf{X}_v,\mathbf{att}_r)=\delta(\frac{\mathbf{X}_v\mathbf{W}_q(\mathbf{X}_v\mathbf{W}_k)^T}{\sqrt{D_h}}*\mathbf{att}_r)\mathbf{X}_v\mathbf{W}_v,\quad(6)$

其中E(·, ·)表示转换器编码器，δ(·)表示softmax函数，Wq,Wk,Wv ∈ R512×512是可学习参数，Dh = 512是Xv的特征维度。

转换器的解码器用于获取多模态表示H ∈ RM×512来重构被掩蔽的句子：

$\begin{aligned}\mathbf{H}&=D(\hat{\mathbf{X}}_{s},\mathbf{F},\mathbf{att}_{r})\\&&\text{(7)}\\&=\delta(\frac{\hat{\mathbf{X}}_s\mathbf{W}_{qd}(\mathbf{F}\mathbf{W}_{kd})^T}{\sqrt{D_h}}*\mathbf{att}_r)\mathbf{FW}_{vd},\end{aligned}$

其中D(·, ·, ·)表示转换器解码器，Wqd,Wkd,Wvd ∈ R512×512是可学习参数。

最后，词汇表中第i个词wi的概率分布 $\mathrm{P}\in\mathbb{R}^{M\times N_v}$ 可以通过以下方式获得：

$\mathbf{P}(w_i|\mathbf{X}_v,\mathbf{\hat{X}}_{s[0:i-1]})=\delta(FC(\mathbf{H})),\quad(8)$

其中FC(·)表示全连接层，δ(·)表示softmax函数，Nv是词汇表的大小。最终的VLC损失函数可以表示为：

$\mathcal{L}_{rec}=-\sum_{i=1}^{M}\log\mathbf{P}(w_{i}|\mathbf{X}_{v},\mathbf{\hat{X}}_{txt[0:i-1]})).\quad(9)$

其中M为每个句子的词长度。

为了进一步提高与文本语义相关的视频的正向区域挖掘，我们在补全模型中还采用了对比损失[53]。具体来说，通过注意力权重attr挖掘的正向区域应该比整个视频与句子更兼容，而那些通过1 - attr挖掘的负向区域则不然。因此，根据等式6-9，我们可以得到补全损失 $L_{rec}^e$ 和 $L_{rec}^n$ ，其中在转换器中使用的注意力权重attr分别被替换为1和1 - attr。最后，对比损失Lc可以表示为：

$\mathcal{L}_{c}=\max(\mathcal{L}_{rec}-\mathcal{L}_{rec}^{e}+\gamma_{1},0)+\max(\mathcal{L}_{rec}-\mathcal{L}_{rec}^{n}+\gamma_{2},0),(10)$

其中γ1和γ2是超参数。

就是说，基于实际注意力权重计算的损失要比，关注整个视频、关注实际注意力中权重小的片段，小。

3.4. 自监督一致性约束

在TSM（文本-视频匹配）中使用的匹配策略倾向于关注与文本更匹配的视频片段，同时排除其他与文本无关的片段，因为这些片段可能导致定位错误。另一方面，VLC（视频描述补全）倾向于关注所有与动作文本相关的视频片段以实现描述的完整性。因此，我们在这两个目标（即判别性目标TSM和生成性目标VLC）的注意力之间施加自我监督约束，以减轻TSM对语义最相关片段的过度关注。一致性约束损失 Lcon 可以通过以下公式获得：

$\mathcal{L}_{con}=MSE(\mathbf{att}_{m},\psi(\mathbf{att}_{r}))+MSE(\mathbf{att}_{r},\psi(\mathbf{att}_{m})),(11)$

其中，ψ(·) 表示一个函数，它截断输入的梯度，MSE(·, ·) 表示均方误差损失。

TSM（Text-Specific Matching，文本特定匹配）：这个方法倾向于关注与文本描述匹配度更高的视频片段，同时排除与文本无关的其他片段，因为这些片段可能导致定位错误。
VLC（Video-Language Completion，视频语言完成）：这个方法倾向于关注所有与动作文本相关的视频片段，以实现描述的完整性

MSE(·, ·) 表示均方误差损失（Mean Squared Error loss），用于衡量两个注意力分布之间的差异。
ψ(·) 是一个函数，用于截断输入的梯度。这意味着在反向传播过程中，该函数会阻止梯度通过它传播，从而允许两个注意力分布（attm 和 attr）在一定程度上独立训练，同时又保持一致性。

一致性约束损失的作用是确保由TSM和VLC训练的注意力分布能够关注到视频中的相同动作区域。通过这种方式，可以减少由于TSM对最相关片段的过度关注而引起的定位错误。

此外，由于注意力机制的使用，动作标签文本的信息可以间接地从视频-文本语言完成模型（VLC）传递到弱监督文本动作定位（WTAL）模型（TSM）。这有助于两个模型之间的信息共享和互补，从而提高整体性能。

一致性约束损失可以鼓励由TSM（文本-视频匹配）训练的attm和由VLC（视频描述完成）训练的attr在视频内部关注相同的动作区域。通过这种方式，由于匹配策略过度关注最相关片段而导致的定位错误可以得到缓解。此外，动作标签文本的信息可以通过注意力机制间接地从视频-文本语言补全模型传输到WTAL（弱监督时序动作定位）模型中。

3.5. 模型训练与推理

优化过程。考虑到前面提到的所有目标，我们整个框架的最终目标函数为：

$\mathcal{L}=\mathcal{L}_{mil}+\alpha\mathcal{L}_{rec}+\beta\mathcal{L}_{c}+\lambda\mathcal{L}_{con},\quad(12)$

其中α, β, λ是用于平衡这四个损失项的超参数。

模型推断。在测试阶段，我们遵循[11, 16]中的过程。首先，我们选择那些视频级别类别分数超过阈值的类别来生成候选提案。然后，对于选定的动作类别，我们通过阈值化注意力权重并选择剩余片段的连续部分来获取与类别无关的动作提案。得到的第 (i) 个候选动作提案可以表示为 $\{c_{i},s_{i},e_{i},conf_{i}\}$ 。对于置信度分数 $\text{conf}_i$ ，我们遵循AutoLoc[39]的方法，通过 $\bar{S}$ 计算每个动作提案的外内分数。最后，我们使用软非极大值抑制（soft non-maximum suppression）来去除重叠的提案。

1. 选择类别分数高于阈值的类别

在视频分析或动作识别中，模型通常会对视频进行全局分类，为每个可能的类别（如“跑步”、“跳跃”等）分配一个分数。这个分数表示模型认为视频属于该类别的可能性。设置一个阈值是为了筛选出那些模型认为最有可能出现在视频中的类别。

2. 生成类无关的动作提案

对于每个选定的类别，模型会进一步分析视频以找出可能包含该类动作的时间段（即提案）。这些提案是视频中的一系列连续帧，可能包含动作但尚未被明确分类。这些提案是类无关的，意味着它们不特定于任何一个类别，只是潜在的动作发生时间。

模型通过分析视频的注意力权重（或其他类似机制）来找出这些提案。注意力权重可以指示视频中的哪些部分对于特定动作类别是重要的。通过设置一个阈值并选择连续的高权重部分，可以生成这些提案。

3. 表示动作提案

每个生成的提案都用一个四元组来表示：{ci, si, ei, confi}。

ci 是提案的索引或ID。
si 是提案的起始时间（或帧）。
ei 是提案的结束时间（或帧）。
confi 是提案的置信度分数，表示该提案包含有效动作的可能性。

4. 计算置信度分数

置信度分数 confi 的计算可能涉及多种因素。在这里，提到了使用 AutoLoc 方法来计算每个提案的“外内分数”。这通常是一个结合了提案内部（动作实际发生的地方）和外部（提案的边界或周围区域）信息的分数。这个分数用于评估提案的质量和准确性。

5. 使用软非极大值抑制去除重叠提案

当生成多个提案时，它们之间可能会有重叠，即它们表示的是视频中的相同或相似动作。为了去除这些冗余的提案，通常会使用非极大值抑制（NMS）技术。软非极大值抑制是一种更温和的版本，它不会完全移除重叠的提案，而是降低它们的置信度分数，从而在后续的处理中给予它们较低的优先级。

4. 实验

4.1. 数据集

THUMOS14 数据集。THUMOS14 [17] 数据集包含 200 个验证视频和 213 个测试视频。该数据集共有 20 个类别，每个视频平均有 15.5 个动作。我们遵循与 [14, 33-35] 相同的设置，使用 200 个验证视频进行训练，213 个测试视频进行测试。

ActivityNet 数据集。ActivityNet [1] 数据集为时序动作定位提供了一个更大的基准。它包含 10,024 个训练视频，4,926 个验证视频和 5,044 个测试视频，共有 200 个动作类别。我们遵循 [13-15, 47] 中的实验设置，使用所有训练视频来训练我们的模型，并在所有测试视频上评估我们提出的方法。

4.2. 实现细节

评估指标。我们使用平均精度（mAP）来评估提出的动作定位方法。如果预测提案的动作类别被正确预测，并且与真实标记片段（基于IoU阈值）显著重叠，则认为该预测是正确的。我们使用ActivityNet的官方评估代码来评估我们的方法[1]。

特征提取器。遵循先前的工作[4,30,33,35]，我们使用TV-L1算法[46]生成光流图，并使用在Kinetics数据集[19]上预训练的I3D网络[2]来提取RGB和光流特征，而无需微调。

训练设置。在THUMOS14数据集上，我们使用Adam优化器[20]，学习率设置为0.0005，权重衰减为0.001，对我们的模型进行优化，大约迭代5,000次。对于ActivityNet1.3，学习率设置为0.00003，以优化我们的模型，大约迭代50,000次。在Lc中的超参数方面，我们设置γ1为0.1，γ2为0.2。此外，对于超参数α，β，λ，我们在THUMOS14上分别设置为1.0, 1.0, 1.5，在ActivityNet1.3上分别设置为1.0, 1.0, 0.25。我们的模型使用PyTorch 1.8实现，并在Ubuntu 18.04平台下进行训练。超参数敏感性分析可以在补充材料中找到。

4.3. 与最先进技术的比较

在本节中，我们将所提出的方法与最先进的弱监督方法进行了比较。结果如表1和表2所示。对于THUMOS14数据集，所提出的框架显然优于当前最先进的WTAL方法，特别是在高IoU实验设置中。在重要的标准上：平均mAP（0.3:0.7），我们超过了最先进的方法[15]1.3%，甚至超过了一些全监督方法。对于更大的ActivityNet1.3数据集，我们的方法仍然比现有的最先进的弱监督方法[15]平均提高了1.0%的mAP。

4.4. 消融研究

每个组件的有效性。所提出的框架主要包含三个组成部分：（1）文本片段挖掘（TSM）模块，用于替代仅使用视频信息的现有WTAL模型；（2）额外的视频-文本语言互补（VLC）用于以自监督的方式约束WTAL模型，表示为Lrec + Lcon；（3）视频-文本语言互补模型中的对比损失，表示为Lc。为了验证所提出框架中每个组件的有效性，我们在表3中进行了全面的消融研究以分析不同的组件。具体来说，我们实现了所提方法的四个变体，如下所示：（1）“基线”：在TSM中使用卷积层作为分类器，而不是视频-文本匹配，并且仅使用视频信息来训练WTAL模型；（2）“基线 + Lrec + Lcon”：使用额外的视频文本语言互补（VLC）以自监督的方式约束基线WTAL模型；（3）“基线 + Lrec + Lcon + Lc”：在视频-文本语言互补模型中使用对比损失；（4）“TSM + Lrec + Lcon + Lc”：最终框架，在（3）的基础上，用所提出的TSM替换基线WTAL模型。

通过比较“TSM + Lrec + Lcon + Lc”和“Baseline + Lrec + Lcon + Lc”这两种方法的性能，我们可以得出结论，文本片段挖掘（TSM）比仅使用卷积分类器而没有动作标签文本信息的常规WTAL模型表现更好，在THUMOS14数据集上带来了约0.9%的性能提升。当我们逐步去除对比损失Lc和额外的视频-文本语言互补模型Lrec+Lcon时，所有实验设置下的性能都会逐渐下降。具体来说，通过比较“Baseline + Lrec + Lcon”与“Baseline”这两种方法，我们可以得出结论，所提出的视频-文本语言模型可以通过自监督的方式约束WTAL模型，并间接地将文本信息传递给WTAL模型，在THUMOS14数据集上带来了约1.0%的mAP性能提升。此外，通过比较“Baseline + Lrec + Lcon + Lc”与“Baseline + Lrec + Lcon”这两种方法，我们也可以验证VLC中对比损失的有效性。

此外，我们在THUMOS14数据集上评估了帧级分类结果。与基线方法相比，使用TSM模型后，误报率（FPR）从26.0%下降到23.8%，而使用VLC模型后，误检率（FNR）从28.0%下降到26.9%。这表明TSM可以有效地缓解将背景片段错误分类为真实动作的问题，从而有效地缓解过完整问题；而VLC可以有效地缓解将真实动作片段错误分类为背景的问题，从而有效地缓解不完整问题。

在文本片段挖掘模型中，我们对不同的提示进行了比较。在表4中，我们比较了手工提示“a video of [CLS]”和可学习提示对文本片段挖掘模型的效果。与文本片段挖掘模型中的手工提示相比，可学习提示取得了更好的性能。这是因为，通过使其可学习，文本上下文可以通过反向传播直接优化上下文，从而在下游的视频-文本匹配任务中获得更好的可转移性。

与不同类型的一致性约束损失的比较。我们还评估了不同类型一致性约束的效果。具体来说，我们在VLC和TSM模型上以不同的方式实现了五种约束变体：（1）“w/o Lcon”：不使用VLC模型，仅使用TSM作为基线；（2）“Share”：不使用Lcon，但VLC和TSM共享注意力模块的参数；（3）“KL”：使用Kullback-Leibler散度[37]作为损失函数Lcon；（4）“MAE”：使用平均绝对误差作为损失Lcon；（5）“MSE”：使用均方误差作为损失Lcon。

表5的结果表明，使用额外的视频文本补全模型来约束WTAL模型可以有效地提高定位性能，使用MSE作为一致性约束损失更为合适。

在视频-文本语言补全模型中，我们比较了使用不同类型的语言重构器来生成补全模型中动作描述的性能影响。为了验证额外的视频-文本语言互补模型的有效性，我们比较了不同类型的语言重构器对定位结果的影响。具体来说，我们在表6中比较了三种不同的重构器：Transformer、GRU[3]和LSTM[10]。此外，“w/o”表示仅使用TSM模型。如表6所示，我们可以得出结论，无论使用哪种语言重构器，视频-文本语言互补模型都能通过对TSM施加自监督约束来提高所提出框架的性能。此外，我们可以得出结论，Transformer结构更适合在我们的框架中用作语言重构器。

文本补全模型中不同提示模板生成的动作描述的比较。我们比较了文本补全模型中不同提示模板生成的动作描述对性能的影响，见表7。所有类型的提示模板的结果都可以优于现有的最先进的结果，如表1所示。这些结果表明，有必要使用视频文本语言补全模型来约束WTAL模型。

将我们的框架集成到现有的方法中。该方法可以很容易地扩展到现有的WTAL模型，并提高其性能。为了验证所提框架的可扩展性，我们设计了三组实验，将所提框架扩展到现有方法中:(1)“+TSM”:使用所提的TSM取代现有WTAL模型的卷积分类器;(2)“+VLC”:使用附加的VLC模型以自监督的方式约束WTAL模型;(3)“+TSM+VLC”:将我们框架的所有组件扩展到现有的WTAL模型。如表8所示，我们可以清楚地得出结论，所提出的TSM和VLC都可以极大地提高现有两种方法的性能，验证了利用动作标签文本信息扩展WTAL模型的有效性。

4.5. 定性分析

我们在图3中可视化了检测到的操作实例的一些示例。对于每个例子，上面一行代表视频的片段，下面四行依次是视频中动作的基本真相，基线模型生成的定位结果，文本片段挖掘生成的定位结果，以及我们最终框架生成的定位结果。从图中可以看出，将类别标注中的文本信息通过直接和间接的方式引入到WTAL模型中，有助于生成更准确的定位结果，并在一定程度上抑制背景片段的响应。

5. 结论

我们介绍了一种新的框架，利用文本信息从文本片段挖掘和视频-文本语言补全两个方面提升弱监督时序动作定位（WTAL）的性能。在文本信息的帮助下，所提出的方法可以专注于视频中的与动作类别相关的区域，并提高WTAL任务的性能。广泛的实验表明，所提出的方法在两个流行的数据集上均达到了最先进的性能，并且所提出的两个目标都可以直接扩展到现有的WTAL方法中以改进它们的性能。

局限性。这项工作的一个主要限制是，我们必须同时训练文本片段挖掘和视频-文本语言补全模型，导致模型大小是原始大小的两倍。在未来，我们将探索更有效的方式来充分利用标签中的文本信息来提升WTAL的性能。

读后总结

出发点：弱监督时间动作定位（WTAL）存在过度完整或不完全定位的问题，作者提出使用文本信息来增强WTAL的性能。

创新点1：提出文本-片段挖掘（TSM），通过视频级别的类别标签生成文本描述，再通过文本描述特征嵌入与视频特征嵌入进行视频文本配对得到视频文本相似度矩阵，进而应用softmax函数来生成视频级别的相似度得分pj；另一条支路通过注意力机制得到注意力权重（更加关注重要部分，而抑制背景片段对动作文本的响应），将注意力权重与相似度矩阵相乘，再通过应用softmax函数来生成背景抑制后的视频级别的相似度得分 $\overline{p}_j$ ，最后通过pj和 $\overline{p}_j$ 进行损失计算。

创新点2：提出视频文本语言补全（VLC），通过随机掩蔽1/3视频标签描述句子，以更大概率掩蔽句子中的动词，以注意力机制得到的注意力权重、全连接层得到的视频特征嵌入和掩蔽后的文本描述特征嵌入作为输入，通过transformer重构器来实现对掩蔽后的文本描述进行补全（使用视频中相关的片段对掩码动词进行补全，以解决文本-片段挖掘中存在将不同类别的相似子动作进行弱化或者说忽视的问题）。

创新点3：提出自监督一致性约束，在TSM中更加关注和文本更加匹配的视频片段，同时排斥与文本无关的片段，在VLC中更加关注与动作文本相关的视频片段来实现描述的完整性，作者提出通过在这两个模块的注意力机制部分施加自监督一致性约束，让两个模块在视频内部关注相同的动作区域，同时，还能将VLC的动作文本标签信息间接传递到TSM中。

七77.

关注

15
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
Boosting Weakly-Supervised Temporal Action Localization with Text Information

由于缺乏时间标注，当前的弱监督时间动作定位（WTAL）方法通常面临过度完整或不完全定位的问题。在本文中，我们旨在从两个方面利用文本信息来增强WTAL的性能，即（a）通过判别性目标来增大类间差异，从而减少过度完整的情况；（b）通过生成性目标来增强类内完整性，从而找到更完整的时间边界。对于判别性目标，我们提出了一个文本片段挖掘（TSM）机制，该机制基于动作类别标签构建文本描述，并将文本作为查询来挖掘所有与该类别相关的片段。
复制链接

扫一扫