HyRSM++: Hybrid relation guided temporal set matching for few-shot action recognition

标题: HyRSM++:用于少样本动作识别的混合关系引导的时间集匹配

原文链接:HyRSM++: Hybrid relation guided temporal set matching for few-shot action recognition (sciencedirectassets.com)

源码:GitHub - alibaba-mmai-research/HyRSMPlusPlus: Code for our paper "HyRSM++: Hybrid Relation Guided Temporal Set Matching for Few-shot Action Recognition".

发表:Pattern Recognition(中科院1区)

目录

摘要

1.介绍

2.相关工作

3. 方法

3.1. 问题阐述

3.2. HyRSM++

3.3. HyRSM++的拓展应用

3.3.1. 半监督式少样本动作识别

3.3.2. 无监督少样本动作识别

4.实验

4.1. 数据集和实验设置

4.2. 与最新技术的比较

4.3. 消融实验

4.4. 与其他匹配方法的比较

4.5. 时间相干方式的比较

4.6. 局限性

4.7. 可视化结果

5. 扩展到半监督少样本动作识别

6. 扩展到无监督的少样本动作识别

7. 结论

读后总结


摘要

少样本动作识别是一个具有挑战性但又实用的问题,旨在学习一个模型,仅需少量已标记的样本,可以轻松适应识别新的动作类别。然而,现有的尝试仍然存在两个缺点:(i) 学习个体特征而不考虑整个任务可能导致表示能力受限,以及 (ii) 现有的对齐策略对噪声和不对齐的实例敏感。为了解决这两个限制,我们提出了一种新颖的 "混合关系引导的时间集匹配 (HyRSM++)" 方法来进行少样本动作识别HyRSM++ 的核心思想是整合任务中的所有视频,学习判别性表示,并采用强大的匹配技术。具体来说,HyRSM++ 包括两个关键组件,即混合关系模块时间集匹配度量。给定来自特征提取器的基本表示,我们引入混合关系模块以充分利用数据中视频内部和跨视频之间的相关关系,从而学习任务特定的嵌入。随后,在时间集匹配度量中,我们从集合匹配的角度对查询和支持视频之间进行距离度量,并设计了一个双向平均豪斯多夫(Mean Hausdorff)度量来提高对不对齐实例的鲁棒性。此外,我们将所提出的 HyRSM++ 扩展到处理更具挑战性的半监督少样本动作识别和无监督少样本动作识别任务。在多个基准测试上的实验结果表明,我们的方法始终优于现有方法,并在各种少样本设置下实现了最先进的性能。源代码可在 https://github.com/alibaba-mmai-research/HyRSMPlusPlus 获取。

Keywords:Few-shot action recognition、Set matching、Semi-supervised few-shot action recognition、Unsupervised few-shot action recognition

关键词:少样本动作识别、集合匹配、半监督少样本动作识别、无监督少样本动作识别

1.介绍

最近,大规模视频基准数据集的发展[1–3]以及深度网络[4,5]的进步显著推动了动作识别领域的发展。要取得这样的成功,通常需要大量的手工标记数据。然而,获取这些标记示例消耗了大量的人力和时间,实际上限制了这项任务的进一步应用。在这种情况下,研究人员开始寻求替代方法来实现动作分类,而不需要大量昂贵的标注。少样本动作识别是一种有希望的方向,可以减少手工标注,并因此近期引起了很多关注[6–8]。

为了解决少样本数据稀缺问题,主流的方法[6,9–11]主要基于度量学习技术[12],其中通过剧集式(episodic)训练首先学习一个共同的嵌入空间,然后采用显式或隐式的对齐度量来计算查询视频和支持视频之间的距离,用于在一个剧集任务中进行分类。通常,有序时间对齐模块(OTAM) [9] 采用深度特征提取器将输入视频独立地转换为帧特征序列,并明确地探索支持和查询视频之间的有序时间对齐路径。时间关系交叉转换器 (TRX) [10] 学习了一个深度嵌入空间,并尝试穷尽地构建动作的时间对应子序列进行比较。一些最近的工作[13–16]提出为少样本动作识别设计多级度量方法。

尽管这些方法取得了显著的性能,但仍存在两个限制:个体特征学习和不灵活的匹配策略。首先,在表示学习过程中,当将每个视频视为独立的时候,剧集中跨视频的区分性交互线索被忽略了。因此,这些方法实际上假设了学习到的表示对不同的剧集任务同样有效,并且为所有测试任务维持了一组固定的视频特征,即任务无关,因此可能忽视了当前任务最具区分性的维度。现有研究还表明,任务无关的方法在其他领域,如图像识别[17]、自然语言处理[18]和信息检索[19]中往往具有较差的泛化性能。其次,动作通常是复杂的,涉及许多具有不同顺序和偏移的子动作,这可能导致现有的时间对齐度量方法失败。例如,如图1(b)所示,为了冲咖啡,可以先倒水再倒咖啡粉,也可以反过来,因此最近的时间对齐策略很难找到正确的对应关系。因此,需要一种更灵活的度量来应对不对齐。

图1. (a) 提出的混合关系模块的概念 我们通过在剧集任务中跨视频提取相关的区分性模式,自适应地生成任务特定的视频嵌入。 (b) 冲咖啡的示例,当前的时间对齐度量倾向于严格,导致在不对齐的视频上出现错误的匹配。相比之下,提出的时间集匹配度量涉及集匹配技术和时间连贯性正则化,在寻找最佳对应关系方面更加灵活。

受到以上观察的启发,我们通过开发一种新颖的混合关系引导的时间集匹配算法,名为HyRSM++,来解决少样本动作识别问题,该算法由混合关系模块时间集匹配度量组成。在混合关系模块中,我们首先应用一个内关系函数来通过建模长期时间依赖关系来加强视频内的结构模式。然后,一个外关系函数对不同的视频进行操作,提取丰富的语义信息,以加强与查询预测更相关的特征,如图1(a)所示。通过这种方式,我们可以为少样本任务学习到任务特定的嵌入。在混合关系模块的基础上,我们设计了一个由双向平均豪斯多夫度量和时间连贯性正则化组成的新型时间集匹配度量,用于计算查询和支持视频之间的距离,如图1(b)所示。双向平均豪斯多夫度量的目标是从集匹配的角度衡量视频之间的距离。具体而言,我们将每个视频视为一组帧,并减轻严格的顺序约束,以获得更好的查询-支持对应关系。此外,为了利用长期时间顺序依赖性,我们在输入视频上明确施加时间连贯性正则化,以获得更稳定的测量结果,而不引入额外的网络参数。我们在六个具有挑战性的基准测试上评估了提出的HyRSM++,并取得了显著的改进,超越了当前最先进的方法。

虽然HyRSM++很直观简单,但它经过精心设计,专门用于少样本动作识别。即使设置完全不同,我们的HyRSM++是否可以应用于更具挑战性的半监督或无监督动作识别任务?为了回答这个问题,我们对HyRSM++进行了扩展,使其适用于半监督和无监督目标,并进行了少量任务适应性修改。实验结果表明,HyRSM++可以很好地适应不同的场景,并取得了令人印象深刻的性能。

总之,我们的工作具有以下四个贡献:
(1) 我们提出了一种新颖的混合关系模块,用于捕获剧集任务内部和之间的关系,为不同任务产生了任务特定的表示。
(2) 我们将查询-支持视频对距离度量重新构造为一个集合匹配问题,并提出了一个双向平均豪斯多夫度量,能够对复杂动作具有鲁棒性为了利用长期时间顺序线索,我们进一步设计了一种新的视频时间连贯性正则化,而不增加网络参数。
(3) 我们在六个具有挑战性的数据集上进行了大量实验,验证了所提出的HyRSM++在性能上优于当前最先进的方法。
(4) 我们展示了所提出的HyRSM++可以直接扩展到更具挑战性的半监督少样本动作识别和无监督少样本动作识别任务,只需进行少量修改。

在本文中,我们扩展了我们初步的CVPR-2022会议版本[20],具体体现在以下几个方面:
(i) 我们将时间连贯性正则化和集匹配策略整合到一个时间集匹配度量中,使得所提出的度量可以明确利用视频中的时间顺序信息并灵活匹配。需要注意的是,时间连贯性正则化不会引入额外的参数,也不会增加推理的负担。
(ii) 我们进行了更全面的消融研究,以验证所提出的HyRSM++的有效性和效率。
(iii) 我们明确改善了少样本动作识别性能,超过了先前版本。实验结果还表明,HyRSM++明显优于现有竞争方法,并取得了最先进的性能。
(iv) 我们展示了所提出的HyRSM++可以轻松扩展到更具挑战性的半监督和无监督少样本动作识别任务。

2.相关工作

少样本图像分类. 最近,少样本学习的研究[21–27]大致沿着以下几个方向进行:基于优化和基于度量。基于优化的方法学习一个元学习模型,可以在给定少量训练示例的情况下快速适应新任务。这些算法包括基于LSTM的元学习器[28]、学习高效的模型初始化[29]和学习随机梯度下降优化器[30]。基于度量的方法试图通过“学习比较”来解决少样本分类问题。这类方法旨在学习一个特征空间,并通过欧氏距离[31]、余弦相似度[12]或可学习的非线性度量[17]来比较查询和支持图像我们的工作与基于度量的方法[17]相关,它们具有相同的学习任务特定特征的精神,但我们专注于解决更具挑战性的少样本动作识别任务,其中存在多样的时空依赖关系。

集合匹配。集合匹配技术可以有效处理复杂的数据结构[32],并已应用于许多计算机视觉领域,包括人脸识别[33]、对象匹配[34]等。其中,豪斯多夫距离是处理集合匹配问题的重要替代方法。受到这些巨大成功的启发,我们首次将集合匹配引入到少样本动作识别领域。

任务特定表示。有一些工作学习了多样任务的任务特定表示。RLIPv2 [35] 通过门控交叉注意力将语言和视觉模态连接起来,以提炼任务特定知识。TIA [36] 和 DLaReC [37] 学习任务特定的适应性,以解决领域转移问题。在本文中,我们旨在挖掘支持和查询视频之间的任务特定相关性,以提升少样本性能。

半监督少样本学习。在实际应用场景中,通常存在大量未标记的样本。半监督少样本学习[38,39]考虑在存在额外未标记数据的情况下学习新概念。Ren等人[38]首次引入了具有挑战性的半监督少样本学习范式,并通过在未标记数据上采用软k-means来细化原型。在半监督少样本动作识别领域,LIM [40]利用一个与标签无关的存储器来保留特征库,并为查询分类生成类原型。

无监督少样本学习。无监督少样本学习[41,42]的目标是利用未标记样本来构建用于少样本训练的元任务。CACTUs [43] 和 UFLST [44] 通过对嵌入进行聚类来构建许多任务,并在构建的任务上优化元学习过程。最近,MetaUVFS [45] 提出了第一个用于少样本动作识别的无监督元学习算法,并采用了双流2D和3D CNN模型,通过对比学习探索空间和时间特征。

少样本动作识别。少样本动作识别与先前的少样本学习方法的区别在于,它处理更复杂的高维视频数据,而不是二维图像。现有的方法主要集中在基于度量的学习上。CMN [6] 利用多显著性嵌入算法来编码视频表示。OTAM [9] 在视频数据中保留帧顺序,并使用有序时间对齐来估计距离。TRX [10] 通过匹配大量不同子序列的元组来匹配动作。最近,STRM [46] 利用基于TRX [10] 的局部和全局丰富机制进行时空建模,并在不同阶段强制执行类别可分离性。一些工作[13–16] 提出设计多级度量用于少样本动作识别。请注意,大多数现有方法侧重于独立学习视频嵌入(方法倾向于将每个视频视为一个独立的实例,而不考虑不同视频之间可能存在的关联或相互作用。)。与这些先前的方法不同,HyRSM++通过学习内部和间部关系模式来提高可转移性,从而能更好地推广到未见过的类别

3. 方法

3.1. 问题阐述

少样本动作识别旨在在有限标记的视频数据可用时获得能够很好泛化到新类别的模型。为了使训练更贴近测试环境,我们采用了之前工作中的[9–12]的少样本适应的剧集训练方式[12]。在每个剧集任务中,有两个集合,即支持集𝑆和查询集𝑄。支持集𝑆包含来自𝑁个不同动作类别的𝑁×𝐾个样本,每个类别包含𝐾个支持视频,被称为𝑁-way 𝐾-shot问题。目标是使用这些支持视频将查询集𝑄中的视频分类为𝑁个类别。

3.2. HyRSM++

流程。HyRSM++的整体架构如图2所示。对于每个输入视频序列,我们首先将其分割成T个片段, 并从每个片段中提取一个片段,就像之前的方法[4,9]一样。这样,在一个剧集任务中,支持集可以表示为S ={s_1,s_2,...,s_{N×K}}, 其中$s_i=\{s^1_i,s^2_i,...,s^T_i\}$。为了简单和方便起见,我们讨论了𝑁-way 1-shot问题的过程,即 𝐾 = 1,并考虑查询集Q包含一个单独的视频q然后,我们应用嵌入模型来提取每个视频序列的特征表示,并获得支持特征$F_s=\{f_{s1},f_{s2},...,f_{sN}\}$和查询特征f_q,其中f_{s_{i}}=\{f_{i}^{1},f_{i}^{2},\ldots,{f}_{i}^{T}\}f_{q}=\{f_{q}^{1},f_{q}^{2},\ldots,f_{q}^{T}\}.然后,我们将F_sf_q输入到混合关系模块中,以学习任务特定的特征,得到\tilde{F}_{s}\tilde f_q最后,增强的特征表示\tilde{F}_{s}\tilde f_q 被输入到集合匹配度量中生成匹配分数,基于匹配分数,可以训练或测试整个框架

Fig. 2. 展示了在一个3-way 1-shot问题上采用的提出的混合关系引导时间集合匹配(HyRSM++)方法的示意图。给定一个视频数据的剧集,首先使用特征嵌入网络提取它们的特征向量。然后,通过一个混合关系模块,通过内部关系和外部关系函数整合每个视频内部和视频之间的丰富信息。最后,将任务特定的特征前馈到时间集匹配度量中进行匹配分数的预测。最好在彩色下查看。

支持集3-way 1-shot:三个类别,每个类别一个视频数据,文中将一个视频数据分割为T个片段;

混合关系模块。给定嵌入网络输出的特征F_sf_q,当前的方法,例如OTAM[9],直接在这个特征空间中应用分类器C。它们可以表示为:
y_i=C(f_{s_i},f_q)\qquad(1)
其中y_if_{s_{i}}f_q之间的匹配分数。在训练过程中,如果它们属于同一类,则y_i = 1,否则y_i= 0。在测试阶段,y_i可以用来预测查询标签。从概率理论的角度来看,它基于f_{s_{i}}f_q的先验做出决策:
y_i=P((f_{s_i},f_q)|f_{s_i},f_q)\qquad(2)
然而,任务无关的嵌入(模型在学习嵌入时,并不关注要解决的具体任务,而是尽可能地捕捉数据中的一般特征和模式)往往容易受到不相关表示的过拟合[17]的影响,并且可能无法转移到在训练阶段尚未见过的类别。

与先前的方法不同,我们提出为每个目标任务学习任务特定的特征。为了实现这个目标,我们引入了一个混合关系模块,通过捕捉剧集中不同视频的丰富信息来生成任务特定的特征。具体来说,我们以以下形式精心设计了混合关系模块\mathcal{H}
\tilde{f}_{i}=\mathcal{H}(f_{i},\mathcal{G});f_{i}\in[F_{s},f_{q}],\mathcal{G}=[F_{s},f_{q}]\text\qquad{(3)}
这样,我们通过在一个剧集任务中聚合跨视频表示的语义信息(即\mathcal{G},改进得到特征\tilde f_i,使得得到的任务特定特征\tilde f_i比单独的特征更具有判别性。为了提高效率,我们进一步将混合关系模块分解为两部分:内部关系函数\mathcal{H}_a和外部关系函数\mathcal{H}_e

内部关系函数旨在通过捕获长距离时间依赖关系来加强视频内部的结构模式。我们将这个过程表示为:

\mathbf{f_i^a} = \mathcal{H}_a(\mathbf{f_i})\qquad(4)

其中,f_{i}^{a}\in R^{T\times C} 是f_i通过内部关系函数输出得到,与 f_i具有相同的形状。注意,内部关系函数有许多可选的实现,包括多头自关注(MSA)、Transformer[50]、Bi-LSTM[19]、Bi-GRU[8]等,它们非常灵活,可以是它们中的任何一个。

根据内部关系函数生成的特征,部署一个外部关系函数对不同视频之间的特征进行语义增强

f_{i}^{e}=\mathcal{H}_{i}^{e}(f_{i}^{a},\mathcal{G}^{a}) =\sum_{j}^{|\mathcal{G}^{a}|}(\kappa(\psi(f_{i}^{a}),\psi(f_{j}^{a}))*\psi(f_{j}^{a}))\qquad(5)

这个公式描述了如何通过计算视频片段i 的特征 $f^a_{i}$与所有视频中的特征$f^a_{j}$的语义相关度,将该语义相关度作为权值对所有视频特征进行加权累加从而得到视频片段 i 的输出特征 f_{i}^{e}。这种方法允许视频片段的特征通过与其他视频的特征进行交互来获得更丰富的语义信息,从而提高了特征的表征能力。

其中,\mathcal{G}_a = [F_a^s, f_a^q]表示从前面主干网络提取到的所有(支持集和查询集)特征集合,\psi(\cdot)是全局平均池化层,\kappa(f_{a_i}, f_{a_j})是一个可学习的函数,用于计算 f^a_{i}f^a_{j}之间的语义相关性。潜在的逻辑是,如果f^a_{i}f^a_{j}之间的相关性分数(\kappa(f_{a_i}, f_{a_j}))很高,则意味着它们倾向于具有相同的语义内容,因此我们可以从f^a_{j}中获取更多信息来提升表示f^a_{i},反之亦然。同样,如果得分\kappa(f_{a_i}, f_{a_j}) 小于1,则表示应该抑制f^a_{i} 中的一些不相关信息。

通过充分利用每个据集任务中的有限样本,我们可以提高特征的区分度。相似地,交互关系函数也具有类似的实现,但目标不同。在交互关系函数之后,我们采用了一个扩展-连接-卷积操作来聚合信息,如图2所示,其中输出特征\tilde f_i 的形状与 f^e_i 相同。按照先验的形式,我们的方法可以表示为: y_i=\mathcal{P}((\tilde{f}_{s_i},\tilde{f}_q)|\mathcal{H}(f_{s_i},\mathcal{G}),\mathcal{H}(f_q,\mathcal{G}));\mathcal{G}=[F_s,f_q]\qquad(6)

在条件\mathcal{H}(f_{s_i},\mathcal{G}),\mathcal{H}(f_q,\mathcal{G})的特征空间的前提下,通过对\tilde{f}_{s_i}\tilde{f}_q的相关度计算,预测\tilde{f}_q的标签结果。

直觉上,与方程(2)相比,这有助于做出更好的决策,因为提供了更多的先验信息。特别地,混合关系模块是一个即插即用单元。在实验中,我们将充分探索混合关系模块的不同配置,并进一步研究其可插入性。

时间集匹配度量。许多先前的少样本动作识别算法通常对生成的视频表示施加严格的时间对齐策略,以用于少样本分类。然而,当遇到不对齐的视频实例时,它们往往会导致一些匹配失败的情况。相反,我们开发了一种基于集合匹配的灵活度量,明确地发现最佳的帧匹配对,具有对不对齐不敏感的能力。具体来说,所提出的时间集匹配度量包含两个部分,即双向均值豪斯多夫度量(Bi-MHM)和时间一致性正则化。我们将在下面详细描述它们。

给定增强了关系的特征\tilde F_s\tilde f_q,我们提出了一种新颖的度量方法,以实现高效灵活的匹配。在这个度量方法中,我们将每个视频视为一个由 𝑇 帧组成的集合,并重新定义视频之间的距离度量问题为一个集合匹配问题,无论它们是否对齐,都具有鲁棒性。具体而言,我们通过修改豪斯多夫距离来实现这一目标,豪斯多夫距离是一种典型的集合匹配方法。标准的豪斯多夫距离 𝜏 可以表述为:

\begin{aligned} d(\tilde{f}_{i},\tilde{f}_{q})& =\max_{\tilde{f}_{i}^{a}\in\tilde{f}_{i}}(\min_{\tilde{f}_{q}^{b}\in\tilde{f}_{q}}\left\|\tilde{f}_{i}^{a}-\tilde{f}_{q}^{b}\right\|) \\ d(\tilde{f}_{q},\tilde{f}_{i})& =\max_{\tilde{f}_{q}^{b}\in\tilde{f}_{q}}(\min_{\tilde{f}_{i}^{a}\in\tilde{f}_{i}}\left\|\tilde{f}_{q}^{b}-\tilde{f}_{i}^{a}\right\|) & \text{(7)} \\ \text{D}& =\max(d(\tilde{f}_{i},\tilde{f}_{q}),d(\tilde{f}_{q},\tilde{f}_{i})) \end{aligned}

其中,\tilde{f}_{i} \in R^{T\times C} 包含 𝑇 帧特征,并且‖⋅‖表示距离度量函数,我们的方法中使用的是余弦距离。

这是原本的豪斯多夫距离方法,

d(\tilde{f}_{i},\tilde{f}_{q}):首先计算每个\tilde f_i^a与距离最近的\tilde f_q^b的距离大小,再比较前面得到的每个\tilde f_i^a的距离,得到其中最大的距离。

d(\tilde{f}_{i},\tilde{f}_{q}):首先计算每个\tilde f_q^b与距离最近的\tilde f_i^a的距离大小,再比较前面得到的每个\tilde f_q^b的距离,得到其中最大的距离。

然而,之前的方法[47,48]指出,豪斯多夫距离很容易受到噪声样本的影响,导致测量不准确。因此,采用了一种鲁棒性更强的修改后的有向豪斯多夫距离距离,具体如下:

d_m(\tilde{f}_i,\tilde{f}_q)=\frac1{N_i}\sum_{\tilde{f}_i^a\in\tilde{f}_i}(\min_{\tilde{f}_q^b\in\tilde{f}_q}\left\|\tilde{f}_i^a-\tilde{f}_q^b\right\|)\text\qquad{(8)}

这个公式描述了查询特征 $\tilde{f}_q$和支持特征 $\tilde{f}_i$之间的平均最小豪斯多夫距离,通过考虑支持特征中每个帧的特征与查询特征中最小距离的帧的距离,并对得到的支持集中所有帧的距离取平均。这样设计的目的是衡量查询特征与支持特征之间的整体相似性,通过取平均来减少个别噪声样本的影响.

其中,𝑁𝑖 是 \tilde f_i 的长度,在本文中等于 𝑇 。豪斯多夫距离及其变种在图像匹配 [34] 和人脸识别 [48] 中取得了巨大成功。因此,我们提出将集合匹配策略引入到少样本动作识别领域,并进一步设计了一种新颖的双向平均豪斯多夫度量(Bi-MHM)

\begin{aligned} D_{b}& =\frac{1}{N_{i}}\sum_{\tilde{f}_{i}^{a}\in\tilde{f}_{i}}(\min_{\tilde{f}_{q}^{b}\in\tilde{f}_{q}}\left\|\tilde{f}_{i}^{a}-\tilde{f}_{q}^{b}\right\|)+ \\ &&\text{(9)} \\ &\frac{1}{N_q}\sum_{\tilde{f}_q^b\in\tilde{f}_q}(\min_{\tilde{f}_i^a\in\tilde{f}_i}\left\|\tilde{f}_q^b-\tilde{f}_i^a\right\|) \end{aligned}

\frac{1}{N_{i}}\sum_{\tilde{f}_{i}^{a}\in\tilde{f}_{i}}(\min_{\tilde{f}_{q}^{b}\in\tilde{f}_{q}}\left\|\tilde{f}_{i}^{a}-\tilde{f}_{q}^{b}\right\|)表示:首先计算出每个\tilde f_i^a\tilde f_q^b的最小距离,将这些距离累加,除以支持特征\tilde f_i的长度。(以支持特征\tilde f_i^a为主体)

\frac{1}{N_q}\sum_{\tilde{f}_q^b\in\tilde{f}_q}(\min_{\tilde{f}_i^a\in\tilde{f}_i}\left\|\tilde{f}_q^b-\tilde{f}_i^a\right\|)表示:首先计算出每个\tilde f_q^b\tilde f_i^a的最小距离,将这些距离累加,除以查询特征 \tilde f_q的长度。(以查询特征 \tilde f_q为主体)

用于考虑查询特征和支持特征之间的双向相似度,整个公式求和了这两个方向(从支持特征到查询特征,从查询特征到支持特征)的距离,以综合考虑双向的特征相似性。

其中,𝑁𝑖 和 𝑁𝑞 分别是支持特征\tilde f_i 和查询特征 \tilde f_q的长度。

论文《Hybrid Relation Guided Set Matching for Few-shot Action Recognition》(CVPR2022)中对Bi-MHM的描述:

提出的Bi-MHM是一个对称函数,两个项目相互补充。从方程9中,我们可以发现D_b可以自动找到两个视频之间的最佳对应关系,例如\tilde f_i\tilde f_q。需要注意的是,我们的Bi-MHM是一个非参数分类器,不涉及大量的非平行计算,这有助于提高与之前复杂的对齐分类器[4, 40]相比的计算效率和转移能力。此外,混合关系模块和Bi-MHM可以相互加强,共同巩固两个视频之间的相关性。在推断过程中,我们选择与查询最接近的支持类别进行分类。

上述的双向平均最小豪斯多夫距离(Bi-MHM)方法假定属于相同动作的视频序列表示在特征空间中具有相同的集合结构,并且并未明确利用时间顺序信息。然而,考虑到视频中固有的时间信息会更加普遍。因此,我们利用顺序视频数据中自然存在的时间一致性,并构建了一个时间一致性正则化项,进一步通过整合时间顺序信息来约束匹配过程

IDM [49] 是一种常用的方法,可以利用视频内部的时间连贯性,其公式可以表示为:
I(\tilde{f}_i)=\sum_{a=1}^T\sum_{b=1}^T\frac{1}{(a-b)^2+1}\cdot\left\|\tilde{f}_i^a-\tilde{f}_i^b\right\|\qquad(10)
其中,$\tilde{f}_i$ 是输入视频特征,T是视频的时间长度,上述损失函数鼓励在时间上接近的帧在特征空间中也是接近的。

此外,文献中还有另一种利用时间顺序信息的方法 [50]:
I(\tilde{f}_i;\tilde{f}_i^a,\tilde{f}_i^b)=\begin{cases}\left\|\tilde{f}_i^a-\tilde{f}_i^b\right\|,&\text{if} |a-b|=1\\\max(0,m-\left\|\tilde{f}_i^a-\tilde{f}_i^b\right\|)&\text{if} |a-b|>1\end{cases}\qquad(11)
其中,m是边缘的大小(如果两个帧不相邻,则它们的特征会被推开,使它们之间的距离至少为边缘大小,m为作者实验设定),\text{if} |a-b|=1表示ab两帧的时间距离为1帧。公式 (11) 利用视频的连贯性特性,如果两个帧是相邻的,则将它们的特征拉近,如果它们不相邻,则将它们推开一个边缘 m的距离。通过观察可以发现,在公式 (10) 中,不考虑时间距离,所有帧都被拉近。而在公式 (11) 中,如果帧不与当前帧相邻,则将它们的特征分开一个边缘 m的距离,即所有对都被平等对待上述两种方式都没有充分利用视频的平滑和连续变化

为此,我们提出了一种新的形式来挖掘时间连贯性属性:
I(\tilde{f}_i;\tilde{f}_i^a,\tilde{f}_i^b)=\begin{cases} \frac{1}{(a-b)^2+1}\cdot\left\|\tilde{f}_i^a-\tilde{f}_i^b\right\|,&\text{if} |a-b|\leq\delta\\ \max(0,m_{ab}-\left\|\tilde{f}_i^a-\tilde{f}_i^b\right\|)&\text{if} |a-b|>\delta\end{cases}\qquad(12)

当ab两帧之间的时间距离小于δ时,当距离越近,权重系数越大(表示越近的相似度相比于越远的高),如果\tilde{f}_i^a,\tilde{f}_i^b两帧的相似度越高,得到的I越大,代表越相似,匹配程度越高;

当ab两帧之间的时间距离大于δ时,当距离越远,mab越大,如果\tilde{f}_i^a,\tilde{f}_i^b两帧的特征距离较小(即特征相似度高),则𝐼 的值可能会增大,表示它们之间的匹配程度较高。但是如果特征距离较大(即特征相似度低),𝐼 的值可能会减小,表示它们之间的匹配程度较低。意思就是通过引入时间距离为参数的mab来使得时间距离远的帧之间的相似度相对较低,只有当两帧之间的相似度特别高时,才能突破mab的限制,说明是同一种类别。

这个公式就是引入了两帧之间的时间距离,对于相同相似度的两帧来说,如果时间距离越近,其输出的I就会越大,说明越匹配程度越高 、越相似,反之亦然。

其中,$\delta$ 是一个窗口大小,$m_{ab} = 1 - e^{-\frac{(a - b - \delta)^2}{2\sigma^2}}$,用于实现平滑的时间连贯性。与原始形式相比,我们提出的时间连贯性正则化能更好地反映视频的连续变化,从而导致更好的性能。

3.3. HyRSM++的拓展应用

3.3.1. 半监督式少样本动作识别

半监督式少样本动作识别的目标是充分利用未标记视频数据的辅助信息,以提升少样本分类的性能。与标准监督式少样本设置相比,在半监督式少样本任务中,除了支持集 𝑆 和查询集 𝑄 外,还额外包括一个未标记集 𝑈,以缓解数据稀缺性。我们证明了所提出的 HyRSM++ 可以在标记和未标记样本之间建立联系,从而提高分类性能

在半监督学习文献中,一种常见的做法是采用伪标记技术来处理未标记集 𝑈,该技术假设决策边界通常位于低密度区域,并且高密度区域中的数据样本具有相同的标签。类似地,传统的半监督式少样本学习方法通常会根据已知的支持集为未标记数据生成伪标签,然后将生成的高置信度伪标签数据增加到支持集中。在本文中,我们遵循了这一范式,并利用 HyRSM++ 来利用未标记示例。由于嘈杂的视频通常在训练中具有较高的损失,可以利用强大的 HyRSM++ 来区分干净和嘈杂的视频的预测分数。基于此,我们通过预测选择可靠的伪标记样本,并使用高置信度的伪标记数据增加支持集。随后,我们利用增强的支持集来对查询视频进行分类,就像在监督式少样本任务中一样在训练阶段,会对许多半监督式少样本任务进行采样,以优化整个模型,如算法1所示。对于推理,评估过程也通过对10,000个情节式任务进行采样来进行。

算法 1:HyRSM++ 用于半监督式少样本动作识别

输入:标记支持集 𝑆,辅助未标记集 𝑈,和查询集 𝑄

输出:优化的少样本分类器 HyRSM++

1: 将支持集 𝑆 和未标记集 𝑈 输入 HyRSM++,根据公式(9)获得 𝑈 的类别预测;

2: 根据预测分布,选择高置信度样本生成伪标签,并更新 𝑆 以获得增强的 𝑆 ′;

3: 将增强的 𝑆 ′ 和查询集 𝑄 应用于监督式少样本训练,具体步骤见第 3.2 节。

3.3.2. 无监督少样本动作识别

不同于前面描述的涉及标记数据的设置,无监督少样本动作识别旨在利用未标记的数据构建少样本任务,并学习适应不同任务的调整。我们进一步将HyRSM++扩展到这个无监督任务,并验证其将先前知识转移的能力,以便有效地学习处理未见过的任务。

在执行无监督少样本学习时,构建少样本任务是第一步。然而,在具有挑战性的无监督设置中,没有可以直接应用于少样本学习的标签注释。遵循先前的无监督少样本算法,我们首先采用现有的无监督学习方法来学习输入视频的初始化特征嵌入,然后利用深度聚类技术构建视频的伪类别。根据聚类结果,我们能够通过对𝑁路𝐾样本的情节进行抽样来产生少样本任务。然后,我们使用构建的少样本任务来训练HyRSM++。

4.实验

4.1. 数据集和实验设置

数据集。我们在六个标准的公开少样本基准数据集上评估我们的HyRSM++。对于Kinetics、SSv2-Full和SSv2-Small数据集,我们采用了[6,9–11]提出的现有划分方式,每个数据集包括64个类作为元训练集和24个类作为元测试集。对于UCF101和HMDB51,我们使用[7,10]中提供的现有划分验证我们提出的方法。除了上述数据集外,我们还利用了基于自我中心的Epic-kitchens数据集来评估HyRSM++。

实现细节。在我们的实验中,我们遵循之前的研究[6,9–11],使用在ImageNet预训练权重下初始化的ResNet-50作为特征提取器。我们稀疏而均匀地采样每个视频的8帧(即 𝑇 = 8)来构建输入帧序列,这与之前的方法[9,11]保持一致。在训练阶段,我们还采用基本的数据增强技术,如随机裁剪和颜色抖动,并使用Adam优化器来训练我们的模型在推断阶段,我们从元测试集中随机采样了10,000个据集任务进行少样本动作识别评估,并报告平均准确率。对于许多样本的分类,例如5-shot,我们遵循ProtoNet [31]的方法,计算每个类别支持视频的平均特征作为原型,并根据它们与原型的距离对查询视频进行分类

4.2. 与最新技术的比较

在本节中,我们通过与各种设置下的最新技术方法进行比较,验证了提出的HyRSM++的有效性。如表1和表2所示,所提出的HyRSM++明显优于其他先进方法,并能够实现新的最先进性能。例如,在SSv2-Full数据集的1-shot设置下,HyRSM++将最先进性能从49.2%提高到55.0%,并且始终优于我们的原始会议版本[20]。需要注意的是,SSv2-Full和SSv2-Small数据集倾向于基于运动,并且通常关注时间推理,而Kinetics和UCF101是部分与外观相关的数据集,场景理解通常至关重要。此外,Epic-kitchens和HMDB51相对复杂,可能涉及各种对象交互。通过在这些基准测试中进行广泛评估,HyRSM++提供了出色的性能。这表明我们的HyRSM++对不同场景具有强大的鲁棒性和泛化性能。从表2可以看出,HyRSM++在UCF101和SSv2-Small的1-shot和3-shot设置下优于当前最先进的方法,这表明我们的HyRSM++能够利用极少的样本学习丰富有效的表示。值得注意的是,在5-shot评估下,我们的HyRSM++在UCF101和SSv2-Small上的5-shot性能分别为95.9%和58.0%,略低于STRM和HCL。我们将这归因于STRM和HCL是集成方法,它们使用注意力对每个样本进行加权或使用多个度量进行少样本分类,这使它们更适合于多个shot,而我们的HyRSM++是一种简单通用的方法,不涉及复杂的集成操作。此外,我们还观察到,引入时间一致性正则化后,HyRSM++相比HyRSM有了显著改进,这验证了在集合匹配过程中利用时间顺序信息的有效性

4.3. 消融实验

为了方便比较,我们使用了一种基准方法 ProtoNet [31],该方法对骨干网络表示应用全局平均池化来获得每个类别的原型。接下来,我们将详细探讨我们提出的模块的有效性。

关系建模的设计选择。为了系统地研究混合关系模块中不同关系建模操作的效果,我们变化组件来构建一些变体,并在图 3 和图 4 中报告结果。比较实验在 SSv2-Full 数据集上进行,采用了 5-way 1-shot 设置。我们可以观察到不同的组合具有非常不同的特性,例如,多头自注意力(MSA)和 Transformer 在建模类内关系方面比 Bi-LSTM 和 Bi-GRU 更有效。例如,利用多头自注意力学习内部关系至少比使用 Bi-LSTM 提高了 2.5%。然而,与其他最近的算法相比 [10,11],每种组合的性能仍然有待提高,这强烈表明了学习任务特定特征的结构设计的必要性。为了简单起见,我们选择了相同的结构来探索内部关系和外部关系,并在实验中采用了多头自注意力

图 3. 在没有时间相干性正则化的条件下,对混合关系模块中不同组件进行的 5way 1-shot 少样本动作分类的比较。实验在 SSv2-Full 数据集上进行。

图 4. 在有时间相干性正则化的条件下,对混合关系模块中不同组件进行的 5way 1-shot 少样本动作分类的比较。实验在 SSv2-Full 数据集上进行。

表3总结了HyRSM++中每个模块的消融研究结果为了评估所提出组件的功能,我们以ProtoNet [31]作为基准从消融结果来看,我们可以得出每个组件都非常有效,特别是,与基准相比,内关系建模分别提高了1-shot和5-shot分类的性能6.0%和9.7%,而外关系建模提高了1-shot和5-shot的性能8.5%和9.9%。此外,所提出的集合匹配度量分别将1-shot和5-shot分类提高了9.4%和10.7%,这表明了在视频配对中找到更好的对应帧的能力将时间相干性正则化添加到集合匹配度量中也实现了稳定的性能改进,此外,堆叠所提出的模块可以进一步提高性能,表明了组件之间的互补性。

混合关系模块的即插即用性。在表4中,我们通过将混合关系模块插入最近的OTAM [9]中,实验证明混合关系模块对其他方法具有良好的泛化性,在这项研究中,带有我们混合关系模块的OTAM从关系信息中受益,并在1-shot和5-shot上分别获得了8.9%和11.6%的增益这充分证明了挖掘视频之间丰富的信息以学习任务特定特征的价值所在

N路少样本分类。为了进一步探索不同N的影响,在图5中,我们比较了在SSv2-Full和Kinetics上N路(N ≥ 5)1-shot结果。结果显示,随着N的增加,难度变得更高,性能下降。然而,我们提出的HyRSM++仍然一直领先于最近的最先进的STRM [46]、TRX [10]和OTAM [9],这显示了我们的方法通过引入视频之间丰富的关系和集合匹配度量的能力来提高性能的可行性

变化的帧数。为了展示HyRSM++的可扩展性,我们还探索了不同视频帧数对性能的影响。需要注意的是,先前的比较是在8帧输入下进行的。图6(a)中的结果显示,随着帧数的增加,性能提高。当帧数超过7帧时,HyRSM++逐渐趋于饱和。

头数的影响。我们调查了在多头自注意力中变化头数对性能的优势。实验结果表明,多头的效果显著,并且性能在某一点之后开始饱和。

变化骨干网的深度。以前的方法都默认使用ResNet-50作为骨干网络,以便进行公平比较,骨干网络深度对性能的影响仍然没有得到充分探索。如图7所示,我们尝试通过采用在ImageNet上预训练的ResNet-18和ResNet-34作为备选骨干网络来回答这个问题。结果表明,更深的网络明显受益于更大的学习能力,并导致更好的性能。此外,我们注意到我们提出的HyRSM++始终优于竞争对手(即OTAM和TRX),这表明我们的HyRSM++是一个普遍有效的框架。

不同骨干网络的影响。为了验证我们的方法不局限于ResNet-like结构,我们进一步在Inception-v3上进行实验,并在表5中报告结果。从比较中,我们注意到HyRSM++明显优于其他竞争算法。与STRM [46]相比,我们提出的HyRSM++在各种设置下至少带来了5.5%的性能增益。

预训练类型的影响。监督式ImageNet初始化被广泛应用于许多视觉任务 [9,40,60],并取得了令人印象深刻的成功。最近,自监督技术也受到了广泛关注,并展示了出色的应用潜力。在表6中,我们展示了与自监督预训练权重 [59] 的性能比较。结果表明,HyRSM++ 功能强大,不受特定初始化权重的限制

其他关系建模形式在我们的混合关系模块中,我们将查询视频添加到了相互关系建模的池中,以提取适合查询分类的相关信息。如表7所示,我们尝试将查询视频从HyRSM++中的池中移除,即“仅支持”,但我们可以观察到,在移除查询视频后,SSv2-Full上1-shot和5-shot的性能分别降低了1.3%和1.0%。在Kinetics数据集上也有类似的结论。这证明了所提出的混合关系模块是合理的,可以有效提取与任务相关的特征,从而提高查询分类的准确性。

对噪声标签的鲁棒性。为了展示HyRSM++对噪声样本的鲁棒性,在图8中我们模拟了数据集中存在噪声标签的情况。从结果中我们可以观察到,随着噪声比例的增加,性能通常会下降。然而,我们的HyRSM++仍然表现出比其他方法更高的性能,这说明了我们的方法具有鲁棒性,并且适应复杂条件的能力

4.4. 与其他匹配方法的比较

表8显示我们的Bi-MHM表现良好,并且优于其他时间对齐方法(例如OTAM)。我们进一步在表9中分析了不同的集合匹配方法,结果表明豪斯多夫距离容易受到噪声干扰,导致不匹配和相对较差的性能。然而,我们的Bi-MHM对噪声表现稳定,并获得更好的性能。此外,与单向度量相比,我们提出的双向度量更全面地反映了视频之间的实际距离,并在少样本任务上取得了更好的性能。此外,我们观察到在融合了时间连贯性后,所提出的时间集合匹配度量在Bi-MHM的基础上取得了明显的改善。例如,在5路1-shot和5路5-shot SSv2-Full分类中,时间集合匹配度量分别获得了0.7%和1.1%的性能提升。这表明了所提出的时间集合匹配度量的有效性

4.5. 时间相干方式的比较

表格10比较了基于OTAM和BiMHM的现有时间一致性方案与所提出的时间一致性正则化方法。结果表明,利用时间一致性有助于提高度量方法的分类准确性,这证实了我们在匹配过程中考虑时间顺序信息的动机。此外,与其他方法相比,时间一致性正则化实现了更显著的改进,我们将此归因于时间一致性正则化的平滑特性

4.6. 局限性

HyRSM++也存在一些局限性:(i) 表11说明了其在参数、计算和运行时方面与OTAM和TRX的差异。值得注意的是,HyRSM++引入了额外的参数(即混合关系模块),导致了GPU内存和计算消耗的增加。然而,由于没有复杂的非并行分类器头部,HyRSM++的整体推理速度比OTAM和TRX更快。我们将进一步研究如何在不降低性能的情况下降低复杂性。 (ii) HyRSM++可能在某些共享相似外观或运动模式的动作中失败,例如“滑雪”和“冲浪”。 (iii) HyRSM++中的时间一致性正则化假设输入视频在时间上是平滑连续的,这对于一些具有许多场景和镜头切换的数据集可能不适用

4.7. 可视化结果

为了进一步视觉化评估提出的HyRSM++,我们将其激活可视化结果与竞争对手OTAM进行比较。如图9所示,OTAM的特征通常包含非目标对象或忽略部分具有辨识性的部分,因为它缺乏学习任务特定嵌入以进行特征适应的机制。相反,我们提出的HyRSM++通过自适应关系建模操作处理查询和支持视频,这使得它能够聚焦于不同的目标对象。以上定性实验说明了我们模型设计的合理性以及学习任务相关特征的必要性

5. 扩展到半监督少样本动作识别

我们遵循LIM [40]的方法,利用两个常见数据集(Kinetics [1] 和 SSv2-Small [2])进行比较实验。这两个数据集是Kinetics-400 [1] 和 Something-Somethingv2 [2] 的子集,我们实验中的未标记示例是从与这些子集相同类别的其余视频中收集的。为了进行半监督式少样本评估,我们采用主流的干扰设置 [40,41,43],其中未标记集合包含每个任务中的其他干扰类别。这种设置更加现实,需要模型对来自其他类别的嘈杂样本的存在具有鲁棒性。在我们的实验中,我们将每个任务中的未标记视频数量固定为100

表12对比了我们的HyRSM++与两个标准半监督式少样本基准上的最先进方法。我们发现,HyRSM++明显优于先前的方法,如LIM [40]。在半监督式5路1次样本情景下,HyRSM++在Kinetics和SSv2-Small上的性能提升分别为3.8%和2.5%,比使用Inception-v3骨干的LIM更好。特别是当使用ResNet-50骨干时,我们的方法甚至优于多模态融合方法(即LIM),这表明HyRSM++能够为未标记数据生成更准确的伪标签,然后可以扩展支持集以提高查询视频的分类精度。此外,与我们的有监督对应方法相比(即没有未标记数据的HyRSM++),加入未标记数据有助于缓解数据稀缺问题并提高少样本分类的准确性。当使用ResNet-50作为骨干时,在Kinetics 5路1次样本评估下,与没有未标记数据的HyRSM++相比,HyRSM++的性能提高了5.1%。

在Kinetics和SSv2-Small的元测试集上,我们将现有的半监督少样本动作识别方法与进行了比较。实验设置为5-way情况,结果随着shot从1增加到5进行报告。“w/o UD”表示每个据集中没有未标记集,即传统的少样本动作识别设置,可以作为半监督方法的下限。

为进一步探究每个据集中未标记视频的影响,我们进行了一系列的实验,改变了未标记视频的数量,结果如图10和图11所示。实验结果显示,随着未标记样本数量的增加,性能也逐渐提高,表明引入未标记数据有助于泛化到未知类别。此外,我们注意到,在1次样本设置下的改进显著大于5次样本的改进,这表明在样本较少的情况下,未标记视频能更有效地改进对新类别分布的估计。与此同时,随着未标记数据量增加到一定水平,性能开始缓慢饱和

6. 扩展到无监督的少样本动作识别

我们还将提出的HyRSM++扩展到解决具有挑战性的无监督少样本动作识别任务,其中训练视频的标签不可用。我们采用了“先聚类,然后元学习”的思想范式来构建少样本任务并利用无标签数据进行训练,这一思路是基于先前的工作。我们的实验基于无监督的ResNet-50初始化,这是在Kinetics-400上进行自我监督预训练而不使用任何标签信息的在聚类过程中,我们采用了对每个数据集使用K-means聚类策略来获得150个簇

如表13所示,我们将HyRSM++与当前最先进的方法进行比较,在UCF101、HMDB51和Kinetics数据集上进行5路1-shot设置。值得注意的是,HyRSM++和MetaUVFS [45]使用相同的ResNet-50结构作为特征提取器,我们的HyRSM++在每个数据集上都表现出更好的性能。特别是,我们观察到我们的方法在UCF101数据集上取得了68.0%的性能,比MetaUVFS提高了1.9%,甚至超过了完全监督的ARN。HyRSM++的优越性能表明,我们利用视频内部和跨视频之间的关系以及灵活的度量方法在低样本情况下有效地执行。此外,这一现象也表明,即使HyRSM++并非专门针对无监督少样本动作识别任务设计,我们的方法也有潜力仅使用无标签视频学习一个强大的鲁棒性模型

在无监督少样本设置中,一个参数是聚类数量。在图12中,我们展示了在不同聚类数量下的性能比较结果。结果显示,当聚类数量为150时,性能达到了峰值,这意味着如果聚类数量太小,可能会导致欠聚类。如果数量太大,则可能导致过度聚类,损害性能

7. 结论

在这项工作中,我们提出了HyRSM++方法来进行少样本动作识别。首先,我们设计了一个混合关系模块,以建模一个视频内的丰富语义相关性,以及在一个情景任务中跨不同视频之间生成任务特定的特征。其次,基于代表性的任务特定特征,我们提出了一个高效的集合匹配度量,以对齐误差具有鲁棒性,并准确匹配视频。在匹配过程中,进一步引入了时间一致性正则化以利用时间顺序信息。此外,我们将HyRSM++扩展到解决更具挑战性的半监督少样本动作识别和无监督少样本动作识别问题。实验结果表明,我们的HyRSM++在多个标准基准测试上取得了最先进的性能。

读后总结

创新点:

①为了得到特定任务的增强特征,通过内部特征函数(处理一个视频数据内部)和外部特征函数(处理不同视频数据,将一个视频与所有视频的相似度为权重乘以对应视频得到该视频的外部增强特征)实现;

②在时间集匹配度量方面,为了不使用严格的时间对齐策略,提出双向平均豪斯多夫度量与时间一致性正则化项结合,双向指的是从支持集到查询集、从查询集到支持集,通过分别以支持集或查询集为主体计算得到距离最近的相似度距离;为了保持一定的时间顺序对应关系,结合时间一致性正则化项,以时间距离为权重,时间距离越近的,相似度相对越高。

模型整体流程(以3way1shot为例):

基于度量的学习,在支持集(3种不同类别的输入视频数据)和查询集(一种视频数据)作为输入数据,通过主干网络分别获得对应四条支路的特征,将得到的特征输入到混合关系模块,进行内部和外部关系的特征增强,将得到的特征输入时间集匹配度量中,通过匹配分数对查询集的视频数据进行类别预测.

  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值