【论文阅读】弱监督下的时序动作定位

三木今天学习了嘛

已于 2022-10-26 10:18:30 修改

阅读量2.7k

点赞数 2

分类专栏： # Temporal Action Localization 文章标签：论文阅读人工智能机器学习

于 2022-10-26 10:17:01 首次发布

本文链接：https://blog.csdn.net/weixin_45751396/article/details/127508677

版权

Temporal Action Localization 专栏收录该内容

1 篇文章

订阅专栏

文章目录

1. 摘要
2. 介绍
3. 相关工作
4. 技术细节
5. 实验结果和讨论
6. 结论
7. 主流数据集的精度

阅读论文：Adaptive Two-Stream Consensus Network for Weakly-Supervised Temporal Action Localization

1. 摘要

任务要求： 弱监督时间动作定位（W-TAL）旨在仅在视频级监督下对未修剪视频中的所有动作实例进行分类和定位。
存在挑战： 在没有帧级注释的情况下，W-TAL方法很难清楚地区分动作和背景。
完成工作：

从晚期融合的激活序列中生成并迭代更新帧级伪基线，并用于提供帧级监督以改善模型训练。
引入了一个自适应的注意力归一化损失，它根据视频注意力分布自适应地选择动作和背景片段。
提出了一个视频级和一个片段级的不确定性估计器，它们可以减轻从嘈杂的伪GT中学习所带来的不利影响。

2. 介绍

弱监督时间动作定位（W-TAL） 的任务是 在学习阶段仅给定视频级分类标签的情况下，同时对长的未修剪视频中的所有动作实例进行定位和分类。与其完全监督的对应方法相比，W-TAL大大简化了数据收集的程序，避免了人类注释者的注释偏差，因此近年来被广泛研究。

以前的几种W-TAL方法采用多实例学习（MIL）框架，其中视频被视为一个片段包来进行视频级动作分类。在测试过程中，训练好的模型随着时间的推移而滑动，并产生一个时间类激活图（T-CAM）（即在每个时间步骤中的动作类概率分布序列）和一个衡量每个片段相对重要性的注意力序列。行动建议是通过对注意力值和/或T-CAM的阈值产生的。这种MIL框架通常建立在两种特征模式上，即RGB帧和光流，它们以两种主流方式进行融合。早期融合方法在将RGB和光流特征输入网络之前将其连接起来，而后期融合方法在生成行动建议之前计算各自输出的加权和。

双流输出及其后期融合结果的可视化：
在这里插入图片描述
五行分别显示了输入视频、由RGB流、流动流和它们的加权总和（即融合结果）预测的基础事实动作实例和注意力序列（从0到1的比例）。横轴和纵轴分别表示时间和注意力值的强度。绿色方框表示通过阈值为0.5的注意力产生的定位结果。通过适当结合由RGB和流预测的两种不同的注意力分布，后期融合结果实现了更好的定位性能。

尽管有了这些最新的发展，一个主要的挑战仍然有待解决：缺乏帧级的监督，使得W-TAL方法很难将动作与背景明确区分开来。这个问题在两个主要方面降低了定位性能。首先，检测到的动作实例不一定与视频级别的标签相对应，例如，检测器可能会错误地将包括游泳池的帧识别为游泳动作。其次，动作和背景之间的模糊性会影响激活序列。这不仅使阈值方法产生不完整或过度完整的动作建议，而且还导致不可靠的动作建议置信度分数。因此，有必要利用更细粒度的监督来指导学习过程。

下面作者介绍了他是如何解决这些问题的，和摘要是一个意思只是更详细了。
总而言之，我们的贡献有三点，和摘要相同。
相比于之前的Two-Stream Consensus Networks for Weakly-Supervised Temporal Action Localization工作改进。

3. 相关工作

我们简要回顾了动作识别action recognition、完全监督时序动作定位 fully-supervised temporal action localization、弱监督的时间性动作定位weakly-supervised
temporal action localization和自我训练方面self-training的相关工作。

动作识别action recognition。传统的方法旨在通过手工制作的特征来模拟时空信息。最近，双流卷积网络Two stream consensus network for weakly-supervised temporal action localization使用两个独立的卷积神经网络（CNN），分别利用来自RGB帧和光流的外观和运动线索，并使用后期融合方法来调和两个流的输出。Convolutional two stream network fusion for video action recognition重点研究了融合两个数据流的不同方法。 Inflated 3D ConvNet（I3D）Quo vadis, action recognition? a new model and the kinetics dataset将双流卷积网络中的2D CNN扩展为3D CNN，并进一步提高了性能。最近的一些方法侧重于直接从RGB帧学习运动线索，而不是计算光流。此外，一些工作也试图对视频中的长期时间信息进行建模。
完全监督时序动作定位方法需要在训练期间对所有动作实例进行帧级注释。一些大规模的数据集已经为这项任务创建，如THUMOS，ActivityNet 和Charades。许多方法采用了一个两阶段的管道，即先生成动作建议，再进行动作分类。一些方法采用Faster R-CNN 框架来进行TAL。 最近，一些方法专注于生成具有更灵活期限的行动建议。一些方法将图形卷积网络（GCN）应用于TAL，以纳入更多的上下文信息并利用建议提案关系。MS-TCN++提出了一个平滑损失来解决过度分割的错误。与他们不同的是，我们提出的平滑损失是为了平滑注意力序列并去除零散的行动建议。
弱监督时序动作定位，在训练过程中只需要视频级的监督，大大减少了数据注释的工作量，并引起了社会各界越来越多的关注。Hide-and-Seek随机隐藏输入视频的一部分以引导网络发现其他相关部分。UntrimmedNet由一个选择模块和一个分类模块组成，前者用于选择重要片段，后者用于进行每个片段的分类。
Sparse Temporal Pooling Network（STPN）通过增加一个稀疏损失以强制执行所选片段的稀疏性来改进UntrimmedNet。W-TALC联合优化了共同活动相似性损失和多实例学习损失来训练网络。AutoLoc和CleanNet采用了 一个两阶段的管道 ，他们首先生成初始行动建议，然后根据先验知识对行动建议边界进行回归：行动区域应该比其周围的背景区域具有更高的激活度。Liu等人提出了一个多分支网络来模拟不同阶段的行动。此外，一些方法侧重于对背景进行建模，以更好地区分动作和背景。DGAM提出用一个条件变异自动编码器来分离动作和背景。A2CLPT以对抗性的方式使用两个平行分支来生成完整的行动建议。EM-MIL也利用了伪标签，其中对类的注意力和对类的特定激活序列交替训练以互相监督。

这是一个很宏大的介绍，我还未了解如此的多方法，后续会继续阅读跟进。

4. 技术细节

在这一节中，我们首先提出了弱监督时间动作定位（W-TAL）的任务，然后详细描述了提出的自适应双流共识网络（A-TSCN）。

在这里插入图片描述
如上图所示，我们的A-TSCN由两部分组成，即两流基础模型和一个伪GT生成模块。给定一个输入视频，两流基础模型首先被用来分别对RGB片段和光流片段进行动作识别，并获得各自的初始注意力序列。
为了促进动作和背景的区分，一个自适应的注意力正则化损失迫使注意力像二进制选择一样发挥作用。然后，根据后期融合的注意力序列生成帧级的伪基础事实，这反过来又为双流基础模型提供了帧级监督。同时，一个视频级和一个片段级的不确定性估计器动态地计算出伪基础事实学习的权重。最后，伪GT被迭代更新并完善基础模型，即为双流基础模型提供帧级监督。

4.1 问题公式化

在这里插入图片描述

4.2 双流基础模型

这一节需要自己仔细阅读，作者写的很详细。结合上面的图来达到更好的理解。

我们遵循最近的W-TAL方法，在从原始视频量中提取的片段级特征序列上构建双流基础模型。之后，我们使用双流基础模型进行动作分类，只使用视频级的标签，然后用帧级的伪基础真理反复完善基础模型。

特征的提取：

在这里插入图片描述

特征嵌入：（可以理解成一种特征的映射，类似one-hot编码）

在这里插入图片描述
这两步对应了图中的这个部分。

在这里插入图片描述

4.3 伪真实标签学习

在只用视频级别的标签训练基础模型后，我们用一个新的帧级伪真实标签来迭代完善双流基础模型。
具体来说，我们将整个训练过程分为几个细化迭代。在细化迭代0时，只利用视频级标签进行训练。而在细化迭代n+1时，在细化迭代n时产生一个帧级的伪真实标签，并为当前的细化迭代提供帧级的监督。 然而，如果没有真正的帧级真实注释，我们既不能衡量伪真实标签的质量，也不能保证伪真实标签能够帮助基础模型实现更高的性能。

后期融合是两个数据流的投票组合：两个数据流都有高激活度的位置很可能包含GT行动实例；只有一个数据流有高激活度的位置很可能是假的积极行动建议或只有一个数据流能检测到的真实行动实例；两个数据流都有低激活度的位置很可能是背景。

在这里插入图片描述

对于视频级不确定性估计器，我们考虑了两种不同的实现方式。这一块没怎么看懂。

4.4 动作定位

在这里插入图片描述

5. 实验结果和讨论

5.1 数据集和评估

THUMOS14数据集包含TAL任务20个类别中的200个验证视频和213个测试视频。我们使用200个验证视频进行培训，并使用213个测试视频进行评估。根据BaSNet，我们删除了测试视频#270、#1292和#1496，因为它们的注释不正确。每个视频在THUMOS14数据集中平均包含15.5个动作实例。
ActivityNet数据集有两个发布版本，即ActivityNetwork v1.3和ActivityNet v1.2。ActivityNet v1.2是ActivityNetwork v1.3的一个子集，涵盖100个动作类别，分别有4819和2383个视频在训练和验证集中。我们分别使用训练集和验证集进行训练和测试。每个视频在ActivityNet数据集中平均包含1.5个动作实例。
HACS数据集是最近发布的TAL任务数据集。据我们所知，它是迄今为止最大的好未来基准，涵盖200个动作类，包括37612个视频的训练集和5981个视频的验证集。我们使用HACS v1.1.1进行实验。此数据集中的每个视频平均包含2.5个动作实例。
评估指标： 按照时间动作定位的标准协议，我们在不同的联合交集（IoU）阈值下使用平均精度（mAP）评估我们的方法。我们使用ActivityNet提供的评估代码来衡量性能

5.2 实现细节

光流是通过TV-L1算法估计的。
实验中使用了两个现成的特征提取骨干，即UntrimmedNet和I3D，片段长度分别为15帧和16帧。
这两个骨干网分别在ImageNet和Kinetics-400上进行了预训练，为了公平比较，没有进行微调。RGB和光流片段级别的特征在global_pool层被提取为1024-D向量。

5.3 对比其他方法

我们的方法与THUMOS14测试集上最先进的TAL方法的比较。报告了最近的完全监督和弱监督的方法。UNT和I3D分别是UntrimmedNet特征和I3D特征的缩写。平均值一栏表示在IoU阈值0.3:0.1:0.7时的平均mAP。
在这里插入图片描述
还有在ActivityNet v1.2，ActivityNet v1.3的对比试验数据。

5.4 消融实验

在本小节中，为了更好地分析每个组件的贡献，我们对THUMOS14测试装置进行了消融研究。使用I3D特征进行消融研究。

自适应注意归一化损失La范数的消融研究

在这里插入图片描述 (1）对于原始的注意力归一化损失Lnorm，当s从2增加到8时，性能首先提高，表明手动设置的大部分动作或背景不符合真实的动作和背景分布（例如，设置s = 4假设动作和背景各占整个视频的25%）。性能在s = 16时下降，这可能是由于训练样本的减少。(2) 对于没有下限的自适应版本，性能随着s′的增加而明显下降。此外，动作片段的数量比背景片段的数量减少得更快。在没有下限约束的情况下，我们推测该模型只关注动作中最具鉴别力的部分进行分类，而忽视了动作实例的完整性。(3）有了下限约束（最后一组），在s ′ = 2和s ′ = 4的情况下，性能明显提高，这说明我们的自适应注意力归一化损失的有效性。此外，设置s ′ = 1时，性能略有下降，表明对于单一模式，确定整个视频的动作和背景是不可靠的。

对伪真实标签的消融研究：
在这里插入图片描述
硬的伪GT极大地提高了RGB流和融合结果的性能。尽管流量流的性能略有下降，但在硬伪标签学习后，融合结果优于两个流。相比之下，软性的伪GT降低了流量流和融合结果的性能。至于RGB流，虽然软标签改善了它的性能，但这种改善需要更多的细化迭代，而且仍然低于用硬标签训练的性能。这些结果揭示了消除伪真实标签中的模糊性的重要性。
在这里插入图片描述
在所有的IoU阈值下，伪真实标签都提高了RGB流的定位性能和融合结果，而在高IoU阈值下则提高了流量。此外，伪真实标签极大地提高了RGB流的精度和召回率，并提高了流量流和融合结果的精度，但召回率略有损失。伪真实标签提高了所有三个结果的F-measure。

对不确定性估计器的消融研究：
为了减轻伪GT的噪声造成的不利影响，我们引入了一个视频级的不确定性估计器和一个片段级的不确定性估计器。它们分别估计了一个批次和一个视频中的伪GT的可靠性，从而降低了不确定的伪GT的权重，增加了有把握的伪GT的权重。
表7总结了结果，表明使用任何一个不确定性估计器都能提高性能，而它们的组合甚至能带来更高的性能。
具体来说，片段级的不确定性估计器比视频级的影响更大。此外，基于对称KL发散的不确定性估计器比使用注意力差异的不确定性估计器表现更好
在这里插入图片描述
对阈值参数θ的敏感度分析：

对融合参数λ的敏感度分析：

λ是一个重要的超参数，它控制着后期融合时RGB流和流动流之间的相对重要性，从而影响到融合结果和伪真实标签。
在只有视频级监督的情况下，只有当性能较高的流占主导地位时（如λ=0.2），后期融合的结果才会优于两个单独的流。在帧级伪监督下，与仅在视频级监督下相比，RGB流的定位性能和融合结果得到了极大的改善。然而，当嘈杂的RGB流在伪GT中占主导地位时（即λ＞0.5），流的性能和融合结果明显下降

关于早期融合框架的消融研究：
正如我们在第1节所回顾的，有两种主流的双流融合方法，即早期融合和后期融合。
在早期融合框架中，伪ground truth要求基础模型在不同的随机模型噪声（如辍学）下输出以前的结果，因此它提高了基础模型的泛化能力和鲁棒性。因此，软伪基真和硬伪基真都提高了早期融合框架的性能，证明了它们的有效性。此外，硬伪基真也取得了比软伪基真更高的性能，这与后期融合框架中的结果一致。

超参数的敏感性： 在这里插入图片描述
结果显示，我们的方法对自适应注意力归一化损失（表9（a））、平滑损失（表9（b））和自适应伪GT学习损失（表9（c））的损失权重是鲁棒的。

定性分析：

绿框表示注意力激活度高于0.5的区域。横轴和纵轴分别是注意力的时间和强度。

在这里插入图片描述
在第一个例子中，在只有视频级标签的情况下，RGB流提供的定位结果比光流更差，因此导致了一个嘈杂的融合注意力序列。伪基真指导RGB流识别错误的积极行动建议并发现真正的行动实例。此外，它还导致了一个更干净的融合注意力序列，其中高激活度更好地对应于GT。
在这里插入图片描述
在第二个例子中，只有视频级的监督，两个流在视频的开始都有一些不重叠的假阳性动作建议。在这种情况下，伪GT有助于消除这种假阳性。

在第三个例子中，在只有视频级监督的情况下，RGB流只能区分某些场景，而不能区分近似的动作实例。与此相反，光流可以精确地检测到GT的动作实例。因此，伪GT帮助RGB流分离连续的动作实例。
在这里插入图片描述
最后一个例子显示了一个典型的性能下降的案例。

6. 结论

在本文中，我们提出了一种用于W-TAL的自适应双流共识网络（A-TSCN），它得益于自适应注意力正常化损失和迭代细化训练方法。自适应注意力正常化损失动态地选择视频中的动作和背景片段，并迫使注意力进行二进制选择，从而减少前景和背景之间的模糊性。迭代细化训练方案使用新颖的帧级伪真实标签作为细粒度的监督，并迭代改进双流基础模型。同时，一个视频级的不确定性估计器和一个片段级的不确定性估计器动态地确定每个视频和片段的学习权重，从而减轻了从嘈杂的伪标签学习所带来的不利影响。在四个基准上的实验表明，拟议的A-TSCN优于当前最先进的方法，并验证了我们的设计直觉。