论文阅读 CVPR2022：End-to-End Semi-Supervised Learning for Video Action Detection

最新推荐文章于 2023-03-15 23:50:00 发布

Buy new RAM!

最新推荐文章于 2023-03-15 23:50:00 发布

阅读量674

点赞数

分类专栏：半监督学习文章标签：论文阅读人工智能视觉检测深度学习神经网络

本文链接：https://blog.csdn.net/weixin_43814291/article/details/128149415

版权

半监督学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

用于视频动作检测的端到端半监督学习

所提出的方法利用标记和未标记的样本进行端到端训练，而不需要任何迭代。我们在两个不同的数据集UCF101-24和JHMDB-21上进行了大量实验，证明了其有效性。此外，我们还证明了所提出的方法在视频对象分割的泛化能力。我们在这项工作中做出了以下贡献：

•我们提出了一种用于半监督视频动作检测的简单端到端方法。据我们所知，这是第一个关注这个问题的工作。

•我们研究了用于视频动作检测的两种不同的一致性正则化方法：分类一致性和时空一致性。

•我们提出了两个新的正则化约束，用于时空一致性、时间一致性和梯度平滑性，它们关注视频中动作的时间连续性。

n帧视频： $v=(v_{1},v_{2},...,v_{n})$ --每个训练样本v被扩充以获得第二视图v'(A(v))--预测模型M--> 时空定位：类标签p、每帧vi的定位图l。定位图l可以是逐像素预测或边界框。

输入视频的原始和增强视图通过网络传递。分类器头部倒数第二层的激活被考虑用于分类一致性，而时空定位被考虑用于定位一致性。使用时空定位来计算关注掩码Mvar和Mgrad的时间相关性和梯度平滑度。此外，还计算了标记样本的传统监督分类和定位损失

1.动作检测模型M

基于VideoCapsuleNet的简单动作检测模型。-->在汇集特征的时间维度后，使用2D路由而不是3D路由，效率更高，性能不会下降。

模型M提供输入视频的分类预测p和时空定位l。

2.分类一致性

目的：样本与增强样本特征分布变化最小：Jenson Shannon散度（JSD）

3.时空一致性

时空一致性：模型对样本和增强样本预测的时空定位图一致。定位图->每个像素具有动作或不动作的概率。

样本v，增强样本v'。动作检测网络M输出定位图l(v)，其是逐像素预测，其中每个像素具有动作或不动作的概率。如果我们增加了原始样本v，那么模型应该能够一致地预测作用区域l(v')。利用时空一致性，我们建议使这些预测相互接近。首先，独立分析空间一致性，我们需要评估增强视图和原始视图的两个预测定位图之间的像素差异。为了比较预测，我们需要反转增强视图的数据增强，以便在计算差异时像素位置之间的映射相同。为了最小化预测中的这种差异，我们使用L2损失。时空一致性损失（Lconstloc）定义为

loc(X')-1 逆增强

上面定义的时空一致性仅捕获不同预测定位图的空间方差，并且不强制任何时间约束。因此，它有效地工作类似于任何基于一致性的图像对象检测。然而，我们在视频中有一个第三维度，即时间维度，沿着这个维度移动，我们可以强制执行连续性和平滑性约束。这意味着预测不仅应该是连续的，而且每个帧的过渡也应该是平滑的。因此，我们探索视频中动作的时间连续性，以有效利用时空一致性。我们关注时间连续性的两个不同方面，时间一致性和梯度平滑性。时间一致性捕捉动作边界区域在时间上的相对变化，并有助于细化检测边界。另一方面，梯度平滑有助于检测预测随时间的突然变化。

时间相干性：时间相干性被描述为在有限数量的帧上前景像素（动作区域）在时间维度上的相对位移。我们通过测量当前帧中像素在未来和过去帧中位置的相对移动来计算当前帧中的像素的方差。该逐像素方差是针对视频中的所有像素计算的，并被称为方差图Mvar。视频的方差图Mvar关注短期细粒度变化，集中于预测的连续性。分析特定帧的方差，它将有两个不同的区域，明确和不明确。如果一个模型确信一个像素是一个动作或非动作，我们称之为明确，否则我们将其描述为不明确。由于模型已经对明确的区域充满信心，我们将研究后者。其中一些模糊区域将描绘连接前景和背景的边界。使用方差图，我们的目的是对这些区域给予更多的关注。这将有助于模型利用时空维度中的模糊性。我们利用方差图作为注意力来正则化时空一致性损失。该正则化损失Lconstvar定义为

loci表示计算方差的帧i上的定位图，n表示帧的总数。µn表示n帧的平均值。w表示时间相关性和非注意力L2损失的权重因子。然而，在训练开始时，模型将只具有动作空间定位的原始知识。因此，在训练的初始阶段，我们从w=0开始，其中视频中的每个像素都具有同等的重要性。随着训练的进行，模型可以识别动作的粗略定位，但仍然不确定边界区域。因此，我们在整个训练过程中以指数方式增加用于L2丢失的时间一致性注意力掩码（Mvar）的权重（w），随后减少了非注意力L2丢失的影响。最后，为了利用较长的时间信息，我们使用了增强视图。我们反转了空间放大，并在时间上翻转它，将其附加到原始视图（除了最后一帧和第一帧），并计算此较长剪辑的方差。由于这个新的剪辑可以用来制作一个重复的循环，所以它被称为循环方差。

梯度平滑：深入研究局部时间方面，动作局部的过渡应该是平滑的。为了保持这种平滑度约束，我们使用二阶梯度分析输出定位概率得分图的变化。渐变反映方向的变化。时空区域沿时间维度的一阶梯度提供了时间梯度流图。由于偏移在时间维度上很小，所以一阶梯度图应该是平滑的。取二阶梯度表示一阶梯度的变化。由于偏移较小，二阶梯度应为零。二阶梯度图中的尖峰决定了时间梯度流图的连续性的变化。我们利用该地图Mgrad作为关注点，以加强时空定位的长期平滑性。我们将梯度平滑度一致性损失计算为