Boundary-sensitive Pre-training for Temporal Localization in Videos BSP论文阅读笔记

最新推荐文章于 2024-07-21 12:40:56 发布

Encounter84

最新推荐文章于 2024-07-21 12:40:56 发布

阅读量302

点赞数 1

分类专栏：笔记文章标签：人工智能深度学习机器学习

本文链接：https://blog.csdn.net/zhuzyibooooo/article/details/126316101

版权

笔记专栏收录该内容

30 篇文章 0 订阅

订阅专栏

文章链接：https://arxiv.org/pdf/2011.10830.pdf

Abstract

许多视频分析任务都需要时间定位来检测内容的变化。然而，大多数为这些任务的模型都是在一般的视频动作分类任务上预先训练的。这是由于在未修剪的视频中对时间边界的大规模注释非常耗时。因此，没有合适的数据集可以以一种对时间边界敏感的方式进行预训练。本文首次通过引入一种新的boundary-sensitive pretext(BSP)任务，研究了时间定位的模型预训练。我们建议在现有的视频动作分类数据集中合成时间边界，而不是依赖于昂贵的时间边界的人工注释。通过定义不同的边界合成方法，BSP可以通过对边界类型的分类，简单地以一种自我监督的方式进行。这使得视频表示的学习更容易转移到下游的时间定位任务中。大量的实验表明，所提出的BSP是现有的基于动作分类的优势和补充。

Introduction

在这里插入图片描述
如上图所示，先预训练再微调的范式在图像和视频领域都得到了很好的应用。但是时序动作检测方面，因为没有足够大的有时序动作标签的数据集，所以无法进行预训练，作者提出通过转换现有的已裁剪的视频动作分类数据集，来合成带有时间边界注释的大规模未裁剪视频。
具体来说，作者通过拼接包含不同类别的裁剪视频，拼接同一类别的两个视频，或者通过操纵视频实例的不同部分的速度，来生成与视频内容变化相对应的人工时间边界。
这篇论文贡献有以下三点：
1.我们研究了视频中时间定位任务的模型预训练问题，这在很大程度上尚未得到充分研究，但对视频分析尤其重要。2.我们提出了一种可扩展的视频合成方法，可以生成大量具有时间边界信息的视频。3.大量的实验表明，时间动作定位、视频接地和步长定位任务可以从所提出的模型预训练中显著受益，在许多基准数据集上产生引人注目的或新的最先进的性能。

Method

**Problem context**:
Boundary-sensitive video synthesis:
时间边界是指镜头或场景的过渡，或动作内容的变化。在这项工作中，我们考虑了视频源的两个角度：类语义和运动速度。四种不同的边界类被详细表示如下：
Diff-class boundary：就是随机抽取一些不同类别的视频片段拼接在一起，拼接的位置要处理使之变成平滑的转折。
Same-class boundary：从相同动作类别的视频片段中随机sample几帧拼接在一起，连接处并不需要使用平滑。
Diff-speed boundary：就是把原视频和变速视频片段拼接在一起。
Same-speed boundary：就是原视频，因为前面几种视频片段里面都有边界，这个用来增加无边界视频数量。
Integration with action classification-based pre-training：
我们将我们的方法与基于分类的预训练特征相结合，以增强时间定位下游任务所需的边界意识。考虑了三种结构设计：双流、双头和特征蒸馏。
双流。该设计由两个平行的网络组成，一个用于基于动作分类的预训练，另一个用于边界敏感的预训练。为了简单起见，我们对两者使用相同的主干。为了整合它们的信息，在倒数第二层采用了特征连接法。
双头。与双流设计相比，这是一个更紧凑和高效的架构，除了分类层外，两个任务都共享所有层。一个隐含的假设是，这两种类型的特征表示可以通过端到端联合训练很好地融合到整个特征主干中。
特性蒸馏。双流或双头网络设计的另一种方法是采用单一网络，并通过施加特征匹配损失来训练其产生与独立网络相同的特征。

Encounter84

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Boundary-sensitive Pre-training for Temporal Localization in Videos BSP论文阅读笔记

许多视频分析任务都需要时间定位来检测内容的变化。然而，大多数为这些任务的模型都是在一般的视频动作分类任务上预先训练的。这是由于在未修剪的视频中对时间边界的大规模注释非常耗时。因此，没有合适的数据集可以以一种对时间边界敏感的方式进行预训练。本文首次通过引入一种新的boundary-sensitive pretext(BSP)任务，研究了时间定位的模型预训练。我们建议在现有的视频动作分类数据集中合成时间边界，而不是依赖于昂贵的时间边界的人工注释。...
复制链接

扫一扫