文章信息
- 英文题目:Unsupervised Pre-training for Temporal Action Localization (UP-TAL)
- 中文题目:面向时序行为定位任务的无监督预训练
- 作者:Can Zhang, Tianyu Yang, Junwu Weng, Meng Cao, Jue Wang and Yuexian Zou
- 单位:北京大学、腾讯AI Lab
- 论文链接:https://arxiv.org/abs/2203.13609
主要贡献
- 首次面向时序行为定位任务进行无监督预训练(UP-TAL);
- 为此,提出了一个新的代理任务叫做“伪动作定位”(Pseudo Action Localization,PAL),并根据 TAL 任务特点,设计了一种时序等变学习(temporal equivariance learning)范式;
- 实验表明在下游时序行为定位任务上超过了主流无监督预训练方法,甚至超过一些有监督预训练方法。下游性能测评任务包括:时序行为检测(Temporal Action Detection,TAD)、行为提议生成(Action Proposal Generation,APG)以及视频文本定位(Video Grounding,VG)。
太长不看系列(TLDR)
给定一个视频
v
i
\bm{v}_i
vi, 我们首先从中随机选择两个不同时序区域(每个区域包含多个视频片段)作为伪动作区域,然后分别将它们粘贴到另外两个视频(
v
n
\bm{v}_n
vn 和
v
m
\bm{v}_m
vm)的不同时间位置。代理任务的目标是对齐两个新合成视频中粘贴的伪动作区域的特征(
r
q
\bm{r}_q
rq 和
r
k
+
\bm{r}_{k+}
rk+),并最大化它们之间的一致性。
文章摘要
虽然近年来无监督视频表征学习取得了显著的成就,但大多数现有的方法都是针对视频行为分类任务(TAC)进行设计和优化的。当应用于时序定位任务(TAL)时,由于视频级别分类和片段级别定位之间的固有差异,这些预先训练的模型的迁移性能会受限。为了缓解这一问题,我们首次尝试对时序行为定位任务进行无监督预训练,提出一种新的自监督代理任务,称为“伪动作定位(Pseudo Action Localization,PAL)”。具体来说,我们首先从一个视频中随机选择两个不同时序区域(每个区域包含多个视频片段)作为伪动作区域,然后分别将它们粘贴到另外两个视频的不同时间位置。代理任务的目标是对齐两个新合成视频中粘贴的伪动作区域的特征,并最大化它们之间的一致性。与现有的无监督视频表征学习方法相比,PAL 以时间密集采样和时间尺度敏感的方式引入时序等变对比学习范式,从而使上游预训练与下游 TAL 任务实现更好的对齐。大量实验表明,PAL 可以利用大规模无类别标签的视频数据来显著提高现有 TAL 方法的性能。
代码地址
开源代码地址:https://github.com/zhang-can/UP-TAL
代码待开源,敬请watch上面的repo~