[CVPR2022] 面向时序行为定位任务的无监督预训练

最新推荐文章于 2024-04-21 09:37:10 发布

zhang_can

最新推荐文章于 2024-04-21 09:37:10 发布

阅读量728

点赞数

分类专栏：行为检测行为识别在线视频理解文章标签：计算机视觉时序行为定位无监督学习 CVPR2022

本文链接：https://blog.csdn.net/zhang_can/article/details/123413431

版权

行为识别同时被 3 个专栏收录

6 篇文章 4 订阅

订阅专栏

在线视频理解

2 篇文章 0 订阅

订阅专栏

行为检测

1 篇文章 0 订阅

订阅专栏

文章信息

英文题目：Unsupervised Pre-training for Temporal Action Localization (UP-TAL)
中文题目：面向时序行为定位任务的无监督预训练
作者：Can Zhang, Tianyu Yang, Junwu Weng, Meng Cao, Jue Wang and Yuexian Zou
单位：北京大学、腾讯AI Lab
论文链接：https://arxiv.org/abs/2203.13609

主要贡献

首次面向时序行为定位任务进行无监督预训练（UP-TAL）；
为此，提出了一个新的代理任务叫做“伪动作定位”（Pseudo Action Localization，PAL），并根据 TAL 任务特点，设计了一种时序等变学习（temporal equivariance learning）范式;
实验表明在下游时序行为定位任务上超过了主流无监督预训练方法，甚至超过一些有监督预训练方法。下游性能测评任务包括：时序行为检测（Temporal Action Detection，TAD）、行为提议生成（Action Proposal Generation，APG）以及视频文本定位（Video Grounding，VG）。

太长不看系列（TLDR）

伪动作定位（PAL）方法概览
给定一个视频 $\bm{v}_i$ , 我们首先从中随机选择两个不同时序区域（每个区域包含多个视频片段）作为伪动作区域，然后分别将它们粘贴到另外两个视频（ $\bm{v}_n$ 和 $\bm{v}_m$ ）的不同时间位置。代理任务的目标是对齐两个新合成视频中粘贴的伪动作区域的特征（ $\bm{r}_q$ 和 $\bm{r}_{k+}$ ），并最大化它们之间的一致性。

文章摘要

虽然近年来无监督视频表征学习取得了显著的成就，但大多数现有的方法都是针对视频行为分类任务（TAC）进行设计和优化的。当应用于时序定位任务（TAL）时，由于视频级别分类和片段级别定位之间的固有差异，这些预先训练的模型的迁移性能会受限。为了缓解这一问题，我们首次尝试对时序行为定位任务进行无监督预训练，提出一种新的自监督代理任务，称为“伪动作定位（Pseudo Action Localization，PAL）”。具体来说，我们首先从一个视频中随机选择两个不同时序区域（每个区域包含多个视频片段）作为伪动作区域，然后分别将它们粘贴到另外两个视频的不同时间位置。代理任务的目标是对齐两个新合成视频中粘贴的伪动作区域的特征，并最大化它们之间的一致性。与现有的无监督视频表征学习方法相比，PAL 以时间密集采样和时间尺度敏感的方式引入时序等变对比学习范式，从而使上游预训练与下游 TAL 任务实现更好的对齐。大量实验表明，PAL 可以利用大规模无类别标签的视频数据来显著提高现有 TAL 方法的性能。

代码地址

开源代码地址：https://github.com/zhang-can/UP-TAL

代码待开源，敬请watch上面的repo~

zhang_can

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
[CVPR2022] 面向时序行为定位任务的无监督预训练

虽然近年来无监督视频表征学习取得了显著的成就，但大多数现有的方法都是针对视频行为分类任务（TAC）进行设计和优化的。当应用于时序定位任务（TAL）时，由于视频级别分类和片段级别定位之间的固有差异，这些预先训练的模型的迁移性能会受限。为了缓解这一问题，我们首次尝试对时序行为定位任务进行无监督预训练，提出一种新的自监督代理任务，称为“伪动作定位（Pseudo Action Localization，PAL）”。
复制链接

扫一扫