[CVPR2022] 面向时序行为定位任务的无监督预训练

文章信息

  • 英文题目:Unsupervised Pre-training for Temporal Action Localization (UP-TAL)
  • 中文题目:面向时序行为定位任务的无监督预训练
  • 作者:Can Zhang, Tianyu Yang, Junwu Weng, Meng Cao, Jue Wang and Yuexian Zou
  • 单位:北京大学、腾讯AI Lab
  • 论文链接:https://arxiv.org/abs/2203.13609

主要贡献

  1. 首次面向时序行为定位任务进行无监督预训练(UP-TAL);
  2. 为此,提出了一个新的代理任务叫做“伪动作定位”(Pseudo Action Localization,PAL),并根据 TAL 任务特点,设计了一种时序等变学习(temporal equivariance learning)范式;
  3. 实验表明在下游时序行为定位任务上超过了主流无监督预训练方法,甚至超过一些有监督预训练方法。下游性能测评任务包括:时序行为检测(Temporal Action Detection,TAD)、行为提议生成(Action Proposal Generation,APG)以及视频文本定位(Video Grounding,VG)。

太长不看系列(TLDR)

伪动作定位(PAL)方法概览
给定一个视频 v i \bm{v}_i vi, 我们首先从中随机选择两个不同时序区域(每个区域包含多个视频片段)作为伪动作区域,然后分别将它们粘贴到另外两个视频( v n \bm{v}_n vn v m \bm{v}_m vm)的不同时间位置。代理任务的目标是对齐两个新合成视频中粘贴的伪动作区域的特征( r q \bm{r}_q rq r k + \bm{r}_{k+} rk+),并最大化它们之间的一致性。

文章摘要

虽然近年来无监督视频表征学习取得了显著的成就,但大多数现有的方法都是针对视频行为分类任务(TAC)进行设计和优化的。当应用于时序定位任务(TAL)时,由于视频级别分类和片段级别定位之间的固有差异,这些预先训练的模型的迁移性能会受限。为了缓解这一问题,我们首次尝试对时序行为定位任务进行无监督预训练,提出一种新的自监督代理任务,称为“伪动作定位(Pseudo Action Localization,PAL)”。具体来说,我们首先从一个视频中随机选择两个不同时序区域(每个区域包含多个视频片段)作为伪动作区域,然后分别将它们粘贴到另外两个视频的不同时间位置。代理任务的目标是对齐两个新合成视频中粘贴的伪动作区域的特征,并最大化它们之间的一致性。与现有的无监督视频表征学习方法相比,PAL 以时间密集采样和时间尺度敏感的方式引入时序等变对比学习范式,从而使上游预训练与下游 TAL 任务实现更好的对齐。大量实验表明,PAL 可以利用大规模无类别标签的视频数据来显著提高现有 TAL 方法的性能。

代码地址

开源代码地址:https://github.com/zhang-can/UP-TAL

代码待开源,敬请watch上面的repo~

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: CVPR(计算机视觉与模式识别)是计算机领域中颇具知名度的顶尖会议之一,每年都会吸引全球众多顶尖科学家和企业参会,分享最新科研成果和技术应用。2022年,CVPR会议将继续举办,本次会议将会涵盖很多领域的研究和技术应用。 根据官方发布的信息,CVPR2022的主题为“计算机视觉的进一步发展”,会议涵盖范围广泛,包括但不限于深度学习、计算机视觉、图像处理、机器学习、数据挖掘等方面的研究。 其中,会议主题包括但不限于: 1. 计算机视觉:特别关注图像和视频的理解、分割、检测和跟踪等方面。 2. 深度学习:针对对计算机视觉领域中涉及的多种深度学习技术进行深入研究,探讨其原理和优化方法。 3. 图像处理:主要关注图像生成、超分辨率、去噪以及图像重建和复原等技术。 4. 机器学习:探讨智能化和自主化技术,涉及到机器学习、增强学习、无监督学习、以及半监督学习等方面的研究和应用。 5. 数据挖掘:主要针对海量数据下的分类、聚类、降维和预处理等方面的研究,以及各种机器学习算法的实现和应用。 总之,CVPR2022是一个专注于计算机视觉和深度学习等领域的知名学术会议,各大领域的专家学者都将通过会议分享其最新成果、经验和技术进展,推动相关学科领域的发展和前进。 ### 回答2: CVPR2022计算机视觉领域的重要国际会议,将于2022年6月19日至24日在美国纽约举行。具体来说,CVPR2022主要聚焦于深度学习、3D计算机视觉、机器学习、计算机图形学以及视觉与语言等热门前沿领域。 CVPR2022将包括口头报告、海报展示等多种形式的会议论文。此外,本次会议还将举办工业界论坛、计算机视觉教育论坛、图像生成竞赛等各种精彩纷呈的活动。 此外,在CVPR2022会议中,也将有一些分类比赛。比赛包括:视觉目标跟踪、图像分类、物体探测与分割、视觉问答、场景还原等等。这些比赛不仅考验了各个领域科学家的技术水平,而且也为人们提供了一个深入了解最前沿技术的机会,也为产业界提供了一个展示智能产品研发技术的好平台。 总之,CVPR2022计算机视觉领域的盛事,各界专家云集,汇聚了数百篇最新的论文和客题演讲,将为大家带来前沿的研究成果和业界的最新发展,为该领域的研究进展提供有力的帮助。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值