Single Shot Temporal Action Detection 论文介绍

这篇笔记主要介绍我今年上半年投稿到ACM Multimedia会议的工作。这篇论文的实验大概从寒假放假回来后开始,在ICCV截稿前一个礼拜开始准备论文,但时间太赶没能完成实验和论文写作,所以花了一个多月完善后投稿了ACM multimedia。ACM multimedia 今年取消了long/short paper的区分,而是改为oral/poster paper,这两者均为9页长度(8页正文,1页引用),基本上和CVPR等会议是一样的形式。我投稿的文章依旧做的是temporal action localization 方向(也可以叫作 temporal action detection),最后录用为poster paper,论文可以在我的个人主页上下载: Tianwei Lin’s Homepage

首先关于 temporal action detection 这个研究领域的介绍,可以见我之前写的专栏文章:Video Analysis 相关领域解读之Temporal Action Detection(时序行为检测)。 简单来说,temporal action detection是要在视频序列中确定动作发生的时间区间(包括开始时间与结束时间)以及动作的类别。与其关系紧密的一个领域是基于图像的object detection,object detection是检测物体在图像中的位置,包括长和宽两个维度,而temporal action detection则只需要确定时间维度上动作的位置。

由于temporal action detection与 object detection 问题有很大的相似性,所以很多工作都是将object detection中的一些方法思路迁移到temporal action detection中。很多方法使用划窗方法或者是通过特定的proposal model来获得temporal action proposals,再进行分类从而实现detection。可以看出,这些方法都采用了 R-CNN/Fast-RCNN/Faster-RCNN 类型的结构,即通过对proposal分类来实现detection。而在object detection 问题中,另一类被广泛使用的模型并不采用这种结构,而是同时进行proposal 以及 classification, 比如SSD 以及YOLO。这篇文章即结合了SSD与YOLO模型的特点,针对temporal action detection问题,设计并实现了 Single Shot Action Detector (SSAD) 模型。下面对论文进行简要的介绍,详细的细节欢迎阅读论文原文。

方法概览

image

该图为论文首页图,展示了本文提出方法的大致流程,即先使用预训练好的模型对视频序列提取特征得到特征序列,再使用特征序列作为SSAD模型的输入,最终SSAD模型输出detection的结果。

image

该图则更为细致得展示了本文方法的几个主要流程。即(1)特征提取;(2)SSAD模型; (3)后处理(训练或测试)

特征提取

本文的特征提取使用了two stream network中的spatial network以及temporal network(网络结构均为VGG16),以及基于3D CNN的C3D网络来提取特征。每个用作特征提取的视频帧单元称为一个snippet,包含图像帧以及光流等,具体的定义在论文中给出。我们拼接3个网络的最后一层输出(该层输出即代表输入snippet对应的每个动作的概率)作为后续使用的特征,该特征记作SAS(Snippet Action Score)特征。最终,对于一个包含T 帧图像的视频,我们可以得到等长的SAS特征序列。该特征序列实际上就是一个二维的矩阵。

SSAD 模型

在获得长度为T的特征序列后,就可以将其用作SSAD模型的输入。SSAD模型是一个全部由时序卷积(一维卷积)构成的网络。主要包括三种卷积层:base, anchor, prediction layer。 Base layers 的作用为缩短特征序列的长度,并增大特征序列中每个位置的感受野。在实验中,我们尝试了多种base layers的结构,如下图所示。最终,通过实验我们选择了结构B。可以看出,conv和pool均选用了较大的kernel size。在base layers中,我们发现使用大卷积核比使用多层小卷积核进行卷积能获得更好的效果。

image

接下来SSAD模型中继续使用anchor layers 来缩小特征序列的长度。anchor layer 输出的特征序列中的每个位置都被关联了多个尺度的anchor instances(一个instance代表视频中动作发生的那一段时间,可以理解为一个一维的default box)。之后,再通过prediction layer,来获取每个anchor instances所对应的 坐标偏移量,重叠置信度,以及类别分类结果。通过多层时间尺度不断缩小的特征序列,SSAD模型可以获得由小到大各个时间尺度的action instance预测。

image

训练与预测

训练

训练时,首先将获得的anchor instances用坐标偏移量进行修正,再与 ground truth instances 进行匹配,来确定anchor instances是正样本还是负样本。具体的匹配策略见论文。SSAD模型使用如下的损失函数进行模型训练,主要包括分类损失,重叠置信度回归损失,边界回归损失以及正则化项。

  • 4
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
### 回答1: 时空动作检测是指在视频中检测和识别出特定的动作,同时确定其发生的时间和持续时间。这种技术可以应用于许多领域,如视频监控、体育比赛分析和人机交互等。它需要结合计算机视觉、机器学习和深度学习等技术,以实现准确和高效的动作检测。 ### 回答2: 随着视频数据日益增多,如何从视频中识别和理解行动是计算机视觉领域的一个重要研究方向。传统的视频动作识别往往只考虑整个视频的静态信息,而忽略了视频中的时间信息。因此,近年来,研究者们开始关注如何在视频中进行时间上的动作检测,也称为temporal action detectionTemporal action detection通常包括三个关键步骤:动作提议生成、动作分类以及开始和结束时间的回归。第一步,需要在视频中生成候选的动作框架,这些框架会被送到下一步进行动作分类和时间回归。第二步,对于每个候选框架,需要将其与定义好的动作类别进行分类,例如"打网球"或者"跑步"等。第三步,需要为每个动作框架预测开始和结束时间,从而得到完整的时间戳,指示该动作从哪个时间开始,持续多长时间。 值得注意的是,传统的做法通常需要精确的时间戳,而这对于复杂的动作探测并不总是可行。因此,最近的研究更侧重于标记时间模糊,利用模糊的定义来帮助模型更好地识别和分类动作。此外,现有的大多数temporal action detection方法都是基于深度神经网络的,如2D和3D CNN等。 总之,temporal action detection是视频分析领域中的一个热门研究方向。它不仅可以用于视频内容分析,还可以应用于体育、安防、日志分析等领域。未来,我们可以期待更多的研究工作进一步提高这一领域的性能和应用。 ### 回答3: Temporal Action Detection(时序动作检测)是指通过视频序列中发生的连续动作进行分析和理解,进而在其中对目标动作进行检测的一种研究领域。时序动作检测是视频分析领域的一个热门研究方向,它试图从视频序列中自动识别和定位出特定动作的发生时刻和持续时间。 时序动作检测的研究难点在于,视频中的动作通常是不规则的,其持续时间、起止时间和动作速度等都可能不同。因此,其实现需要解决一系列技术问题,包括视频序列预处理、特征提取、动作表示、时间对齐、动作分类和检测等。 在视频序列预处理方面,需要进行视频采样、帧差分和轮廓提取等操作。在特征提取方面,需要考虑如何从视频序列中提取出区分不同动作的关键特征。常用的特征包括传统的HOG、MBH和HOF等特征,以及近年来流行的深度学习中的CNN和RNN等方法。动作表示方面,通常采用短时间动作片段(clip)或整个动作区间来表示动作。时间对齐方面,需要使用不同算法将动作片段与对应的标签对齐。动作分类方面,需要选择合适的分类器来进行动作分类和检测。目前常用的方法包括线性SVM、非线性SVM和随机森林等。 时序动作检测的应用非常广泛,包括视频检索、演员行为分析、交通监控、体育赛事分析、视频自动标注等。尽管在时序动作检测方面已经取得了很多进展,但仍需要使用更加先进的技术来提高检测精度和鲁棒性。未来,时序动作检测将成为视频智能分析,特别是人机交互等领域中重要而具有挑战性的任务。
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值