MS-TCN

Abstract

传统方法遵循两步流程:

  1. 生成逐帧概率;
  2. 提供给高级时间模型。

最近方法:使用时间卷积直接对视频帧进行分类。

本文:引入多阶段结构,直接对视频帧进行分类。

Introduction

研究对象:未修剪的长视频中检测和定位动作片段。

本文模型:每一层生成一个预测,由下一阶段进行细化。

虽然结构很好,但是在训练期间进一步采用了平滑损失,惩罚预测中的过度分割问题。

贡献有两个:

  1. 提出了多阶段模型;
  2. 引入了平滑损失。

Temporal Action Segmentation

Single-Stage TCN

单阶段模型仅有时间卷积层组成。

不使用池化层(会降低时间分辨率);不使用全连接层(参数量大)。

没有使用因果卷积。(啥是因果卷积?)

结构为:
在这里插入图片描述

数学表达式为:

在这里插入图片描述

其中,每层的感受野为:

在这里插入图片描述
在每一阶段最后都会进入Softmax层,输出类别概率。

Multi-Stage TCN

每一阶段从前一阶段获得初始预测,并对其进行改进。

使用多阶段结构有助于提供更多的上下文来预测每一帧的类标签。

由于每个阶段的输出是初始预测,网络能够捕获动作类之间的依赖关系,并学习合理的动作序列,有助于减少过度分割错误。

Experiments

number of stages

单阶段效果不佳。
增加至两到三个阶段准确性大幅度提升。
增加至四个阶段,性能提升,但是不大多。
增加至五个阶段,过拟合,性能下降。

Muti-Stage TCN vs. Deeper Single-Stage TCN

为了弄明白,这样一种性能的增长,是因为多阶段的原因,还单单只是因为增加了参数的数量。

事实证明,多阶段,就是好!

传递特征的影响

此处研究了概率+特征作为输入的效果。

将最后一个扩张卷积层的输出连接到下一阶段。

结果发现,性能大幅度下降。

作者认为,导致性能下降的原因是许多动作类具有相似的外观的动作。通过在每个阶段添加此类的特征,模型会被混淆,并产生与过度分割效应相对应的小的分离的错误检测的动作片段。

仅传递概率会迫使模型关注相邻标签的上下文,这些标签由概率明确地表示。

在这里插入图片描述

时间分辨率的影响

本文方法可以处理15fps。

实验结果表明:

在这里插入图片描述
较低的分辨率可以给出更好的编辑距离和分段F1分数。
较高的分辨率会提高逐帧的精度。

低分辨率的代价是,失去了动作段之间边界的精确位置,甚至丢失了小的动作段。

number of layers

6~10层,随着层数增加,提高性能。这主要是基于感受野的增加。
超过十层,不会提高逐帧的精度,但是会提高F1分数。

在这里插入图片描述
视频越长,性能越差,因为感受野有限。

微调特征的作用

本实验直接使用了I3D特征。
在这里插入图片描述
显然,微调特征的效果不大好,这是因为时间模型对于分割比识别更重要。

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

右边是我女神

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值