Abstract
目标:解决过度分割问题。
方法:时间编码器-解码器来解决序列碎片问题。
特点:解码器遵循具有多个时间分辨率的隐式集合,并且从粗到细。
其他贡献:
- 采用多分辨率增强策略以强化训练;
- 设计了支持架构的损失函数。
成果:在三个数据集上取得了最好的效果。
Introduction
标准模型:MS-TCN
两种改进思路:
- 额外的训练;
- 后处理平滑。
本文的思路:
编码器:将时间分辨率降低到某个瓶颈特征;
解码器:将序列恢复到原始时间分辨率之前。
核心思想:先收缩后拉伸。
这样的想法,来源于图像分割、流量估计和地标检测。
Encoder-Decoder的设计在过去性能不佳的原因在于:
瓶颈设计与解码器设计过于简单(子动作长度显著变化,解码器必须仔细设计以进行动作分割)。
为了处理不同子长度,提出了一种结构:解码器的输出层进行“从粗到精”的集成。
介绍两个新的特性:
Video-level loss:
目前,tcn的训练以帧级丢失为代价的。
这并不能充分惩罚序列级未分类。
为了增加帧级的损失,引入了一种新的视频级“动作损失”来惩罚与复杂活动标签无关的子动作。
这种损失在减轻过度分