最终的结果是得到图像或视频段中目标的行为类别。视频中人体行为识别主要分为两个子方向。
行为分类/识别 Action Recognition
- 给定一个包含一段明确的动作的视频片段进行分类,使用的视频序列数据都先将动作分割好了,时间较短(几秒钟)且有唯一确定的标签。所以也可以看作是input为视频,输出为label。
时序动作检测 Temporal Action Detection
主要解决的是两个任务:localization+recognization
1)where:什么时候发生动作,即开始和结束时间;
2)what:每段动作是什么类别
一般把这个任务叫做Temporal Action Detection,有的直接叫Action Detection,还有叫Action Localization、
- 数据是未分割的较长视频序列,不仅要知道一个动作在视频中是否发生,还需要知道动作发生在视频的哪段时间(包括开始和结束时间)(行为检测 Temporal Action Localization)
- 特点是需要处理较长的、未分割的视频,且视频中通常有较多干扰,目标动作一般只占视频的一小部分。也可以说是对视频进行指定行为的检测