标题:Modeling Multi-Label Action Dependencies for Temporal Action Localization
链接:https://arxiv.org/pdf/2103.03027
任务
给定一段视频和多个类别,要求输出每一帧对应类别的存在概率。
简单来说就是给一段篮球赛的视频,要求判断出那一段视频是在跑步,哪一段是在拍球,哪一段是在投篮,那一段球在滚动。。。
思路
因为动作之间有互相依赖关系,因此在判断多个类别的时候其实动作互相之间是可以有帮助的。例如,当前一段视频检测出某人踩了西瓜皮,那么下一段视频很有可能就是他摔倒了,这就叫做时间依赖,也即他们在时间维度上是有关系的。又例如,当某人在篮球场上带球跑步,那么球一定是不断在地面上弹跳的,这就叫做共现依赖,也即两个动作有依存的关系。而这个模型就是基于这两个依赖来预测多类别的动作的。
方法
提出了MLAD层(Multi-Label Action Dependency),本质上就是一个self attention的结构,只不过分别对时间和动作类别做了attention,然后再将结果累加而已。
首先使用预训练的网络提取了帧级的feature和视频级的feature,然后将之叠加,从而把视频编码成为一个TF维的向量,T代表总时长,F代表每帧的向量维度。然后经过一个全连接层扩展为TFC维的向量,C代表类别总数。然后就将这个向量输入MLAD,分别生成CTT和TC*C的attention map,然后经过一个全连接层,之后相加得到最终的feature。然后再针对每个类别做预测得到最终的结果。
贡献
- 提出了MLAD层
- 提出了新的metric,用于测量模型对不同标签之间的依存性的判断
- 提出的方法达到了SOTA