[CVPR2021]Modeling Multi-Label Action Dependencies for Temporal Action Localization

标题:Modeling Multi-Label Action Dependencies for Temporal Action Localization
链接:https://arxiv.org/pdf/2103.03027

任务

给定一段视频和多个类别,要求输出每一帧对应类别的存在概率。
简单来说就是给一段篮球赛的视频,要求判断出那一段视频是在跑步,哪一段是在拍球,哪一段是在投篮,那一段球在滚动。。。

思路

因为动作之间有互相依赖关系,因此在判断多个类别的时候其实动作互相之间是可以有帮助的。例如,当前一段视频检测出某人踩了西瓜皮,那么下一段视频很有可能就是他摔倒了,这就叫做时间依赖,也即他们在时间维度上是有关系的。又例如,当某人在篮球场上带球跑步,那么球一定是不断在地面上弹跳的,这就叫做共现依赖,也即两个动作有依存的关系。而这个模型就是基于这两个依赖来预测多类别的动作的。

方法

提出了MLAD层(Multi-Label Action Dependency),本质上就是一个self attention的结构,只不过分别对时间和动作类别做了attention,然后再将结果累加而已。
首先使用预训练的网络提取了帧级的feature和视频级的feature,然后将之叠加,从而把视频编码成为一个TF维的向量,T代表总时长,F代表每帧的向量维度。然后经过一个全连接层扩展为TFC维的向量,C代表类别总数。然后就将这个向量输入MLAD,分别生成CTT和TC*C的attention map,然后经过一个全连接层,之后相加得到最终的feature。然后再针对每个类别做预测得到最终的结果。

贡献

  1. 提出了MLAD层
  2. 提出了新的metric,用于测量模型对不同标签之间的依存性的判断
  3. 提出的方法达到了SOTA
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值