ASM-Loc Action-aware Segment Modeling for Weakly-Supervised Temporal Action Localization

主要贡献

1.提出一个动态片段采样模块,主要针对弥补短的动作片段语义信息不够的情况
2.利用片段内和片段间的注意力机制来动态捕捉片段的时序依赖性质
3.提出伪实例级别标签来提升动作边界的预测。
提出了一个多层级的提取策略来训练整个模型网络
在这里插入图片描述
指出现有的弱监督TAL方法的缺点:1.定位完整性:由于缺乏视频级别的标签(定位)模型往往生成不完整的或者过于长的动作片段proposal
2.对于长度较短的动作片段,经常会出现漏检的情况,因为整个模型对于较短的视频片段往往会倾向于给更低的置信度分数。

作者认为现有的方法缺乏segment-based建模是现在性能较低的主要原因。
Foreground loss
在这里插入图片描述
Background loss
在这里插入图片描述
在这里插入图片描述

Action-aware background loss

在这里插入图片描述
设置一个新的loss函数,用来反应一种现象:例如桌球这个动作,不属于动作帧会有一张台球桌的语义信息,这个语义信息足够使模型识别出来桌球这个动作。

在这里插入图片描述
Dynamic Segment Sampling

问题:在WTAL中,时长较短的动作segment由于模型的bias尝尝被赋予较低的置信度分数,这就造成了动作检测和定位的错误。
解决方案:
动态上采样方案:
第一步:初始化采样权重 w = 1 对每个时间t来说
第二步:当一个视频proposal的长度小于gamma,给它重新赋予权重在这里插入图片描述
s,e代表开始和结束,
计算出来在这里插入图片描述
之后用它的倒数对整个片段进行均采样,需要上采样的地方,使用线性插值。

Intra- and Inter-Segment Attention
如果对整个视频片段使用注意力机制的话,那么会因背景产生额外的噪音,因此在片段内部使用注意力机制更好一点。
Intra-Attention
视频中很多动作是有关系的把比如CricketBowling和CricketShotting都是接连出现的,因此使用inter-attention捕捉这种依赖是对模型有帮助的。
Inter-attention
Pseudo Instance-level loss
实例级别的损失构成:
1.先生成实例级别的标签
在这里插入图片描述
uncertainty score让noisy大的instance 对loss贡献减少

在这里插入图片描述

Multi-step Proposal Refinement
在这里插入图片描述

消融实验1,验证各个模块的有效性, DSS +1.1 intra-attention +1.5 inter-attention +1.7 Lins +1.0
并且看起来提出的模块都是互补的,开始我自己认为intra-inter可能会有冲突。
在这里插入图片描述
并且还对比了global对模型的伤害,这点对我是有一定启发的
在这里插入图片描述
验证动态采样策略带来的提升,在baseline性能上发现xs目标的性能提升了很多。这点也很有意思。
在这里插入图片描述
不确定分数的消融实验,感觉可以当作一个trick
在这里插入图片描述
proporsal refinement,虽然没跑代码但是感觉这个模块的提升好大。
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值