TSI: Temporal Scale Invariant Network forAction Proposal Generation

SOTA-

已于 2022-07-04 16:20:35 修改

阅读量175

点赞数

文章标签：计算机视觉人工智能

于 2022-05-11 14:55:44 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43913387/article/details/124690019

版权

论文信息

ACCV 2020

研究背景（意义）

忽略动作尺度问题，短动作的预测不是太好。召回率较低，可能是由于不平衡的正样本分布造成的。
第二个问题是边界检测模块，目前的主要方法几种在局部信息和低层次信息上，忽略了全局背景。

创新点

利用时间上下文信息预测准确的动作边界，并回归准确的

设计了一种新颖的损失函数，scale-invariant loss function，减少动作尺度变化的影响，解决短动作的不充分学习。

边界评估模块：高精度保证的全局分支和高召回率保证的局部分支。
proposal评估模块：预测不同规模的proposal的准确完整性，引入scale-invariant 损失函数。

相关工作

自上而下的proposal生成方法：一般是先初始化一个默认的proposal集合，这个集合一般是通过gt进行聚类来预定义，然后再用置信度回归。

方法部分

整体框架

Video Representation：

给定一个未剪辑的视频X，proposal annotation 可以表示为：

目的生成候选proposal集合： $si$ 是置信度，根据它来对proposal进行排序

BMN

Temporal Scale Invariant Network

Boundary Detector：

提出问题：传统的方法认为，边界是一种局部信息，不需要过多关注事件背景或者是深层次的语义特征，所以他们有一个比较局限的感受野。

解决：实际上具有不同尺度的动作应该需要对应的感受野，所以需要获得局部和全局信息。

local branch：两个1D卷积，感受野比较小，专注于局部的突然变化，生成高召回率的粗糙的边界，以覆盖所有的真实的开始和结束点，但精度比较低。

global branch：扩大感受野，U型网络呈现边界。使用多个卷积层，通过下采样来提炼不同粒度的语义信息。为了恢复特征的分辨率，再重复上采样，并把相同分辨率的特征串联起来。

IoU map Regressor：

proposal的置信度回归对于动作提名的生成也很重要。

采用BMN中的边界匹配机制，密集回归潜在的proposal置信度。本质上是一个ROI align层。

之后，每个proposal被预测为两个置信度分数，是由IoU分类损失和IoU回归损失监督的。分类损失忽略了动作尺度的影响，由Scale-Imbalance Loss监督。

Scale-Imbalance Analysis in Proposal Generation：

短动作检测能力差的原因：

1. 粒度有限的特征表示不足，2.IoU评估指标导致的严格的边界重叠要求，3.不平衡的样本训练。

动作的尺度s指的是动作长度与视频长度的比值，因而s $\in$ (0，1)

为了解决样本不平衡，损失函数要满足：1.每个gt对应的正样本数量应该被平等考虑。2.正负样本要平衡

Loss Function：

$wi,j$ 是 $pi,j$ 的权重系数， $bi,j$ 是mask，说明一定的阈值下是否是正样本。

如果是一个正样本，且属于proposal $\psi c$ ，就把这个proposal的损失和 $\psi c$ 总正样本数 $npos$ 相除

超参数 $\alpha$ 大于0.5，SI-loss对负样本的权重更高，减少假的对正样本的反应。

实验

虽然讨论时序动作proposal生成的结果可以和分类的结果共同包含在detection任务中，但设计proposal的置信度排名需要好好设计。就比如DBG取得了最好的proposal生成性能，但detection的mAP却很低，原因是这两个任务的评价指标不相同，proposal的生成侧重于检索到proposal的多样性，通过排名前N的召回率来判断性能，但detection任务侧重于更顶级的精度，比如top 5。

可以提示我们，若要提升detection的性能，用proposal生成的结果再次学习，对proposal重新排序。例如PGCN。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
TSI: Temporal Scale Invariant Network forAction Proposal Generation

论文信息ACCV 2020研究背景（意义）忽略动作尺度问题，短动作的预测不是太好样本不均衡问题创新点利用时间上下文信息预测准确的动作边界，并回归准确的设计了一种新颖的损失函数，scale-invariant loss function，减少动作尺度变化的影响，解决短动作的不充分学习。边界评估模块：高精度保证的全局分支和高召回率保证的局部分支。 proposal评估模块：预测不同规模的proposal的准确完整性，引入scale-invari........
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。