论文信息
ACCV 2020
研究背景(意义)
- 忽略动作尺度问题,短动作的预测不是太好。召回率较低,可能是由于不平衡的正样本分布造成的。
- 第二个问题是边界检测模块,目前的主要方法几种在局部信息和低层次信息上,忽略了全局背景。
创新点
利用时间上下文信息预测准确的动作边界,并回归准确的
- 设计了一种新颖的损失函数,scale-invariant loss function,减少动作尺度变化的影响,解决短动作的不充分学习。
- 边界评估模块:高精度保证的全局分支和高召回率保证的局部分支。
- proposal评估模块:预测不同规模的proposal的准确完整性,引入scale-invariant 损失函数。
相关工作
自上而下的proposal生成方法:一般是先初始化一个默认的proposal集合,这个集合一般是通过gt进行聚类来预定义,然后再用置信度回归。
方法部分
整体框架
Video Representation:
给定一个未剪辑的视频X,proposal annotation 可以表示为:
目的生成候选proposal集合:是置信度,根据它来对proposal进行排序
BMN
Temporal Scale Invariant Network
Boundary Detector:
提出问题:传统的方法认为,边界是一种局部信息,不需要过多关注事件背景或者是深层次的语义特征,所以他们有一个比较局限的感受野。
解决:实际上具有不同尺度的动作应该需要对应的感受野,所以需要获得局部和全局信息。
local branch:两个1D卷积,感受野比较小,专注于局部的突然变化,生成高召回率的粗糙的边界,以覆盖所有的真实的开始和结束点,但精度比较低。
global branch:扩大感受野,U型网络呈现边界。使用多个卷积层,通过下采样来提炼不同粒度的语义信息。为了恢复特征的分辨率,再重复上采样,并把相同分辨率的特征串联起来。
IoU map Regressor:
proposal的置信度回归对于动作提名的生成也很重要。
采用BMN中的边界匹配机制,密集回归潜在的proposal置信度。本质上是一个ROI align层。
之后,每个proposal被预测为两个置信度分数,是由IoU分类损失和IoU回归损失监督的。分类损失忽略了动作尺度的影响,由Scale-Imbalance Loss监督。
Scale-Imbalance Analysis in Proposal Generation:
短动作检测能力差的原因:
1. 粒度有限的特征表示不足,2.IoU评估指标导致的严格的边界重叠要求,3.不平衡的样本训练。
动作的尺度s指的是动作长度与视频长度的比值,因而s(0,1)
为了解决样本不平衡,损失函数要满足:1.每个gt对应的正样本数量应该被平等考虑。2.正负样本要平衡
Loss Function:
是 的权重系数,是mask,说明一定的阈值下是否是正样本。
如果是一个正样本,且属于proposal ,就把这个proposal的损失和总正样本数相除
超参数大于0.5,SI-loss对负样本的权重更高,减少假的对正样本的反应。
实验
虽然讨论时序动作proposal生成的结果可以和分类的结果共同包含在detection任务中,但设计proposal的置信度排名需要好好设计。就比如DBG取得了最好的proposal生成性能,但detection的mAP却很低,原因是这两个任务的评价指标不相同,proposal的生成侧重于检索到proposal的多样性,通过排名前N的召回率来判断性能,但detection任务侧重于更顶级的精度,比如top 5。
可以提示我们,若要提升detection的性能,用proposal生成的结果再次学习,对proposal重新排序。例如PGCN。