前景:
主流的时序动作提名生成方法分为两步:
- 第一步,对输入的视频特征序列进行简单的时序信息融合
- 第二步,使用基于边界预测的方法或者是预定义锚框的方法生成可能包含人体动作的大量候选proposal
解决的问题:
- 第一步,现有方法大多是堆叠的1D卷积。较好地建模短期时序依赖,有些采用了全局融合的方式对全局特征捕获,有的把全局池化后的特征加在每一个时刻位置上,所以每一个时刻获得的全局信息都是相同的,缺乏多样性和区分度。
- 第二步,基于边界预测的方法,对动作的起止边缘比较敏感,并用边界匹配的机制生成大量的灵活proposal,召回率较高。但缺乏客观的proposal级别的特征,置信度(包含动作)不够可靠,导致检测的准确率不高。
改进:
- 针对时序建模不够充分的问题:各个时间位置的特征采用通道分组策略高校建模,多头自注意力的方式同时对一个时间点进行求取局部和全局的多样化时序依赖。
- 针对提高边界特征利用效率的问题:利用边界预测和基于锚点回归的互补特性,1.用proposal的起始和结束边界的上下文信息来预测proposal边界的偏移量,2.再用提名的全局特征来预测优化proposal的中文位置和长度偏移。两种得到的回归的proposal相融合。
- 为了对两种回归方式联合优化,采用级联的方式对proposal进行多阶段修正,由粗到细的正负样本划分方式,将待优化的proposal通过三个级联的优化模块。
创新点:
- 局部-全局时序特征编码器(LGTE)
输入的特征经过三次不同的线性变换后,沿着通道方向分成8个组,4个组对每一个时序位置全局自注意力建模,另外4个用来对每个位置进行局部自注意力建模。
- 互补时序边界回归器TBR
结合基于预定义框回归(可靠置信度)和基于局部信息的起止点边节点预测(准确定位边界)两种proposal生成的优缺点。
把经过局部-全局编码后的特征序列进行采样之后,把一个proposal的特征分成三个部分,起始点局部特征Fs和结束点的局部特征Fe用来回归优化proposal的起始点和结束点的偏移量。中心特征Fc和Fs、Fe用于联合回归proposal的中心点和proposal的长度偏移量。
训练细节:
- proposal选择:首先用NMS去除大量冗余的proposal,最后在置信度分数TOP-100的提名用于优化器训练。
- 训练标签分配:正样本:与gt的IoU大于一定阈值。负样本:与gt的IoU小于一定阈值。不完全样本:位于两个阈值中间的。同时需要实现训练过程中正负样本平衡,三种样本比例1:1:1