目录
第一个子网络 Agent-Aware Representation Network
第二个子网络 Boundary Generation Network
论文信息:
2022 CVPR
研究背景(意义)
现有的时序动作提名生成(TAPG)方法,例如BMN等,都用TSN的方法进行提取视频特征。
如果试图从第一步预处理视频开始,关注动作实例中环境和主体之间的互动,也许可以大幅度提高TAPG的性能。
目前时序动作定位面对的更现实的问题:动作持续时间不同、动作复杂、相机运动、视角变化
创新点
建立主体、动作、背景的组合关系。
- 依赖于全局特征和局部特征。
- 全局:整个环境提取信息,主体和背景之间的关系
- 局部:主体在哪里,主体在做什么
- 把原始视频分为等帧的片段
- 过去的工作中对一个视频序列的特征提取被定义为从C3D网络、双流网络、或SlowFast的隐藏测那个提取特征向量。但由于动作和主体通常发生在视频中一个小的空间区域内,所以会导致信息捕获不充足或者很嘈杂。
- 本文定义一种新的特征提取机制Contextual Agent-Aware Representation Network,聚合动作主体之间的交互特征和与环境之间的交互特征。
相关工作
1.TAPG
2.TAD
3.Video Feature Representation
三种主流网络:Two-Stream、LSTM、3D
方法部分
整体框架
第一个子网络 Agent-Aware Representation Network
step 1:BackBone
在整个帧长度的片段上编码全局语义信息。结构采用多层级的残差卷积层。每一个block 生成一个feature map 。最后一层输出的feature map用于后面两个步骤中的平行处理层。
step 2:Global Feature
最后一层feature map S4 经过Average Pooling层和全连接层,由于是对所有的空间维度都进行了处理,所以可以捕捉到全局抽象信息,但可能无法捕捉到细节(内部主体的运动)
step 3:Local Feature
包括两部分:
1. 提取出视频段中每个主体的局部语义信息。
选最中间的一帧输入Human Detector:用的是在COCO上预训练过的FasterRCNN。
将检测到的置信度分数>0.5的边框来引导RoIAlign从特征图S4中提取特征,包含的是主体的外观和动作的局部信息。
2. 然后引入自注意力模块,融合所有的局部特征向量
形成局部语义信息之后,用一个self-attention模块,对每个主体的局部特征进行查看,对更为重要的主体分配权重。
总结下来:
1. Faster RCNN相当于硬注意力,目的是:消除背景,只强调主体的运动。
2. 自注意力是软注意力,目的是:关注正确的主体,同时适当保留与其他主体的交互信息。
step 4:Feature Fusion
为了进一步融合局部和全局信息,再加入一个self-attention模块,目的是:对两部分进行适当加权。好处:有助于模型在生成proposal的时候要考虑哪种类型(主体局部信息还是场景的全局信息)的信息。
Self-Attention:TransFormer Encoder model
输入:a set of input feature:
变成三个潜在的状态矩阵 keys K、query Q、value V
step2中的self-attention,相当于是主体的数量,是个体的体征,代表一个多主体的特征集合。
step4中的self-attention,为2,对应环境特征和多主体特征,是片段的特征。
第二个子网络 Boundary Generation Network
Base Module:
1D卷积来提取snippet特征之间的时间关系。步长为1,相同的padding,来保证时间长度不变。
Temporal Assessment Module:
1D卷积
Proposal Assessment Module:
从base module中获取特征序列并生成两个特征矩阵,每个矩阵都密集地包含在每一个开始时间点开始的每个可能的持续时间的置信度(BMN)
3D卷积融合的那个单个proposal所有采样点的信息。
2D卷积融合相邻的proposal特征。
实验