TCANet-Temporal Context Aggregation Network for Temporal Action Proposal Refinement

最新推荐文章于 2023-12-30 15:34:31 发布

SOTA-

最新推荐文章于 2023-12-30 15:34:31 发布

阅读量635

点赞数

文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/weixin_43913387/article/details/124825382

版权

该博客探讨了主流时序动作提名生成的两步方法，即时序信息融合和边界预测。现有的方法在建模时序依赖和边界预测上存在不足。为解决这些问题，提出了LGTE（局部-全局时序特征编码器）以增强时序特征的建模，以及TBR（互补时序边界回归器）结合边界预测和锚点回归的优点，提高提案的精度。训练策略包括选择高置信度的提案和平衡正负样本。这些创新旨在提高动作检测的准确性和召回率。

摘要由CSDN通过智能技术生成

前景：

主流的时序动作提名生成方法分为两步：

第一步，对输入的视频特征序列进行简单的时序信息融合
第二步，使用基于边界预测的方法或者是预定义锚框的方法生成可能包含人体动作的大量候选proposal

解决的问题：

第一步，现有方法大多是堆叠的1D卷积。较好地建模短期时序依赖，有些采用了全局融合的方式对全局特征捕获，有的把全局池化后的特征加在每一个时刻位置上，所以每一个时刻获得的全局信息都是相同的，缺乏多样性和区分度。
第二步，基于边界预测的方法，对动作的起止边缘比较敏感，并用边界匹配的机制生成大量的灵活proposal，召回率较高。但缺乏客观的proposal级别的特征，置信度（包含动作）不够可靠，导致检测的准确率不高。

改进：

针对时序建模不够充分的问题：各个时间位置的特征采用通道分组策略高校建模，多头自注意力的方式同时对一个时间点进行求取局部和全局的多样化时序依赖。
针对提高边界特征利用效率的问题：利用边界预测和基于锚点回归的互补特性，1.用proposal的起始和结束边界的上下文信息来预测proposal边界的偏移量，2.再用提名的全局特征来预测优化proposal的中文位置和长度偏移。两种得到的回归的proposal相融合。
为了对两种回归方式联合优化，采用级联的方式对proposal进行多阶段修正，由粗到细的正负样本划分方式，将待优化的proposal通过三个级联的优化模块。

创新点：

局部-全局时序特征编码器(LGTE)

输入的特征经过三次不同的线性变换后，沿着通道方向分成8个组，4个组对每一个时序位置全局自注意力建模，另外4个用来对每个位置进行局部自注意力建模。

互补时序边界回归器TBR

结合基于预定义框回归（可靠置信度）和基于局部信息的起止点边节点预测（准确定位边界）两种proposal生成的优缺点。

把经过局部-全局编码后的特征序列进行采样之后，把一个proposal的特征分成三个部分，起始点局部特征Fs和结束点的局部特征Fe用来回归优化proposal的起始点和结束点的偏移量。中心特征Fc和Fs、Fe用于联合回归proposal的中心点和proposal的长度偏移量。

训练细节：

proposal选择：首先用NMS去除大量冗余的proposal，最后在置信度分数TOP-100的提名用于优化器训练。
训练标签分配：正样本：与gt的IoU大于一定阈值。负样本：与gt的IoU小于一定阈值。不完全样本：位于两个阈值中间的。同时需要实现训练过程中正负样本平衡，三种样本比例1：1：1

SOTA-

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
TCANet-Temporal Context Aggregation Network for Temporal Action Proposal Refinement

TCANet-Temporal Context Aggregation Network for Temporal Action Proposal Refinement
复制链接

扫一扫