ConvFormer: Parameter Reduction in Transformer Models for 3D HumanPose Estimation by Leveraging Dyn

本文提出ConvFormer,一种新型卷积Transformer,利用动态多头卷积自注意机制进行单目3D人体姿态估计。设计了空间和时间卷积Transformer,引入时间关节轮廓概念。在三个基准数据集上验证,相比先前Transformer模型显著降低参数,实现SOTA或接近SOTA水平。

ConvFormer:通过利用动态多头卷积注意力进行3D人体姿态估计的Transformer模型中的参数减少

摘要

最近,全变换器架构已经取代了3D人体姿态估计任务的事实上的卷积架构。在本文中,我们提出了ConvFormer,这是一种新型的卷积Transformer,它利用一种新的动态多头卷积自注意机制进行单目3D人体姿态估计。我们设计了一个空间和时间卷积Transformer,以全面模拟单个帧内的人体关节关系,并在整个运动序列中进行全局建模。此外,我们引入了一个新的概念,我们的时间ConvFormer,融合完整的时间信息,立即为联合特征的局部邻域的时间关节配置文件。我们已经在三个常见的基准数据集上定量和定性地验证了我们的方法:Human3.6M、MPI-INF-3DHP和HumanEva。已经进行了大量的实验,以确定最佳的超参数集。这些实验表明,相对于先前的Transformer模型,我们实现了显著的参数降低,同时在所有三个数据集上实现了最新技术水平(SOTA)或接近SOTA。此外,我们在H36 M上实现了GT和CPN检测输入的协议III的SOTA。最后,我们获得了MPI-INF-3DHP数据集的所有三个指标的SOTA和方案II下HumanEva上的所有三个受试者。

贡献

1.使用称为ConvFormer的新架构,相对于其他Transformer模型,参数显著降低。ConvFormer利用了一种新颖的多头卷积自注意机制,可动态地将子查询、键和值聚合为一组更丰富的3D HPE线索。

2.引入了时间关节轮廓的新概念,其依赖于运动序列的完整时间信息的立即融合。

3.深入研究影响ConvFormer性能的因素。

方法

 图A描绘了ConvFormer块的架构。图B呈现了来自一系列2D姿态的3D HPE的整体流水线。ConvFormer块的中心组件是DMHCSA,如图C所示。图C底部的弯曲蓝线对应于右肘关节的提取的颞关节轮廓的一部分(对于颞ConvFormer块)。图D呈现了在时间ConvFormer块中生成查询、键和值期间的卷积的示例。滤波器在特征维度上滑动,有效地卷积局部联合邻域的完整时间轮廓。

convformer block

我们在网络架构中采用两个主要组件:空间和时间convformer。空间ConvFormer块提取用于单帧的编码联合相关性的高维特征向量。我们假设我们的输入是由两个坐标(u,v)表示的具有J个关节的2D姿势。在[5]之后,我们首先将每个关节的坐标映射到具有可训练线性层的高维特征向量。然后,我们通过求和来应用学习的位置编码以保留关节位置信息。也

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值