End-to-End Multi-Person Pose Estimation with Transformers

武乐乐~

于 2024-04-14 10:12:03 发布

阅读量799

点赞数 27

文章标签：目标检测姿态估计

本文链接：https://blog.csdn.net/wulele2/article/details/137738303

版权

论文名称：End-to-End Multi-Person Pose Estimation With Transformers
开源地址
发表时间：CVPR2022
作者及组织： Dahu Shi, Xing Wei等，来自海康威视。

前言

本篇论文借鉴DeformableDetr的范式来回归人体2d姿态，有关DeformableDetr可参考：
1）DeformableDetr

1、整体网络结构

在这里插入图片描述

整体网络结构跟DeformableDetr很像：先经过R50来提取图像的多级特征，然后拉平拼接传给DeformableEncoder融合多级特征信息，然后预设了N个D维的query，传给PoseDecoder，得到 $N * 2 K$ 的初始预测关键点；之后预设了K个D维的可学习query，之后经过JointDecoder来Refine初始关键点。(示意图可能有点儿困惑 …)

1.1.PoseDecoder

在这里插入图片描述

以两阶段网络为例，图像特征向量在经过Encoder后得到图像特征向量 $\in \mathbb{R}^{N*D}$ ，并经过MLP来得到topk个初始init kpt，然后将其编码成D维作为上图中的 $\in \mathbb{R}^{N*D}$ ，而init kpt作为DeformableModule的初始参考点，然后在每个参考点附近预测一个sampling offset并取出对应位置的特征向量。最终经过MLP预测出Pose和Score。
论文中采用了3层Decoder，并也用了动态迭代Pose的思想：

$\begin{equation} P_d = \sigma(\sigma^{-1}(P_{d-1})+\delta(P_d)) \end{equation}$

其中 $P_0$ 是Encoder预测的初始参考点，然后 $\sigma$ 表示sigmoid激活来进行归一化， $\delta(P_d)$ 表示模型预测关键点偏移量。 $\sigma^{-1}$ 表示sigmoid的反激活。

1.2.Joint Decoder

在这里插入图片描述

JointDecoder首先预设了可学习的 $\in \mathbb{R}^{K*D}$ ，然后借助PoseDecoder的输出参考点作为init reference point，经过DeformableAttn来融合K个关键点的信息，然后预测每个关键点的偏移量，并动态迭代Pose。

1.3.Loss

L1 Loss(归一化的损失)和OKS Loss（还原成原图的坐标损失）。

2、实验

在这里插入图片描述

思考

论文中没有做用6层DeformableDecoderLayer的消融实验，不确定JointDecoder的具体作用。

武乐乐~

关注

27
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
End-to-End Multi-Person Pose Estimation with Transformers

本篇论文借鉴DeformableDetr的范式来回归人体2d姿态，有关DeformableDetr可参考：1）
复制链接

扫一扫