论文名称:End-to-End Multi-Person Pose Estimation With Transformers
开源地址
发表时间:CVPR2022
作者及组织: Dahu Shi, Xing Wei等,来自海康威视。
前言
本篇论文借鉴DeformableDetr的范式来回归人体2d姿态,有关DeformableDetr可参考:
1)DeformableDetr
1、整体网络结构
整体网络结构跟DeformableDetr很像:先经过R50来提取图像的多级特征,然后拉平拼接传给DeformableEncoder融合多级特征信息,然后预设了N个D维的query,传给PoseDecoder,得到 N ∗ 2 K N*2K N∗2K 的初始预测关键点;之后预设了K个D维的可学习query,之后经过JointDecoder来Refine初始关键点。(示意图可能有点儿困惑 …)
1.1.PoseDecoder
以两阶段网络为例,图像特征向量在经过Encoder后得到图像特征向量
F
∈
R
N
∗
D
F \in \mathbb{R}^{N*D}
F∈RN∗D ,并经过MLP来得到topk个初始init kpt,然后将其编码成D维作为上图中的
P
o
s
e
Q
u
e
r
i
e
s
∈
R
N
∗
D
PoseQueries \in \mathbb{R}^{N*D}
PoseQueries∈RN∗D ,而init kpt作为DeformableModule的初始参考点,然后在每个参考点附近预测一个sampling offset并取出对应位置的特征向量。最终经过MLP预测出Pose和Score。
论文中采用了3层Decoder,并也用了动态迭代Pose的思想:
P d = σ ( σ − 1 ( P d − 1 ) + δ ( P d ) ) \begin{equation} P_d = \sigma(\sigma^{-1}(P_{d-1})+\delta(P_d)) \end{equation} Pd=σ(σ−1(Pd−1)+δ(Pd))
其中 P 0 P_0 P0 是Encoder预测的初始参考点,然后 σ \sigma σ 表示sigmoid激活来进行归一化, δ ( P d ) \delta(P_d) δ(Pd) 表示模型预测关键点偏移量。 σ − 1 \sigma^{-1} σ−1 表示sigmoid的反激活。
1.2.Joint Decoder
JointDecoder首先预设了可学习的 J o i n t Q u e r i e s ∈ R K ∗ D JointQueries \in \mathbb{R}^{K*D} JointQueries∈RK∗D ,然后借助PoseDecoder的输出参考点作为init reference point,经过DeformableAttn来融合K个关键点的信息,然后预测每个关键点的偏移量,并动态迭代Pose。
1.3.Loss
L1 Loss(归一化的损失)和OKS Loss(还原成原图的坐标损失)。
2、实验
思考
论文中没有做用6层DeformableDecoderLayer的消融实验,不确定JointDecoder的具体作用。