论文阅读理解 - Convolutional Pose Machines

最新推荐文章于 2021-09-28 20:25:26 发布

AIHGF

最新推荐文章于 2021-09-28 20:25:26 发布

阅读量1w

点赞数 9

分类专栏：论文阅读姿态估计文章标签：姿态估计 CPM 全卷积大接受野

本文链接：https://blog.csdn.net/zziahgf/article/details/79643752

版权

Convolutional Pose Machines（CPMs）是一种结合全卷积网络和Pose Machines的序列模型，用于人体姿态估计。CPMs通过多个阶段的全卷积网络逐步细化关节位置估计，利用中间监督损失解决梯度消失问题，并通过大接受野捕获长距离关节关系。每个阶段的网络接收图像特征和前一阶段的置信图作为输入，以学习丰富的图像相关空间模型。

摘要由CSDN通过智能技术生成

论文阅读理解 - Convolutional Pose Machines

[Paper - CVPR2016]

[Code - Caffe]

[Code - TensorFlow 1.0+]

基于序列化的全卷积网络结构，学习空间信息和纹理信息，估计人体姿态.

摘要：

Pose Machines 是一种序列化的预测框架，可以学习信息丰富的空间信息模型.

Convolutional Pose Machines(CPMs) 是将 Convolutional Network 整合进 Pose Machines，以学习图像特征和图像相关(image-depenent)的空间模型，估计人体姿态.

CPMs 对 long-range 范围内变量间的关系进行建模，以处理结构化预测任务，如，人体姿态估计.

CPMs 是由全卷积网络组成的序列化结构，卷积网络直接在前一阶段的置信图(belief maps)操作，输出越来越精细化的关节点位置估计结果；

CPMs 能够同时学习图像和空间信息的特征表示；且，不需要构建任何显式的关节点间关系模型；

中间监督 loss 解决梯度消失(vanishing gradients)问题.

end-to-end with backpropagation.

CPMs 由全卷积网络序列化组成，并重复输出每个关节点的 2D 置信图. 每一个stage，采用图像特征和上一 stage 输出的2D置信图作为输入.

置信图为后面的阶段提供了每个关节点位置的空间不确定性(spatial uncertainty)的非参数编码，使得 CPM 可以学习到丰富的与图像相关的关节点间关系的空间模型.

以 CPM 的某个特定 stage 为例：关节点置信图的空间信息，为后续 stage 提供了很无歧义的线索信息. 因此，CPM 的每个 stage 都可以输出越来越精细的关节点置信图，如 Figure 1.

这里写图片描述

为了捕捉关节点间 long-range 的相互关系，CPMs 中每个 stage 的网络设计的启发点是：同时在图像和置信图上得到大的接受野(large receptive field).

1. Pose Machines

记 $Y_p \in \mathcal{Z}$ 表示关节点 $p$ 的像素位置， $\mathcal{Z}$ 是图片内所有的关节点位置 $(u,v)$ 集合.

人体姿态估计的目标：预测图片中 $P$ 个人体关节点位置 $Y = (Y_1, ..., Y_P)$ .

Pose Machine 由 multi-clas 预测器序列组成，如下图， $g_t(\cdot)$ 是待训练模型，分类器，用于预测每一 level 中各人体关节点位置.

这里写图片描述

在每个 stage $t \in \{1,..., T\}$ ，分类器 $g_t$ 输出每个关节点位置的置信 $Y_p = z, z\in \mathcal{Z}$ . 分类器 $g_t$ 是基于在图像位置 $z$ 所提取的特征为 $\mathbf{x}_z \in R^d$ ，以及先前 stage 分类器输出的 $Y_p$ 邻域的空间内容信息，进行分类的.