论文阅读理解 - Convolutional Pose Machines
基于序列化的全卷积网络结构,学习空间信息和纹理信息,估计人体姿态.
摘要:
Pose Machines 是一种序列化的预测框架,可以学习信息丰富的空间信息模型.
Convolutional Pose Machines(CPMs) 是将 Convolutional Network 整合进 Pose Machines,以学习图像特征和图像相关(image-depenent)的空间模型,估计人体姿态.
CPMs 对 long-range 范围内变量间的关系进行建模,以处理结构化预测任务,如,人体姿态估计.
- CPMs 是由全卷积网络组成的序列化结构,卷积网络直接在前一阶段的置信图(belief maps)操作,输出越来越精细化的关节点位置估计结果;
- CPMs 能够同时学习图像和空间信息的特征表示;且,不需要构建任何显式的关节点间关系模型;
- 中间监督 loss 解决梯度消失(vanishing gradients)问题.
- end-to-end with backpropagation.
CPMs 由全卷积网络序列化组成,并重复输出每个关节点的 2D 置信图. 每一个stage,采用图像特征和上一 stage 输出的2D置信图作为输入.
置信图为后面的阶段提供了每个关节点位置的空间不确定性(spatial uncertainty)的非参数编码,使得 CPM 可以学习到丰富的与图像相关的关节点间关系的空间模型.
以 CPM 的某个特定 stage 为例: 关节点置信图的空间信息,为后续 stage 提供了很无歧义的线索信息. 因此,CPM 的每个 stage 都可以输出越来越精细的关节点置信图,如 Figure 1.
为了捕捉关节点间 long-range 的相互关系,CPMs 中每个 stage 的网络设计的启发点是:同时在图像和置信图上得到大的接受野(large receptive field).
1. Pose Machines
记 Yp∈Z Y p ∈ Z 表示关节点 p p 的像素位置, 是图片内所有的关节点位置 (u,v) ( u , v ) 集合.
人体姿态估计的目标:预测图片中 P P 个人体关节点位置 .
Pose Machine 由 multi-clas 预测器序列组成,如下图, gt(⋅) g t ( ⋅ ) 是待训练模型,分类器,用于预测每一 level 中各人体关节点位置.
在每个 stage t∈{ 1,...,T} t ∈ { 1 , . . . , T } ,分类器 gt g t 输出每个关节点位置的置信 Yp=z,z∈Z Y p = z , z ∈ Z . 分类器 gt g t 是基于在图像位置 z z 所提取的特征为 ,以及先前 stage 分类器输出的 Yp Y p 邻域的空间内容信息,进行分类的.
stage t=1 t = 1 时,分类器