本论文有提供代码https://github.com/CMU-Perceptual-Computing-Lab/caffe_rtpose ,可运行。
以下为本人对文章的理解,如果有错误欢迎讨论,如转载请标明出处。
1。 Introduction
Pose estimation 的挑战:
1〉图像中不知道多少人,在什么位置,什么尺度
2〉人与人之间因接触,遮挡而变得复杂
3〉实时性的要求,图像中人越多,计算复杂度越大。
A common approach: person detection + pose estimation for each person (top->down)
问题: 1〉if person detector fails-> no recovery (人离得近的时候person detector很容易检测不到)
2〉计算时间和人数有关,人越多越耗时。
bottom up approaches 不存在以上两个问题。
但bottom up不直接受益于global information -〉关键是利用来自other body parts and other people的contextual cues(上下文线索)。
本文使用bottom up 的方法,but utilizes global contextual information in the detection of parts and their association。
本文提出Part Affinity Fields (PAFs), a set of 2D vector fields。每个2D vector field 会encode 一个limb(肢)的位置和方向。
这些fields(包含parts的连接和方向) 和 confidence maps for parts (关节的置信map)一起通过sequential prediction framework来jointly学习和预测。
confidence maps for parts和Part Affinity Fields 都是2D spatial grids, 可以表达unstructured, multimodal uncertainty hat arises due to occlusion and contact,而且可以用卷积分析。
-------
下面这句话,不太理解:
As the confidence maps and affinity fields encode global context in their prediction, they allow an efficient algorithm that uses greedy association over a minimum spanning tree without significant loss in the quality of pose estimates.
------
3.method
3.1. Confidence Maps for Part Detection
每一个body part (j)算一个confidence map。所以有多少个part(关节),就有多少个相对应part的confidence map。
图像区域中每个点都有一个confidence值,构成confidence map。
confidence map中每点的值与真值位置的距离有关,离得越近confidence 越高。
用高斯分布来描述,confidence峰值就是真值位置。
假设k个人,图像中每个人都有预测位置的confidence map,将k个人的confidence map的集合合成为一个confidence map时,取该点各个人的confidence的最大值。
这个看一下Figure2b应该就可以理解这个最大的意思,有点像取交集的感觉。