我对文章的理解:
该论文的方法使用的是自底向上的方法,也就是先回归出所有人的关节点,然后再对这些关节点进行划分,把关节分配到每个人。然后使用BipartiteMatching 将同一个人的关节点连接起来得到最终的结果。
具体步骤:
输入一幅图像,经过卷积网络提取特征,得到一组特征图,然后分成两个分支,
(1) PartConfidence Maps。获取置信图的极大值,(极大值:即使多个peak点离得很近,精度仍然不受影响),并通过非极大值抑制获取身体部分候选。
(2) PartAffinity Fields,其中PAFs保留肢体区域的位置和方向信息。也就是每一个肢体在关联的两个身体部分之间都有一个Affinity Field,其中的每个像素都有一个2D向量描述方向。若某个点多人重叠,则将k个人的向量求和再除以人数。在测试中,计算置信分数。
在每个阶段之后,来自两个分支的预测以及图像特征被连接在下一阶段,并迭代地改进前一阶段的预测。
我们首先获取多人的身体部分检测候选,然后找到两个身体部分直接最优连接方式,即一个最大权重二分图匹配的问题。本文使用了Hungarian algorithm匈牙利演算法来获得最大匹配。然后为了优化增加两个松弛变量。
1. 选择最少的边缘形成人姿态的树骨骼,而不使用整个图形。
2. 把匹配问题分解成一系列的二分法匹配子问题,然后独立地分析相邻的树节点之间的匹配。
根据两个relaxations,获得每个肢体类型的肢体连接候选。对于所有肢体连接候选,可以将共享相同部件检测候选的连接组合成多个人的全身姿势。
问题:
(1)怎么通过卷积网络分成两个支路。
(2)在计算置信分数时的公式10的具体含义。
(3)Relaxation的具体意义,以及两个relaxations的意义。
需要特别注意的是:
1. 非参数化表示的含义:以多个像素关联的向量表示肢体,这个图像的像素形式类似,即不知道每个向量的具体语义,需要通过计算进行判断。
2. 两路分支的问题,我的理解是使用不同的输入特征和不同的标记数据进行训练,然后使用两个结果进行综合的决策。
3. Relaxation,是机器学习,优化中的松弛变量,查找相关资料深入了解,松弛变量对优化、学习问题的求解非常关键。