代码:https://github.com/Jeff-sjtu/CrowdPose
文章链接:https://arxiv.org/abs/1812.00324
摘要:多人姿态估计最近几年取得很大的进展,在人群中的姿态估计仍然是个具有挑战性的不可避免的问题,并且对于这些场景目前的基准无法提供适当的评估。在此文章中,提出一种解决新的数据集去评估与在人群中的姿态估计方法,我们的模型包含两个部分:第一部分(SPPE joint-candidate single person pose estimation )联合候选单人姿态估计与全局最大关节联系使用图解模型。比现有的方法具有很大的优势。
1、介绍
多人姿态估计在计算机视觉方面发挥重要的作用,其在活动理解、再识别与姿态分解方面有重要的应用前景,目前有两种姿态估计的方法第一从上至下,先检测人 然后检测人的关键点,第二 从下至上 先检测关键点,然后将其连接起来。对于评估多人姿态估计的性能,现存MSCOCO 与 MPII AI CHALLENGER 这几个基准,然后在这些图片中,人群出现频率很低,作为结果在这些基准中,很少相互交互的人。比如说在MSCOCO中,67.01%的图片没有重叠的人体,在这些数据集上目前的方法取得了很大的成功。
然后,在人群的图片中性能出现明显的下降,例如图片1可以看出
在本文中,我们提出了新式的方法来解决这个问题,使用全局视野来解决这个问题,我们的方法是从上到下,先检测人体的存在,再进行单人的姿态估计,提出了联合投票的单人姿态估计与全局关联的算法,不同于以前的方法(只预测目标关键点),我们的方法SPPE是每个关节联合的投票,这个候选包含目标与参考连接点,然后使用候选建立关节连接图,使用最大联系解决联合问题,并且计算的复杂度与NMS(非极大值抑制)算法相同。
为了更好促进这领域的发展,我们收集了人群的人体姿态,定于了人群的拥挤指数,符合0-1的分布,意味着只有一种算法可以在拥挤与非拥挤的情况下取得很好的结果。
本文的贡献(1)提出了新的方法应用于人群中的姿态估计(2)并收集了一个新的数据集
2、相关工作
2.1 2D姿态估计数据集
2D相关的RGB数据集有LSP FashionPOSE PASCAL PERSON LAYOUT J-HMDB 这都是单人姿态估计的数据集,随着算法的提升多人姿态估计的数据集是 MSCOCO AICHALLENGER ,尽管数据集的使用,但是这些都低密度的问题
2.2 多人姿态估计
基于部分的框架,也可以说是从下到上,先检测关节点然后组合到一个人体,这种方法很容易实现,因为其考虑小区域并输出相应的热图。还有一个是两阶段框架,本文的工作属于两阶段框架,先检测人体的存在,然后再检测人的关键点,其劣势在于检测的效果取决于人体的检测,人群的检测效果不理想,一些工作在人群中追踪人体,我们提出了一种有效的方法来检测人群
3、本文的方法
图2 是我们提出的方法
人体检测是通过SPPE(联合投票的单人姿态估计),SPPE定位关节通过热图反应出不同的分数,使用联合算法算法结果组成人体连接图,最好通过全局最大连接算法找到最好的连接点
3.1 联合投票SPPE
其可以接收人体提出的图片然后输出一组热图来指数人体连接位置,虽然人体提出的位置只有一个,但是在人群中不可避免的需要处理其他的人体部分,先前的工作使用SPPE来抑制参考连接,然后其不能处理人群的情况原因是受到接收视野的限制,为了解决这个问题,提出了全局视野的设计的新奇的损失函数
损失函数设计:
最重要的思想是对于区域i 内的关键点 有部分是属于另外一个人的,也应该考虑进去,不应该被完全抑制
3.1.2 讨论:传统的SPPE取决于高质量的人体检测结果,如何把参考关键点误检为目标关键点,这是个不可恢复的,我们提出的联合投票损失技术解决这个问题,此损失函数鼓励预测多个峰值的热图与设置可能的关键候选点,传统的sppe很那预测,jc sppe 可以预测为一个链表以保证较高的召回率,连接问题在下一个过程处理,下一个过程存在更多的全局信息
3.2 关节连接图:由于联合投票机制与冗余人体,联合候选的关键点远大于真正的关节点个数,为了解决冗余关节点我们建立了人体关键点图,使用最大人体关键点匹配算法构建最终的人体姿态
3.2.1 关键点的建立
因为人体关键点的高重叠性来预测真正的关节点,预测的关键点如果是相同的关键点,两者之间的距离非常接近,因此我们使用标准来判断,
并且连接成所有的关节点形成一个整体的人
3.2.2 对于人体的关节点不可能很完整,存在剪切和截断的情况,在全局人体连接匹配的3.3节实现去除低质量的关键点
3.2.3 关节连接边缘:两个关键点直接描绘边,确立权重
3.3 全局优化联系
最大化线段权重和解决人体连接图
计算复杂度与NMS算法相差无几,然后在图5可以体现
3.4 讨论
说明提出的方法与nms算法所比较,可以很好的处理丢失关键点与错误的组合问题
4 另一个贡献:建立一个新的数据集crowdpose dataset
定于人群的拥挤程度:
N为人的总数,Nib 是不属于这个人实例的关键点,nia 属于这个人关键点的数量,并表示了其他三个数据集的拥挤程度
4.2 数据收集:
4.3 图片的标注,重新标注数据图片 14个关键点,3万张图片;分析图片拥挤指数,然后重新标注2万张高质量图片;裁剪图片中的每个人在box中标注关键点;
4.4 数据统计 数据集大小 2万图片 包含8万个人,训练 验证 测试比例5 1 4;拥挤程度为图片6(d)
均值IOU 此数据集的IOU为0.27,然后mscoco mpii ai challenger 分别是0.06 0.11 0.12
实验:
结论:
在本文中,我们提出一种解决阻塞情况下的姿态估计问题,通过建立人体关键点图,把姿态估计转化为图形匹配问题,通过全局来优化参数。为了更好的估计多人姿态估计的问题,我们创造出一种新的数据集。
欢迎大家留言讨论