1.介绍
AlphaPose 是一个精准的多人姿态估计系统,是首个在 COCO 数据集上可达到 70+ mAP(72.3 mAP,高于 Mask-RCNN 8.2 个百分点),在 MPII 数据集上可达到 80+ mAP(82.1 mAP)的开源系统。为了能将同一个人的所有姿态关联起来,AlphaPose 还提供了一个称为 Pose Flow 的在线姿态跟踪器,这也是首个在 PoseTrack 挑战数据集上达到 60+ mAP(66.5 mAP)和 50+ MOTA(58.3 MOTA)的开源在线姿态跟踪器,精准度高于现有技术的最好结果。
AlphaPose官网:https://github.com/MVIG-SJTU/AlphaPose
姿态估计结果:
COCO test-dev 2015 的结果:
MPII 完整测试集的结果:
AlphaPose是一个基于自上而下的多人姿态估计项目,目前的Alphapose实际上是yolov3-spp行人检测+姿态关键点检测+行人重识别算法的组合,对应多目标检测、单人姿态估计、行人重识别三个任务。
2.RMPE的步骤
- 先做多人目标检测
- 将检测到的目标裁剪下来,通过仿射变换转换成大小为固定大小的图像
- 使用单人姿态估计网络预测所有图像中的关键点,关键点回归用的是热图法
- 将检测到的关键点通过仿射变换的逆变换还原成原图像中的坐标。
Alphapose的单人姿态估计网络主要有三种输出格式:coco 17关键点,Halpe 26关键点和Halpe 136关键点。
如果想要在自己电脑上运行相关模型,需要去下载训练集,放到pretrained_models文件夹内即可,下载地址可以参考下面链接。
AlphaPose/MODEL_ZOO.md at master · MVIG-SJTU/AlphaPose · GitHub
3.RMPE架构
框架包含3个主要模块:SSTN、P-NMS和PGPG。Alphapose可以利用不准确的边界框和重复检测结果(这在实际的工程场景中非常常见。),最终在MPII数据集上达到了76.7的mAP精度。
相关组件:
- SSTN,更为高效的对中策略,来克服检测框质量不高的问题;
- P-NMS,利用姿态间距离去重技术;
- PGPG,一种用于姿态估计的样本增强技术,配合SSTN/P-NMS来获得更好地模型性能;
3.1 SSTN
SSTN(Symmetric Spatial Transformer Network),对称空间变换网络,在不准确的bounding box