人体骨骼关键点检测OpenPose《OpenPose: Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields》读后总结

geek12138_

已于 2024-07-14 11:04:27 修改

阅读量8.1k

点赞数 5

分类专栏：人体骨骼关键点检测深度学习卷积神经网络文章标签：神经网络深度学习计算机视觉人工智能机器学习

于 2020-05-24 23:35:16 首次发布

本文链接：https://blog.csdn.net/yzqlyzql/article/details/106316444

版权

卷积神经网络同时被 3 个专栏收录

25 篇文章

订阅专栏

深度学习

24 篇文章

订阅专栏

人体骨骼关键点检测

1 篇文章

订阅专栏

人体骨骼关键点检测OpenPose《OpenPose: Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields》读后总结

前言
文章主要内容与贡献

前言

我的博客访问量终于破万了，突然发现很久没写博客了，最近都在疯狂地跑实验和写论文，写个博客来庆祝一下。

这是一些对于论文《OpenPose《OpenPose: Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields》的简单的读后总结，首先先奉上该文章的下载超链接：点击这里下载论文地址1，github网址。

这篇文章是由 Berkeley Artificial Intelligence Research lab (BAIR), University of California的Z. Cao、Robotics Institute, Carnegie Mellon University的G. Hidalgo和Y. Sheikh以及Facebook Reality Labs的T. Simon and S. Wei合作完成的。该文章于2019年7月17日出版于IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE TPAMI)，该期刊是计算机方向的顶级期刊，大类学科“计算机科学”一区，小类学科“计算机：人工智能”和“工程：电子与电气”一区。

该文章研究的是二维实时多人关键点检测：

15或18或25个关键点的身体/脚关键点估计。运行时间与检测到的人数无关。
6个关键点脚关键点估计。与25个关键点的身体/脚关键点检测器集成在一起。
2x21关键点关键点估计。当前，运行时间取决于检测到的人数。
70个关键点面部关键点估计。当前，运行时间取决于检测到的人数。

而通常的人体关键点检测技术的关键点数量为每人18个关键点。

文章主要内容与贡献

该文章的贡献为：

提出了一种实时方法来检测图像中多个人的2D姿势；
基于作者公开发布的内部带注释脚数据集，展示了第一个组合的身体和脚关键点检测器；
发布了OpenPose，OpenPose是第一个用于多人2D姿态检测的开源实时系统，包括身体，脚，手和面部关键点。

提出了一种实时方法来检测图像中多个人的2D姿势；

首先先来看一下OpenPose的实际效果：
在这里插入图片描述

从上面这些动态图中可以看见，OpenPose的精度非常高且将人体的骨架，脸部，手和脚都精确的描绘了出来。同时鲁棒性很高，不管是复杂的背景、人员众多的地方还是有其它干扰物，其都能准确的将每个人给描绘出来。

首先先来看一下OpenPose到底是怎么一回事：
在这里插入图片描述
顶部：多人姿势估计。同一个人的身体部位被链接在一起，包括脚的关键点（大脚趾，小脚趾和脚跟）。
左下：与连接右肘和手腕的肢体相对应的Part Affinity Fields（PAF）。颜色编码方向。
右下：每个PAF的每个像素中的2D向量可编码四肢的位置和方向。
由上可知，人体的关键部位由PAF进行编码，使用向量来描绘强度和方向。

接下来是OpenPose的总体管道图：在这里插入图片描述
（a）该方法将整个图像作为CNN的输入，以共同预测（b）用于身体部位检测的置信度图和（c）用于部位关联的PAF。
（d）解析步骤对关联的身体部位候选者执行一组二部匹配。
（e）最终将它们组装成图像中所有人的完整姿势。
以上就是OpenPose从输入到输出的简单流程。

接下来是详细的网络结构：
在这里插入图片描述
多阶段CNN的体系结构。
第一组阶段预测PAF $L^t$ ，而最后一组阶段预测置信度图 $S^t$ 。每个阶段的预测及其对应的图像特征针对每个后续阶段进行级联。来自原始方法

Z. Cao, T. Simon, S.-E. Wei, and Y. Sheikh, “Realtime multi-person 2d pose estimation using part affinity fields,” in CVPR, 2017.

的内核大小为7的卷积被替换为内核3的卷积的3层卷积。PAF也是出自于上述论文。

在这里插入图片描述
上图是交叉右前臂的PAFs。尽管在早期阶段左右身体部位和四肢之间存在混淆，但通过后期的全局推断，估计值越来越精确。

在这里插入图片描述
上图是部分关联策略。
（a）两种身体部位类型的身体部位检测候选物（红色和蓝色点）和所有连接候选物（灰色线）。
（b）使用中点（黄点）表示的连接结果：正确的连接（黑线）和错误的连接（绿线）也满足入射约束。
（c）结果使用PAF（黄色箭头）。通过在肢体支撑上方编码位置和方向，PAF消除了错误的关联。