人体姿态估计梳理

最新推荐文章于 2024-06-27 23:34:37 发布

wxn940120

最新推荐文章于 2024-06-27 23:34:37 发布

阅读量963

点赞数 2

分类专栏：深度学习文章标签：人工智能

本文链接：https://blog.csdn.net/wxn940120/article/details/111361298

版权

深度学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

借鉴：

重新思考人体姿态估计 Rethinking Human Pose Estimation

人体姿态估计的过去、现在和未来

A 2019 guide to Human Pose Estimation witth deep learning

人体姿态估计（Human Pose Estimation)经典方法整理

Human Pose Estimation 人体姿态估计综述调研

深度学习人体姿态估计Pose Estimation指南2019年中英对照版

人体姿态估计（Human Pose Estimation）文献综述（转载）

2020人体姿态估计综述

人体姿态估计综述（Human Pose Estimation）

Human Pose Estimation

人体姿态估计（Human Pose Estimation）--优质学习资源

Human Pose Estimation 人体姿态估计综述调研

姿态估计 - Human Pose Estimation Papers

人体姿态估计综述（Human Pose Estimation Overview）

（有些部分为直接使用原博客内容，个人能力不足，若有新的理解，后续进行修改）

人体姿态估计是计算机视觉的一个重要的任务。可以分为2D人体姿态和3D人体姿态。下面分别讲述其常用的方法。

2D人体姿态估计：

基本任务

2D人体姿态估计的基本任务就是就是精确的从图片中识别出单个或多个人的位置和骨架上的关键点。

问题一、此处识别的位置是哪个坐标系下的位置？图像坐标系or像素坐标系？（个人迷惑点）

问题二、关键点的问题（参见重新思考人体姿态估计 Rethinking Human Pose Estimation，总结的太好了！！！！也是本人又一个的迷惑点，哈哈哈哈哈）

关键点及其周围的局部特征是什么样的
关键点之间、人体肢体的空间约束关系是什么样的，以及层级的人体部件关系是什么样的
不同人体之间的交互关系是什么样的，人体与外界环境之间的交互关系是什么

当下多使用大量的带有标签的数据和标签来训练神经网路，通过学习图像数据和标签之间的映射来回避上述的显示问题。

基于显式的方法是有的，传统的Pictorial Structure是一个比较经典的算法思路（不知道目前看到的利用网络的论文里提到的Pictorial Structure是不是这个，记得论文里提到传统的方法有两种，看到补），目前也有少数方法用part-based的层级树结构建立人体姿态模型并利用CNN，来进行学习与预测。

主流研究方法及其问题和难点

单人：

多人：主要有两种。Top-down和Bottom-up.

Top-down:先找到人的位置，然后在做单人姿态估计（G-RMI，PMRE、CPN、SimplieBaseline、HRNet）。

难点：

Top-down(重新思考人体姿态估计 Rethinking Human Pose Estimation):

由于第一步使用了目标检测的方法确定人体姿态的位置，必然后受到目标检测任务的制约。除此之外，对遮挡的问题效果不佳。
精度高，但是实时性较差，检测的时间会随着人数的增加而增加
对硬件设备要求较高，会受到计算资源的限制。
量化精度问题: G-RMI预测short offset弥补; 最大峰值与次峰的1/4偏移处的经验估计法; 19-arxiv-Distribution-Aware Coordinate Representation for human pose假设高斯分布用泰勒展开来估计真实位置. 量化精度问题实际上是一种工程问题, 它的本质来源在于, 计算机图像像素位置处于离散空间, 但是真实关键点位置位于连续空间,很多数据变换公式只能近似到离散的像素位置, 所以很多估计都是有偏的, 也有论文19-arXiv-The Devil is in the Details: Delving into Unbiased Data Processing for human pose estimation 在讨论姿态估计中数据变换出现的偏差问题.（提到的论文还没有看到，看完后再总结）

Bottom-up:先检测人体的关键点，然后根据相关的算法将关键点匹配到相关到的人体。关联或者匹配相关人体的算法为有：（1）openpose动态规划。（2）Associative Embedding的tag匹配（3）Personlab的贪婪算法（提到的方法还没有看到，找论文补）

精度比Top-down高，但是实时性好。（我也赞同重新思考人体姿态估计 Rethinking Human Pose Estimation里说的，Bottom-up应该是更符合实际需求的，有没有比较好的方法提高其估计的准确率的）
对遮挡问题解决的也不好（我自己觉得应该是2D姿态本身的问题，与3D姿态估计相比，能利用的信息少）
图像上的人尺度不一，为经过归一化，分布不均匀，特征点的提取点的难度要高于Top-down。
小尺度图像的量化精度问题（PersonLab、Pifpaf的Offset预测）

方法分类
标准1 PipeLine:Top-down和Bottom-up的方法
标准2 全局关系-部分关系:全局的长距离关系的隐式学习问题（大多数）和基于part的中短距离关系学习问题（ECCV-18 PersonLab，ECCV-18 Deeply learned compositional models，还没看到，努力补呀）的学习问题。
标准3 输出表示：heatma回归（大多数），直接坐标回归方法（CVPR-14-DeepPose，ECCV-18的Integral Pose）,向量场嵌入（CVPR-17 G-RMI、OpenPose，ECCV-18 PersonLab，CVPR-19 PIFPAF）的方法。（努力补论文中~~~）
经典网络的发展过程

2014年：（CVPR，Google）DeepPose.同年出现了MPII数据集和MS-COCO数据集，在NeruIPS上LeCun等人将CNN和Graphical Model联合训练，并使用了heatmap的表示方法。
16年：（CVPR）CMU的Convolutional Pose Machine(CPM)和DeepCut和Stacked Hourglass网络结构。
17年：（CVPR）Google的G-RMI（首次基于目标检测的人体姿态）。CMU的OpenPose（实时性的人体姿态估计）。DeepCut的改进版（DeeperCut）.ICCV上，Mask RCNN、RMPE（上海交通大学）和AlphaPose。NeurIPS17上的Association Embedding（新的端到端的方式避免人体姿态估计多多阶段不连续的问题）。
18年：（CVPR）旷世的CPN获得COCO挑战赛冠军。ECCV上微软亚研院的SimpleBaseline使用自上而下的方法建立了人体姿态估计的baseline。中东大学提出了MultiPoseNet和Google上的自下而上的PersonLab。新的研究方法：ECCV上美国西北大学基于part-based的姿态估计的Deeply learned compositional models.新的趋势：新问题任务的出现。CVPR18的DensePose标志着密集关键点字估计任务的出现，2D pose track任务（CVPR18 PoseTrack数据集）和3D姿态问题的兴起。
19年：（CVPR）HRNet称为姿态估计任务中更强的baseline模型，具有较好的泛化能力。可作backbone候选。针对小尺度姿态的PIFPAF，神经网络加入了attention机制的Enhanced Channel-Wise and Spatial Information Pose,针对拥挤场景的Crowded Pose，使用大模型知识蒸馏的Fast Human Pose，引入像素分割的Pose2Seg。（ICCV）Single-stage multi person pose machines.趋势：3D姿态估计会成为主流，2D姿态估计中的遮挡和多人重叠问题仍然需要深度的探讨。刷新MPII和COCO数据集上性能的刷新。（看过的论文忘记了，回顾论文）

研究意义

3D人体姿态估计铺垫、3D人体重建的必备技术
人体关键点的视频追踪问题的基础（从静态到动态）
动作识别的信息来源（从关键点的时序空间特征映射到动作语义问题）

应用

自动驾驶行业：自动驾驶道路场景中行人的检测以及姿态估计、动作预测等问题。
娱乐产业：动作持续的增加。
安全领域：行人再识别问题，以及特殊场景的特定动作监控、婴儿、老人的照顾。
影视产业：拍电影特效（动作捕捉，已经看到确实是有应用的）
产业界其他的应用探索

研究趋势的变化以及扩展

3D（4D、5D、6D已经看到6D的论文了）人体姿态的流行
稀疏关键点到密集关键点（CVPR-18 FaceBook DensePose,新的密集型数据集的出现）
静态图像到视频追踪（CVPR-18 PoseTrack）
从关键点定位到肢体的像素分割预测（pose parsing,CVPR-19 pose2reg）
从监督学习到弱监督、自监督、甚至无监督（ICLR-2019 unsupervised discovery,parts,structure and dynamics,NeurIPS-2019 Learning Temporal PoseEstimation from Sparsely-Labeled Video）
神经网络设计的变革：CVPR-16-CPM, ECCV-16-Stacked Hourglass, ECCV-18 SimpleBaseline，CVPR-18 CPN， CVPR-19 HRNet，CVPR-19 Enhanced Channel-wise and Spatial Information，ICCV FPN-POSE, arXiv-19-MSPN-Rethinking Multi-stage Networks for Human Pose Estimation。多尺度融合、多阶段级联、堆叠等。19-arXiv-Pose Neural Fabrics Search 引入先验知识引导神经网络搜索