论文阅读_人体姿态估计、动作识别现状

人体姿态估计当前主流研究的基础问题和难点

在这里插入图片描述
一、基本定义:从单张RGB图像中,精确地识别出多个人体的位置以及骨架上的稀疏的关键点位置。
在这里插入图片描述
二、基本任务:给定一张RGB图像,定位图像中人体的关键点位置,并确定其隶属的人体。
直观的问题:
关键点及周围的局部特征是什么样的?
关键点之间、人体肢体的空间约束关系是什么样的,以及层级的人体部件关系是什么样的?
不同人体之间的交互关系是什么样的,人体与外界环境之间的交互关系是什么?
现在多数CNN回归方式,试图用模型强大的拟合能力去回避以上的显示问题,从大量的图像数据和标签监督信息中用神经网络去学习图像数据与构建的标签信息之间的映射。
三、当前主流研究的基本问题和难点
在神经网络结构的设计。目前的研究方法可以分成两大种类:

  • Top-down
    先检测人体,再做单人姿态估计的两阶段方法。(G-RMI, RMPE, CPN, SimpleBaseline,HRNet,…)
    Top-down的优缺点:
  • 受到了目标检测任务的制约
  • 基于bounding box的单人姿态估计问题,在面对遮挡问题容易受到挫折。
  • 精度高,实时性受阻
  • 小尺寸图像受限
  • 计算资源有限
  • 量化精度问题
    G-RMI预测short offset弥补; 最大峰值与次峰的1/4偏移处的经验估计法; 19-arxiv-Distribution-Aware Coordinate Representation for human pose假设高斯分布用泰勒展开来估计真实位置.(我刚看的这篇论文) 。量化精度问题实际上是一种工程问题, 它的本质来源在于, 计算机图像像素位置处于离散空间, 但是真实关键点位置位于连续空间,很多数据变换公式只能近似到离散的像素位置, 所以很多估计都是有偏的, 也有论文19-arXiv-The Devil is in the Details: Delving into Unbiased Data Processing for human pose estimation 在讨论姿态估计中数据变换出现的偏差问题.
    Bottom-up:针对整副图像的多人关键点检测,检测所有关键点候选位置的同时,一般会有一定的算法关联或匹配到相似人体(openpose动态规划,associative embedding的tag匹配, personlab的贪婪算法等等Deepcut,OpenPose,Aassociative Embedding, PersonLab)。这样Bottom-up方法是一种更值得研究的方法, 是走向实时姿态估计的主要途径。bottom-up的相关论文:ICCV-19, 也提出了single-stage multi-person pose machine;19-arxiv-objects as points;19-arxiv-DirectPose: Direct End-to-End Multi-Person Pose Estimation
    优缺点:
  • 精度不如Top-down的更加精准,但是实时性更好
  • bounding box free
  • 面对拥挤问题、遮挡问题仍然容易受到挫折
  • 图像上的人体的尺度大小,未经归一化,分布很不均匀,关键点特征的提取难大于Top-down的方法
  • 小尺寸图像的量化精度问题 (PersonLab, Pifpaf的offset预测)

参考:1、https://zhuanlan.zhihu.com/p/72561165
2、https://blog.csdn.net/weixin_41665360/article/details/90445363?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522158786589219724835859126%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fblog.%2522%257D&request_id=158786589219724835859126&biz_id=0&utm_source=distribute.pc_search_result.none-task-blog-2blogfirst_rank_v2~rank_v25-1

四、方法分类

  • 标准1
    PipeLine:Top-Down和Bottom-up的方法。

  • 标准2
    全局关系-部分关系:全局的长距离关系的隐式学习问题(大多数)和基于part的中短距离关系学习问题(ECCV-18 PersonLab,ECCV-18 Deeply learned compositional models)的学习问题

  • 标准3
    输出表示:heatmap回归(大多数),直接坐标回归方法(CVPR-14-DeepPose,ECCV-18的Integral Pose),向量场嵌入(CVPR-17 G-RMI、OpenPose,ECCV-18 PersonLab,CVPR-19 PIFPAF)的方法等等
    五、近几年的 代表作

  • 发迹于2014年, CVPR: Google的DeepPose,同年出现了MPII数据集(Max-Planck )以及MS-COCO数据集。NeurIPS还出现了纽约大学LeCun等人将CNN和Graphical Model联合训练,并使用了heatmap的表示方法。

  • 16年: CVPR:CMU的Convolutional Pose Machine (CPM)和德国的马克斯普朗克研究所Deepcut以及Stacked Hourglass 网络结构设计的出现。

  • 17年: CVPR:Google的G-RMI开启基于目标检测的人体姿态估计方法。CMU的OpenPose系统出现,致力于打造实时姿态估计系统。Deepcut的改进版DeeperCut出现。同年ICCV上,Mask RCNN、上海交通大学的RMPE以及随后的AlphaPose崭露头角, NeurIPS17也出现了 Associative Embedding 以新的端到端的方式来避免人体姿态估计多阶段不连续学习的问题。

  • 18年:CVPR上出现了旷世的CPN拿下了17年COCO挑战赛的冠军, ECCV上微软亚洲研究院的SimpleBaseline用自上而下的方法为姿态估计打造最简单的baseline,并刷新了COCO数据集的新高。ECCV上还出现了来自中东技术大学的Muhammed Kocabas提出了MultiPoseNet,以及Google的自下而上多任务的新作PersonLab, 值得一提的是还有一些开辟新的研究角度的方法如ECCV上美国西北大学part-based的姿态估计方法Deeply learned compositional models 。18年的另外一个趋势就是,新问题新任务的出现,比如CVPR18的DensePose标志着密集关键点人体姿态估计任务的出现, 2D pose track 任务(CVPR18 PoseTrack数据集)的提出, 以及3D 姿态估计问题的兴起…

  • 19年CVPR, 姿态估计再次呈现一个小爆发. HRNet的出现, 成为了姿态估计任务中更强的baseline模型, 其结构本身也具备较强的泛化性, 可以作为backbone的候选. 19 CVPR上还有 PIFPAF,针对小尺度的姿态, Enhanced Channel-Wise and Spatial Information Pose加入了attention的模块到神经网络结构中 ,Related Parts Help 探讨了将人体部件划分为多个group进行学习的好处,Crowded Pose 针对拥挤场景, Fast Human Pose 使用大模型的知识蒸馏,Pose2Seg 引入像素分割等等, ICCV19 上也有了 single-stage multi person pose machines, 大量的研究在探讨姿态估计的问题, 并且3D 姿态估计即将成为主流。 当然, 2D姿态估计任务仍然是值得去深入探讨的问题, 因为一些本质上的难题目前还没有完全的洞察和有效的解决方案, 比如严重遮挡,多人重叠问题等等。另外, 数据集MPII, COCO数据集上的"刷性能" 也依然是大家孜孜不倦的追求,性能再次来到了新高。
    六、研究方向
    1、 把问题黑箱化或者半黑箱化,然后从神经网络结构设计、数据处理、增强以及其他机器学习数学方法去暴力式的解决。
    2、 PersonLab和PifPaf引入复合场(Composite Field)的概念,预测人为设计好的高维度向量来处理人体姿态预测问题,让模型预测更加巧妙的监督信息, 并且能降低量化误差,设计保持期望的一致性的关联肢体得分公式,再加之快速贪心算法,利用人体的连通特性就能得到多人姿态
    3、 提出了无监督的方式处理人体部件

  • 15
    点赞
  • 103
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
动态手势识别是指对视频采集设备拍摄到的包含手势的图像序列进行处理,并通过计算机视觉技术进行手势的识别。目前,基于视觉手势识别的研究已经取得了一些进展。其中,手势建模、手势分析和手势识别是研究的三个主要方面。 在手势建模方面,研究人员主要探索如何对手势进行建模和表示,以便于后续的分析和识别。常用的方法包括使用基于模板的方法、基于特征的方法和基于深度学习的方法等。 在手势分析方面,研究人员致力于对手势的动作和意义进行分析。针对手势的动作,可以通过跟踪手部或身体关节点的运动轨迹来实现。而对于手势的意义,可以通过关联手势动作和语义标签来进行识别。 在手势识别方面,研究人员致力于将手势归类到特定的类别中。常用的方法包括使用机器学习算法、深度学习算法和集成学习算法等。这些方法可以通过训练手势数据集来实现手势的分类和识别。 目前,基于深度数据的手势识别研究也取得了一些进展。深度数据的获取是通过使用深度传感器或摄像头获取的,这种数据可以提供更多的空间信息,从而提高手势识别的准确性。同时,研究人员还在探索如何使用深度数据进行手势建模和分析。 未来,动态手势识别的研究还可以进一步探索如何应用更高级的计算机视觉算法和人工智能技术,以提高手势识别的性能和鲁棒性。此外,还可以研究如何将动态手势识别与其他领域的研究进行结合,例如人机交互、虚拟现实和智能医疗等。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值