论文阅读|Lightweight OpenPose

xiaoweiyuya

已于 2022-02-22 15:04:30 修改

阅读量3.3k

点赞数 3

分类专栏：人体姿态估计文章标签：深度学习计算机视觉目标检测

于 2022-02-22 14:53:09 首次发布

本文链接：https://blog.csdn.net/weixin_45782047/article/details/123057011

版权

人体姿态估计专栏收录该内容

19 篇文章 15 订阅

订阅专栏

Real-time 2D Multi-Person Pose Estimation on CPU: Lightweight OpenPose

原文链接：1811.12004.pdf (arxiv.org)

Real-time 2D Multi-Person Pose Estimation on CPU: Lightweight OpenPose

Abstract

Introduction

Analysis of the Original OpenPose

Lightweight Refinement Stage

Fast Post-processing

Inference

Conclusion

Abstract

在这项工作中，我们调整了多人姿势估计架构以在边缘设备上使用它。我们遵循 COCO 2016 关键点挑战赛的获胜者 OpenPose的自下而上方法，因为它具有良好的质量和对框架内人数的鲁棒性。通过提议的网络设计和优化的后处理代码，完整的解决方案在 Intel®NUC 6i7KYB 迷你 PC 上以每秒 28 帧 (fps) 的速度运行，在 Core i7-6850K CPU 上以 26 fps 的速度运行。网络模型具有 410 万个参数和 90 亿次浮点运算 (GFLOP) 复杂性，仅是基线 2 阶段 OpenPose 的 15%，质量几乎相同。代码和模型作为英特尔® 的一部分提供 OpenVINOTM 工具包。

Introduction

多人姿态估计是一项重要的任务，可应用于动作识别、运动捕捉、体育运动等不同领域，其任务是预测图像中每个人的姿态骨架。骨骼由关键点(或关节)组成：踝部、膝盖、髋部、肘部等。

在卷积神经网络 (CNN) 的帮助下，人体姿态估计精度大大提高。然而，关于紧凑但有效的姿态估计方法的研究很少。在 [9] 中，作者在手机上展示了一个简化的 Mask R-CNN 关键点检测器演示，以 10 fps 运行，但没有提供实现细节和准确度特征。我们还发现了带有人体姿态估计网络的开源存储库。作者报告的推理速度在 2.8GHz 四核 CPU 上为 4.2 fps，在 Jetson TX2board 上为 10 fps。

在我们的工作中，我们对流行的OpenPose方法进行了优化，并展示了如何将现代的CNNs设计技术用于姿态估计任务。因此，我们的解决方案在小型PC英特尔®NUC上的运行速度为：

8 fps on mini PC Intel® NUC, which consumes little power and has 45 watt CPU TDP.
26 fps on a usual CPU without the need of a graphic card.

优化版本的精度几乎与基准相符：平均精度(AP)下降不到1%。

多人姿态估计问题通常可以通过两种方式解决。第一个，称为自上而下，应用单人检测器，然后为每个检测到的人运行一个姿势估计算法。因此，姿态估计问题被解耦为两个子问题，并且可以利用这两个领域的最新成果。这种方法的推理速度很大程度上取决于图像内检测到的人的数量。

第二种，称为自下而上，对人数更为稳健。首先在给定图像中检测所有关键点，然后将它们按人类实例分组。这种方法通常比以前更快，因为它只找到一次关键点并且不会为每个人重新运行姿势估计。

在[11]中，作者提出了自下而上方法中最快的具有最先进质量的方法，它在一块GTX 1080Ti显卡上对3个人的图像运行23fps。他们指出，对于20个人的图像，性能将下降到15fps。我们的工作基于流行的自底向上方法OpenPose，其推理时间几乎不随人数变化。

Analysis of the Original OpenPose

Inference Pipeline

Openpose由两部分组成：

神经网络推理提供两个张量：关键点热图及其成对关系（部分亲和场，PAFs）。此输出被下采样 8 次。
按人员实例对关键点进行分组。它包括将张量上采样到原始图像大小、热图峰值处的关键点提取以及它们按实例分组。

网络首先提取特征，然后执行热图和PAF的初始估计，之后执行5个细化阶段。它能够找到18种类型的关键点。然后分组程序从预定义的关键点对列表中搜索每个关键点的最佳对（按亲和力），例如左肘和左手腕、右髋和右膝、左眼和左耳等，总共19对。

流水线如图1所示。在推理过程中，根据高度调整输入图像的大小以匹配网络输入，缩放宽度以保持图像的纵横比，然后填充到8的倍数。

Complexity Analysis

最初的实现使用 VGG-19 主干切割到 conv4_2 层作为特征提取器。然后添加了两个额外的卷积层 conv4_3 和 conv4_4。之后进行初始阶段和 5 个细化阶段。每个阶段由两个并行分支组成：一个用于热图估计，一个用于PAFs。这两个分支具有相同的设计，如表 1 所示。我们在比较中将网络输入分辨率设置为 368x368，并使用与原始论文相同的 COCO 验证子集，执行单尺度测试。测试 CPU 为 Intel® CoreTM i7-6850K, 3.6GHz。表 2 显示了精度和细化阶段数量之间的权衡。

可以看出，后期阶段对每个 GFLOP 的改进较少，因此对于优化版本，我们将仅保留前两个阶段：初始阶段和单个细化阶段。后处理部分的配置文件总结在表中 3.通过运行代码获得，该代码是用OpenCV用C++编写的。尽管分组本身是轻量级的，但其他部分需要优化。

Optimization

Network design

所有实验均使用原始论文中的默认训练参数进行，并使用COCO数据集进行训练。如上所述，我们只保留初始和第一个细化阶段。然而，其余阶段可以提供正则化效果，因此最终的网络通过额外的阶段进行了重新训练，但使用了前两个阶段。这样的程序提供了1%的AP改进。

Lightweight Backbone

自从提出 VGG 网络以来，几乎没有设计出具有相似甚至更好分类精度的轻量级网络拓扑。我们评估了 MobileNet 系列的网络以替换 VGG 特征提取器，并从 MobileNet v1.1 开始。

如果把所有的层都保留到与输出张量分辨率相匹配的最深处，就会导致精度显著下降，这是一种幼稚的做法。这可能是由于特征表示较浅和较弱所致。为了节省空间分辨率和重复使用骨干权重，我们使用扩张卷积（dilated convolution）。删除了conv4_2/dw 层的步幅，并将扩张参数值设置为 2，以便后续的 conv5_1/dw层保留感受野。所以我们使用所有层直到 conv5_5 块。添加 conv5_6块提高了准确性，但以性能为代价。我们还尝试了更轻量级的主干MobileNet v2，但效果不佳，见表4。

Lightweight Refinement Stage

为了产生对关键点热图和PAF的新估计，细化阶段（refinement stage）从主干中获取特征，并与之前对关键点热图和 paf 的估计相连接。基于这一事实，我们决定在热图和 paf 之间共享大部分计算，并在初始和细化阶段使用单预测分支。我们共享除了最后两个层之外的所有层，它们直接产生关键点热图和 paf，见图 2。

然后每个具有 7x7 内核大小的卷积都被一个具有相同感受野的卷积块替换，以捕获远程空间依赖关系。我们对这种块设计进行了一系列实验，并观察到具有 1x1、3x3 和 3x3 内核大小的三个连续卷积就足够了，后者的膨胀参数等于 2，以保留初始感受野。因为网络变得更深，我们为每个这样的块添加了残差连接。

最终的设计如图3所示，其复杂度比7x7内核卷积的∼低2.5倍。我们还用3个深度可分离的卷积代替Conv4_3，通道数从256个减少到128个。表5显示了建议网络设计的复杂性和准确性。

Fast Post-processing

我们分析了代码并删除了额外的内存分配，使用 OpenCV 的例程并行提取关键点。这使得代码明显更快，最后一个瓶颈是将特征图调整为输入图像大小。

我们决定跳过调整大小的步骤，直接在网络输出上进行分组，但准确率显着下降。因此无法避免对特征图进行上采样的步骤，但输入图像大小没有必要这样做。我们的实验表明，上采样因子为 8 时，准确度是相同的，就像调整大小以适应输入图像大小一样。我们出于演示目的使用了上采样因子 4。

Inference

对于网络推理，我们使用英特尔®OpenVINOTM工具包R4，该工具包提供跨不同硬件(如CPU、GPU、FPGA等)的优化推理。表6所示的最终性能数字是针对具有20多个估计姿势的挑战性视频进行测量的。

Conclusion

在这项工作中，我们处理了人体姿态估计网络的问题，适用于边缘设备上的实时性能。我们提出了基于 OpenPose 方法的解决方案，具有高度优化的网络设计和后处理代码。由于使用了具有深度可分离卷积的扩张型 MobileNet v1 特征提取器和带有残差连接的轻量级细化阶段的设计，精度与网络复杂度的比值提高了 6.5 倍以上。