Lite Pose: Efficient Architecture Design for 2D Human Pose Estimation
目录
Rethinking the Efficient Design Space
3.1. Scale-Aware Multi-branch Architectures
3.2. Redundancy in High-Resolution Branches
3.3. Fusion Deconv Head: Remove the Redundancy
3.4. Mobile Backbone with Large Kernel Convs
3.5. Single Branch, High Efficiency
Abstract
姿势估计在以人为中心的视觉应用中起着至关重要的作用。然而,由于计算成本高(每帧超过 150 个 GMAC),很难在资源受限的边缘设备上部署最先进的基于 HRNet 的姿态估计模型。在本文中,我们研究了用于边缘实时多人姿态估计的有效架构设计。我们通过逐渐缩小的实验揭示了 HRNet 的高分辨率分支对于低计算区域的模型是多余的,删除它们可以提高效率和性能。受这一发现的启发,我们设计了 LitePose,一种用于姿态估计的高效单分支架构,并引入了两种简单的方法来增强 LitePose 的容量,包括fusion deconv head和large kernel conv。在移动平台上,与之前最先进的高效姿态估计模型相比,LitePose 在不牺牲性能的情况下将延迟降低了高达 5.0 倍,推动了边缘实时多人姿态估计的前沿。
Introduction
人体姿势估计的目的是从图像中预测每个人的关键点位置。对于许多需要理解人类行为的视觉应用来说,这是一项关键技术。典型的人体姿态估计模型可以分为自上而下和自下而上两种模式。自上而下的范例首先通过一个额外的人检测器检测人,然后对每个检测到的人执行单人姿势估计。相比之下,自下而上的范式首先预测没有身份的关键点,然后将它们分组为人。由于自底向上范式不涉及额外的人检测器,并且不需要对图像中的每个人重复运行姿势估计模型,因此更适合边缘上的实时多人姿势估计。
然而,现有的自底向上姿态估计模型[OpenPose、HigherHRNet、DeeperCut、PifPaf、Hourglass...]主要集中在计算量较大的区域。例如,HigherHRNet在超过150GMAC的CrowdPose数据集[26]上实现了最佳性能,这对于边缘设备来说是令人望而却步的。在保持良好性能的同时设计具有低计算成本的模型非常重要。
在本文中,我们研究了自下而上人体姿态估计的有效架构设计。 先前在高计算区域的研究表明,保持高分辨率表示对于实现自下而上姿态估计的良好性能起着关键作用。 然而,目前尚不清楚这是否仍然适用于低计算区域的模型。 为了回答这个问题,我们通过逐渐缩小的方式在代表性的多分支架构 HigherHRNet 和单分支架构之间搭建了一座“桥梁”(图 2)。
我们惊奇地发现,随着我们缩小低计算区域中模型的高分辨率分支的深度,性能会提高(图 3)。 受这一发现的启发,我们设计了一个单分支架构 LitePose,用于高效的自下而上姿态估计。 在 LitePose 中,我们使用修改后的 MobileNetV2 [43] 主干,具有两个重要改进来有效处理单分支设计中的尺度变化问题:fusion deconv head 和 large kernel conv。
Fusion Deconv Head消除了高分辨率分支中的冗余细化,因此允许以单分支方式进行规模感知的多分辨率融合(图6)。同时,与图像分类不同的是,我们发现large kernel convs在自下而上的姿势估计方面提供了更显著的改进(图7)。最后,我们应用神经结构搜索(NAS)来优化模型的结构并选择合适的输入分辨率。
在CrowdPose[26]和Coco[28]上的大量实验证明了LitePose的有效性。在CrowdPose[26]上,LitePose在更好的性能上实现了2.8倍的MAC减少和高达5.0倍的延迟减少。在CoCo[28]上,LitePose在提供更好性能的同时,与EfficientHRNet[36]相比,延迟减少了2.9倍。
Contributions
- 我们设计了渐进式收缩实验,表明高分辨率分支对于低计算量区域的模型是冗余的
- 我们提出了LitePose,一种高效的自下而上的姿态估计体系结构。我们还介绍了两种增强LitePose性能的技术,包括fusion deconv head和large kernel convs
- 在两个基准数据集 Microsoft COCO 和 CrowdPose 上的广泛实验证明了我们方法的有效性:与最先进的基于 HRNet 的模型相比,LitePose 实现了高达 2.8 倍的 MAC 减少和高达 5.0 倍的延迟减少。
Related Work
2D Human Pose Estimation
2D 人体姿态估计旨在定位人体解剖学关键点(例如肘部、手腕)或部位。主要有两种框架:自上而下的框架和自下而上的框架。自上而下的方法 [7, 10, 15, 23, 38, 44, 47, 51] 通过首先检测图像中的每个人来执行单人姿势估计。相反,自下而上的方法 [5, 8, 11, 21, 22, 24, 37, 38, 40, 41] 直接以端到端的方式预测每个人的关键点。典型的自下而上方法包括两个步骤:预测关键点热图,然后将检测到的关键点分组为人。在这些方法中,基于 HRNet 的多分支架构 [8, 11] 提供了最先进的结果。他们设计了一个多分支架构以允许多分辨率融合,这已被证明在解决自下而上姿态估计的尺度变化问题方面是有效的。然而,所有这些方法的计算量都太大(大多数 >150GMAC),无法部署在边缘设备上。在这项工作中,我们专注于自下而上的效率框架。遵循最先进的基于 HRNet 的方法 [8],我们使用关联嵌入(Associate embedding)进行分组。
Model Acceleration
除了直接设计高效模型 [20, 34, 35, 43, 50, 55],模型加速的另一种方法是压缩现有的大型模型。一些方法旨在修剪连接和卷积过滤器内部的冗余[13、14、18、27、32、48]。同时,其他一些方法专注于量化网络[9,25,46,57]。此外,还提出了几种 AutoML 方法来自动化模型压缩和加速[17、33、46、52]。最近,Yu 设计了 LiteHRNet [53] 用于自上而下的姿态估计,而我们专注于自下而上的范式。 Neff 提出了 EfficientHRNet [36] 用于高效的自下而上的姿态估计。他们将 EfficientNet [45] 中的复合缩放思想应用于 HigherHRNet [8] 并实现了 1.5 倍的 MAC 减少。然而,当计算约束变得更严格时,他们的方法仍然面临着性能的急剧下降。在这项工作中,与 EfficientHRNet 相比,我们将 MAC 减少率提高到 5.1 倍,并在移动平台上实现了高达 5.0 倍的延迟减少。
Neural Architecture Search
神经架构