Deep High-Resolution Representation Learning for Human Pose Estimation

1 Introduction
简述
2D人体姿态估计一直是计算机视觉中一个基本而又具有挑战性的问题。目标是定位人体解剖关键点(例如,肘、腕等)或零件。它有很多应用,包括人体动作识别、人机交互、动画等。本文感兴趣的是单人位姿估计,它是其他相关问题的基础,如多人位姿估计[6,27,33,39,47,57,41,46,17,71],视频位姿估计与跟踪[49,72]等。
发展现状
最近的发展表明,深度卷积神经网络已经达到了最先进的性能。大多数现有方法通过网络传递输入,通常由串联的高到低分辨率子网组成,然后提高分辨率。例如,沙漏[40]通过对称的低到高过程恢复高分辨率。SimpleBaseline [72]采用几个转置卷积层来生成高分辨率表示。此外,扩张的卷积也被用来放大高到低分辨率网络的后几层(例如,VGGNet或ResNet) [27,77]。
我们的研究方法简述
我们提出了一种新的体系结构,即高分辨率网络,它能够在整个过程中保持高分辨率的表示。我们从一个高分辨率子网作为第一级开始,逐步逐个增加高到低分辨率的子网,形成更多的级,将多分辨率子网并行连接。我们通过在整个过程中一遍又一遍地在并行多分辨率子网之间交换信息来进行重复的多尺度融合。我们估计网络输出的高分辨率表示上的关键点。结果网络如图1所示。
我们研究方法的好处
相比之下,我们的网络在广泛使用的网络[40,27,77,72]进行姿态估计有两个好处。
(I)我们的方法是并行连接高分辨率到低分辨率的子网,而不是像大多数现有解决方案那样串联连接。因此,我们的方法能够保持高分辨率,而不是通过从低到高的过程来恢复分辨率,因此预测的热图在空间上可能更精确。
(二)大多数现有的融合方案集合了低级和高级表示。相反,我们在相同深度和相似级别的低分辨率表示的帮助下,执行重复的多尺度融合来增强高分辨率表示,反之亦然,导致高分辨率表示对于姿态估计也是丰富的。因此,我们预测的热图可能更准确。
2. Related Work
单人姿势估计的大多数传统解决方案采用概率图形模型或图形结构模型[79,50],最近通过利用深度学习来更好地建模一元和成对能量[9,65,45]或模仿迭代推理过程[13]来改进该模型。
目前方法的详述
如今,深度卷积神经网络提供主导解决方案[20,35,62,42,43,48,58,16]。有两种主流方法:回归关键点的位置[66,7],估计关键点热图[13,14,78],然后选择具有最高热值的位置作为关键点。
用于关键点热图估计的大多数卷积神经网络由类似于降低分辨率的分类网络的主干子网络组成,主体产生与其输入具有相同分辨率的表示,随后是估计热图的回归器,其中关键点位置被估计,然后以全分辨率变换。主体主要采用高到低、低到高的框架,可能辅以多尺度融合和中间(深)监管。
关键点
High-to-low and low-to-high.
由高到低的过程旨在生成低分辨率和高层次的表示,而由低到高的过程旨在生成高分辨率的表示[4,11,23,72,40,62]。为了提高性能,这两个过程可能重复几次[77,40,14]。
代表性的网络设计模式包括:(I)对称的高到低和低到高流程。沙漏及其后续[40,14,77,31]将低到高的过程设计为高到低过程的镜像。(二)重高到低和轻低到高。高到低的过程基于ImageNet分类网络,例如[11,72]中采用的ResNet,低到高的过程只是一些双线性上采样[11]或转置卷积[72]层。㈢与扩张的回旋相结合。在[27,51,35]中,在ResNet或VGGNet的最后两个阶段采用了扩张卷积来消除空间分辨率损失,随后是一个从低到高的过程来进一步提高分辨率,避免了仅使用扩张卷积的昂贵计算成本[11,27,51]。图2描绘了四个代表性的姿态估计网络。
Multi-scale fusion.
简单的方法是将多分辨率图像分别输入多个网络,并汇总输出响应图[64]。沙漏[40]及其扩展[77,31]通过跳跃连接逐步将高到低过程中的低级特征组合成低到高过程中的相同分辨率高级特征。在级联金字塔网络[11]中,一个全局网络将高到低过程中的低到高层次特征逐渐组合成低到高过程,然后一个细化网络将通过卷积处理的低到高层次特征组合起来。我们的方法重复多尺度融合,这部分受到深度融合及其扩展的启发[67,73,59,80,82]。
Intermediate supervision(中间监督).
早期为图像分类开发的中间监督或深度监督[34,61]也用于帮助深度网络训练和提高热图估计质量,例如[69,40,64,3,11]。沙漏方法[40]和卷积姿态机器方法[69]处理中间热图作为剩余子网的输入或部分输入。
Our approach.
我们的网络并行连接高到低的子网。它在空间精确热图估计的整个过程中保持高分辨率表示。它通过反复融合由高到低子网产生的表示来生成可靠的高分辨率表示。我们的方法不同于大多数现有的工作,后者需要一个单独的从低到高的上采样过程,并聚合低级和高级表示。在不使用中间热图监督的情况下,我们的方法在关键点检测精度方面是优越的,并且在计算复杂度和参数方面是高效的。
有相关的多尺度网络用于分类和分割[5,8,74,81,30,76,55,56,24,83,55,52,18]。我们的工作部分受到了其中一些[56,24,83,55]的启发,并且存在明显的差异,使得它们不适用于我们的问题。卷积神经网络[56]和互连的CNN [83]无法产生高质量的分割结果,因为在每个子网络上缺乏适当的设计(深度、批量归一化)和多尺度融合。网格网络[18]是许多权重共享U-net的组合,由两个跨多分辨率表示的独立融合过程组成:在第一阶段,信息仅从高分辨率发送到低分辨率;在第二阶段,信息仅从低分辨率发送到高分辨率,因此竞争力较低。多尺度dense net[24]没有目标,无法生成可靠的高分辨率表示。
3. Approach
对我们的方法的详细解读,先简介人体姿态估计算法
人体姿态估计,又称关键点检测,旨在从大小为W × H × 3的图像I中检测出K个关键点或部位(如肘、腕等)的位置。最先进的方法将这一问题转化为估算W 0×H 0大小的K热图,{H1,H2,}。。。,HK},其中每个热图hki指示第k个关键点的位置置信度。
我们遵循广泛采用的管道[40,72,11]来使用卷积网络预测人类关键点,该网络包括由降低分辨率的两个交错卷积组成的主干、以与其输入特征图相同的分辨率输出特征图的主体、以及估计关键点位置被选择并转换为全分辨率的热图的回归器。我们专注于主体的设计,并介绍了我们的高分辨率网络,如图1所示。
请添加图片描述
顺序多分辨率子网
现有的姿态估计网络是通过串联高到低分辨率的子网来构建的,其中每个子网形成一个阶段,由一系列卷积组成,相邻子网之间有一个下采样层,以将分辨率减半。
设Nsrbe为sth阶段的子网,r为分辨率指数(其分辨率为第一个子网分辨率的12r-1)。具有S(例如,4)级的高到低网络可以表示为:

并行多分辨率子网
我们从一个高分辨率子网作为第一阶段开始,逐步逐个增加高到低分辨率子网,形成新的阶段,将多分辨率子网并行连接。因此,后一阶段的并行子网的分辨率由前一阶段的分辨率和额外的较低分辨率组成。
包含4个并行子网的示例网络结构如下所示,
请添加图片描述
重复多尺度融合
我们在并行子网之间引入交换单元,使得每个子网重复接收来自其他并行子网的信息。这是一个展示信息交换方案的例子。我们将第三级分成几个(例如3个)交换块,每个块由3个并行卷积单元组成,在并行单元之间有一个交换单元,如下所示,
请添加图片描述
函数a(Xi,k)包括从分辨率I到分辨率k的上采样或下采样。我们采用了3× 3的交错卷积进行下采样。例如,一个步长为2的3 × 3卷积用于2×下采样,两个连续的步长为2的3×3卷积用于4×下采样。对于上采样,我们采用1 × 1卷积后的简单最近邻采样来对齐通道数。
热图估计
我们简单地从最后一个交换单元输出的高分辨率表示中回归热图,这在经验上很有效。定义为均方误差的损失函数用于比较预测热图和地面实况热图。通过应用以每个关键点的组真值位置为中心的标准偏差为1个像素的2D高斯来产生地面真值热冲击。
网络实例化
我们通过遵循ResNet的设计规则来实例化用于关键点热图估计的网络,以将深度分配给每个阶段,并将通道数量分配给每个分辨率
主体,即我们的HRNet,包含四个阶段和四个平行的子网,其分辨率逐渐降低到一半,因此宽度(通道数)增加到两倍。第一阶段包含4个剩余单元,其中每个单元(与ResNet-50相同)由宽度为64的瓶颈形成,随后是一个3×3卷积,将特征映射的宽度减小到c。第二、第三、第四阶段分别包含1、4、3个交换块。一个交换块包含4个剩余单元,其中每个单元在每个分辨率中包含两个3 × 3卷积和一个跨分辨率的交换单元。总的来说,共有8个交换单元,即进行了8次多尺度融合。
在我们的实验中,我们研究了一个小网络和一个大网络:HRNet-W32和HRNet-W48,其中32和48分别代表最后三个阶段的高分辨率子网的宽度©。其他三个平行子网的宽度分别为:HRNet-W32 64,128,256,HRNet-W48 96,192,384。
4. Experiments
4.1. COCO Keypoint Detection
数据集
COCO数据集[36]包含200,000多幅图像和250,000个标记有17个关键点的人物实例。我们在COCO train2017数据集上训练我们的模型,包括57K图像和150K人实例。我们在val2017集和test-dev2017集上评估了我们的方法,分别包含5000个图像和20K个图像。
评估指标
标准评估指标基于对象关键点相似度(OKS):OKS = P iexp(D2 I/2s 2k 2 I)δ(VI > 0)P Iδ(VI > 0)。这里dii是检测到的关键点和对应的地面真实之间的欧几里德距离,VII是地面真实的可见性标志,s是对象比例,kii是控制衰减的每个关键点常数。我们报告了标准平均精度和召回分数1:AP50(OKS的平均分数= 0.50) AP75,AP(10个位置的平均分数,OKS = 0.50,0.55,。。。,0.90,0.95;中等物体的杀伤人员地雷、大物体的杀伤人员地雷和OKS = 0.50,0.55时的杀伤人员地雷。。。,0.90,0.955.
训练
我们将人体检测框的高度或宽度扩展到固定的长宽比:高度:宽度= 4 : 3,然后从图像中裁剪该框,将其调整到固定的大小,即256 × 192或384 × 288。数据扩充包括随机旋转([-45♀,45 ♀]),随机缩放([0.65,1.35])和翻转。在[68]之后,还涉及到半身数据增强
我们使用亚当优化器[32]。学习时间表遵循设置[72]。基本学习速率设置为1e-3,在第170和200个时期分别降至1e-4和1e-5。训练过程在210个时期内结束。
测试
使用类似于[47,11,72]的两阶段自上而下的范例:使用人员检测器检测人员实例,然后预测检测关键点。
我们对验证集和测试开发集使用SimpleBaseline2[72]提供的同一个人检测器。

验证集的结果
与其他网络相比,我们网络的好处(不足一般不太提及)
我们在表1中报告了我们的方法和其他最先进方法的结果。我们的小网络——HRNet-W32,从零开始训练,输入大小为256 × 192,获得了73.4的AP分数,优于其他输入大小相同的方法。(I)与沙漏[40]相比,我们的小型网络提高了AP减少了6.5个点,我们网络的GFLOPs要低得多,不到一半,而参数数量差不多,我们的稍微大一些。(ii)与CPN [11] w/o和w/ OHKM相比,我们的网络模型尺寸略大,复杂度略高,分别实现了4.8和4.0点的增益。(iii)与之前性能最佳的SimpleBaseline [72]相比,我们的小型网络HRNet-W32获得了显著的改进:模型大小和GFLOPs相似的主干ResNet-50获得了3.0点的增益,模型大小(#Params)和GLOPs是我们的两倍的主干ResNet152获得了1.4点的增益。
我们的网络可以受益于(I)针对ImageNet分类问题的训练模型:HRNet-W32的增益为1.0分;(ii)通过增加宽度来增加容量:我们的大网HRNet-W48在输入尺寸256 × 192和384 × 288方面分别得到了0.7和0.5的改进。
考虑到输入大小384 × 288,我们的HRNet-W32和HRNet-W48,得到75.8和76.3的AP,与输入大小256 × 192相比,分别有1.4和1.2的改进。与使用ResNet-152作为主干的简单基线[72]相比,我们的HRNet-W32和HRNetW48在AP方面分别获得了1.5和2.0点的增益,计算成本分别为45%和92.4%。
测试开发集的结果。表2报告了我们的方法和现有最先进方法的姿态估计性能。我们的方法明显优于自下而上的方法。另一方面,我们的小型网络HRNet-W32的AP达到了74.9。它优于所有其他自顶向下的方法,并且在模型大小(#Params)和计算复杂度(GFLOPs)方面更有效。我们的大型号,HRNet-W48,达到了最高的75.5 AP。与相同输入大小的简单基线[72]相比,我们的小网络和大网络分别获得了1.2和1.8的改进。利用AI Challenger [70]的额外数据进行训练,我们的单个大网络可以获得77.0的AP。
4.2. MPII Human Pose Estimation(MPII人体姿态估计)
数据集
MPII人体姿势数据集[2]由从广泛的真实世界活动中获取的带有全身姿势注释的图像组成。大约有25K个图像,40K个受试者,其中有12K个受试者用于测试,其余受试者用于训练集。数据扩充和训练策略与MS COCO相同,只是输入大小被裁剪为256 × 256,以便与其他方法进行公平比较。
测试
测试过程与COCO中的测试过程几乎相同,只是我们采用了标准的测试策略,使用提供的个人盒子来代替检测到的个人盒子。在[14,77,62]之后,执行六级金字塔测试程序
评估指标
使用标准度量[2],即PCKh(正确关键点的头部标准化概率)分数。如果关节落在地面真实位置的αl像素内,则关节是正确的,其中α是常数,l是头部大小,对应于地面真实头部边界框对角线长度的60%。报告了PCKh@0.5(α = 0.5)分数。
测试集的结果
表3和表4显示了0.5时的PCKh结果、模型大小和最佳执行方法的GFLOPs。我们通过使用ResNet-152作为输入大小为256 × 256的主干来重新实现简单基线[72]。我们的HRNet-W32获得了92.3 PKCh@0.5的分数,并且优于堆叠沙漏方法[40]及其扩展[58,14,77,31,62]。我们的结果与20183年11月16日排行榜上先前公布的结果中最好的一个[62]相同。我们想指出的是,作为我们方法的补充,方法[62]利用组合模型来学习humanbodiesanddopts多级中间监管的配置,我们的方法也可以从中受益。我们还测试了我们的大网络——HRNetW48,得到了同样的结果92.3。原因可能是该数据的性能趋于饱和。
4.3. Application to Pose Tracking(姿态跟踪的应用)
数据集
PoseTrack [28]是视频中人体姿态估计和关节跟踪的大规模基准。该数据集基于流行的MPII人体姿态数据集提供的原始视频,包含550个视频序列,66,374帧。视频序列被分成分别有292、50、208个视频用于培训、验证和测试。训练视频的长度在41-151帧之间,距离视频中心的30帧是密集标注的。验证/测试视频的帧数在65-298帧之间。来自MPII姿势数据集的关键帧周围的30帧被密集地注释,然后每隔四帧被注释一次。总共,这构成了大约23,000个标记帧和153,615个姿势注释。
评估指标
我们从两个方面对结果进行评估:帧内多人姿态估计和多人姿态跟踪。如[51,28]中所述,通过平均精度(mAP)评估姿态估计多人姿态跟踪由多目标跟踪精度(MOTA)评估[38,28]。详情见[28]。
训练
我们在PoseTrack2017训练集上训练我们的HRNet-W48进行单人姿势估计,其中网络由在COCO数据集上预先训练的模型初始化。我们通过将所有关键点(对于一个人)的边界框延长15%的长度,从训练帧中的注释关键点提取个人框,作为我们网络的输入。包括数据增强在内的训练设置几乎与COCO相同,只是学习时间表不同(现在用于微调):学习速率从1e-4开始,在第10个时期降至1e-5,在第15个时期降至1e-6;迭代在20个时代内结束
测试
我们遵循[72]来跟踪跨帧的姿势。它由三个步骤组成:人框检测和传播、人体姿态估计和姿态关联跨相邻帧。我们使用SimpleBaseline [72]中使用的同一个人盒子检测器,并通过根据FlowNet 2.0 [26]4计算的光流传播预测的关键点,然后对盒子移除进行非最大抑制,将检测到的盒子传播到附近的帧中。姿势关联方案基于一帧中的关键点和根据光流从附近帧传播的关键点之间的对象关键点相似性。然后使用贪婪匹配算法计算关键点之间的对应关系附近的框架。更多细节见[72]。
PoseTrack2017测试集的结果
表5报告了结果。我们的大网络- HRNet-W48取得了优异的成绩,74.9的mAP分数和57.9的MOTA分数。与使用ResNet-152作为主干的SimpleBaseline [72]中的FlowTrack相比,我们的方法在mAP和MOTA方面分别获得了0.3和0.1分的增益。相对于FlowTrack [72]的优势与可可关键点检测和MPII人体姿态估计数据集的优势一致。这进一步暗示了我们的姿态估计网络的有效性。
4.4. Ablation Study(消融研究)
我们研究了我们的方法中的每个组件对COCO关键点检测数据集的影响。除了关于输入大小的影响的研究之外,所有结果都是在256 × 192的输入大小上获得的。
重复多尺度融合
我们实证分析了重复多尺度融合的效果。我们研究网络的三种变体。(a) W/o中间交换单元(1融合):除了最后一个交换单元之外,多分辨率子网之间没有交换。(b)仅W/跨级交换单元(3次融合):每一级内的并行子网之间没有交换。© W/跨级和级内交换单元(共8个融合):这是我们提出的方法。所有的网络都是从头开始训练的。以上结果表6中给出的COCO验证集表明多尺度融合是有帮助的,更多的融合导致更好的性能。
分辨率维护
我们研究了HRNet的一个变体的性能:所有四个高到低分辨率的子网都是在开始时添加的,深度是相同的;融合方案和我们的一样。我们的HRNet-W32和变体(具有相似的#Params和GFLOPs)都是从头开始训练的,并在COCO验证集上进行测试。该变体实现了72.5的AP,低于我们的小型网络HRNet-W32的73.4 AP。我们认为,原因是从低分辨率子网的早期阶段提取的低层特征帮助较小。此外,在没有低分辨率并行子网络的情况下,具有相似参数和计算复杂度的简单高分辨率网络表现出低得多的性能。
代表决议
我们从两个方面研究表示分辨率如何影响姿态估计性能:从高到低检查从每个分辨率的特征图估计的热图的质量并研究输入大小如何影响质量。
我们通过为ImageNet分类预处理的模型来训练我们的大小网络。我们的网络从高到低的解决方案中输出四个响应图。较低压力解决方案响应图的热图预测质量太低,ap分数低于10分。图5显示了其他三张地图的AP得分。这种比较意味着分辨率确实会影响关键点预测质量。
图6显示了与简单基线(ResNet50) [72]相比,输入图像大小如何影响性能。我们可以发现,较小输入尺寸的改善比较大输入尺寸的改善更显著,例如,256 × 192的改善为4.0分,128 × 96的改善为6.3分。原因是我们在整个过程中保持了高分辨率。这意味着我们的方法在计算成本也是一个重要因素的实际应用中更有优势。另一方面,我们的输入大小为256×192的方法优于输入大小为384 × 288的简单基线[72]。
5. Conclusion and Future Works
在这篇论文中,我们提出了一个高分辨率的人体姿态估计网络,产生精确的和空间精确的关键点热图。成功源于两个方面:(I)在整个过程中保持高分辨率,而不需要恢复高分辨率;以及(ii)重复融合多分辨率表示,提供可靠的高分辨率表示。
未来的工作包括在其他密集预测任务中的应用,例如,语义分割、对象检测、人脸对齐、图像翻译,以及以较轻的方式聚合多分辨率表示的研究。所有这些都可以在https://京东网2017上找到。github.io/Projects/HRNet/index.html.

Appendix(附录)
Results on the MPII Validation Set
我们提供了MPII验证集的结果[2]。我们的模型在MPII训练集的子集上训练,并在2975幅图像的heldout验证集上评估。训练程序与整个MPII训练集的训练程序相同。热图计算为原始图像和翻转图像热图的平均值,用于测试。在[77,62]之后,我们还执行六尺度金字塔测试程序(多尺度测试)。结果如表7所示。
More Results on the PoseTrack Dataset
我们提供了PoseTrack数据集[1]上所有关键点的结果。表8显示了PoseTrack2017数据集上的多人姿势估计性能。我们的HRNet-W48在验证和测试集ss上分别获得了77.3和74.9分的mAP,比以前最先进的方法[72]分别高出0.6和0.3分。我们在PoseTrack2017测试集上提供了多人姿势跟踪性能的更详细结果,作为论文中报告结果的补充,如表9所示。
Results on the ImageNet Validation Set
我们将网络应用于图像分类任务。模型在ImageNet 2013分类数据集上进行训练和评估[54]。我们为100个时代训练我们的模型,批量为256。初始学习速率被设置为0.1,并且在时期30、60和90减少10倍。我们的模型可以实现与那些专门为图像分类设计的网络相当的性能,如ResNet [22]。我们的HRNet-W32的单模型top-5验证误差为6.5%,单作物测试的单模型top-1验证误差为22.7%。我们的HRNet-W48获得了更好的性能:6.1%的top-5错误和22.1%的top-1错误。我们使用在ImageNet数据集上训练的模型来初始化我们的姿态估计网络的参数。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值