论文阅读_Distribution-Aware Coordinate Representation for Human Pose Estimation学习笔记

本文链接：https://blog.csdn.net/weixin_43916755/article/details/105731954

Abstract

总结：这篇文章系统地研究了Heatmap上的热图表示。主要是：预测的热图解码成原始图像空间中的最终关节坐标的过程。针对所发现的重要性，我们进一步探讨了现有方法中广泛使用的标准坐标译码方法的设计局限性，并提出了一种更有原则的分布式感知译码方法**（创新点1）。我们通过为无偏模型训练生成精确的热图分布来改进标准坐标编码过程(即，将真实坐标转换为热图)。（创新点2）。把这两个创新点结合起来，formulate了一种新的基于分布感知的关键点坐标表示方法（Distribution-Aware Coordinate Representation for Human Pose Estimation）(DARK) 。作为一个与模型无关的插件**，DARK显著提高了各种最先进的人体姿态估计模型的性能。（可应用在其他模型中）。大量的实验表明，DARK在MPII和COCO这两种常用的基准上得到了最好的结果，不断地验证了我们的方法—新颖的坐标表示思想有用性和有效性。

Introduction

（Heatmap表示的优点）
人体姿态估计是一个基本的计算机视觉问题，旨在检测无约束图像中人体关节的空间位置。这是一项非同小可的任务，因为人体关节的外观会因衣服的不同样式、任意遮挡和不受约束的背景环境而发生显著变化，同时还需要识别精细的关节坐标。现有的工作主要集中在设计CNN的架构，特别是为人类姿势推断。与图像分类中作为对象类标签表示的常见one-hot vectors 类似，人体姿态CNN模型也需要用于编码身体关节坐标标签的标签表示，以便在训练期间可以量化和计算监督学习损失，并且可以适当地推断关节坐标。de facto 标准标签表示是coordinate heatmap，生成为以每个关节的标签坐标为中心的二维高斯分布/核(Tompson等人，2014年)。它是从坐标编码过程中获得的，从坐标到热图。热图的特点是在真实位置周围提供空间支持，不仅考虑上下文线索，还考虑固有的目标位置模糊性。重要的是，这可以有效地降低训练中模型过度拟合的风险，这与类标签平滑规则化的思想相似(Szegedy等人，2016年)。毫不奇怪，最先进的姿势模型(纽威尔，杨，邓2016；肖、吴、魏2018；Sun等人(2019年)基于热图坐标表示。
(Heatmap表示的不足)
对于热图标签表示，一个主要的障碍是，计算成本是输入图像分辨率的二次函数，这使得CNN模型无法处理典型的高分辨率原始图像数据。为了计算上的可行性，在送入模型之前，对图片进行一个预处理**(downsample all the person bounding box images at arbitrarily large resolutions into a prefixed small resolution)，为了预测原始图像坐标空间中的关节位置，在热图预测之后，需要相应的分辨率恢复来转换回原始坐标空间。~~**最终预测被认为是激活最大的位置~~ 。我们称这个过程为坐标解码，从热图到坐标。值得注意的是，量化误差可能在上述分辨率降低期间引入。为了缓解这个问题，在现有的坐标解码过程中手动操作通常按照从最高激活到第二高激活的方向进行(Newell、Yang和Deng，2016)。
坐标表示HRNet-W32在COCO验证集上取得了高达5.7%的效果。
本文主要研究编码和解码的联合坐标表示。
鉴于发现的坐标表示的重要性，我们进行了深入的研究，并认识到一个关键的限制在于坐标解码过程。虽然现有的标准移位操作已被证明是有效的，如本研究中所发现的，我们提出了一个原则性的分布感知表示方法，用于在亚像素精度下更精确的联合定位。具体而言，它被设计成通过基于泰勒展开的分布近似来综合考虑热图激活的分布信息。此外，我们观察到用于生成地面实况热图的标准方法存在量化误差，导致不精确的监控信号和较差的模型性能。为了解决这个问题，我们建议生成无偏的热图，允许高斯核集中在亚像素位置。
（DARK）
提出了一种新的基于分布感知的关键点坐标表示方法，该方法包括两个关键部分:(1)基于泰勒展开的有效坐标解码，以及(2)无偏的亚像素中心坐标编码。重要的是，现有的人类姿势方法可以无缝地受益于DARK，而无需任何算法修改。提高准确率和性能。
在这里插入图片描述

Related Work

人体姿态估计中有两种常见的坐标表示设计:直接坐标和热图。两者都被用作模型训练的回归目标。
坐标回归直接将坐标作为模型输出目标，简单直观。一个可能的原因是，这种表示缺乏空间和上下文信息，使得关节位置中固有的视觉模糊性，导致学习效果不佳。
热图回归热图表示法很好地解决了上述限制。它最早是在(Tompson等人，2014年)引入的，并迅速成为最常用的坐标表示法。
与所有以前的工作相反，我们研究的是热图在人体姿态估计上的表现问题，这在文献中是一个很大程度上被忽视的观点。我们不仅揭示了在使用热图的过程中分辨率降低的巨大影响，而且我们还提出了一种原则坐标表示方法来显著改善现有模型的性能。至关重要的是，我们的方法可以在不改变模型设计的情况下无缝集成。

Methodology

我们考虑了人体姿态估计中的坐标表示问题，包括编码和解码。目标是预测给定输入图像中的关节坐标。为此，我们需要学习从输入图像到输出坐标的回归模型，并且在模型训练和测试期间，热图经常被用作坐标表示。具体来说，我们假设可以访问一组训练图像。为了便于模型学习，我们将标记的关节的真实坐标编码成热图作为监督学习目标。在测试过程中，我们需要将预测的热图解码成原始图像坐标空间中的坐标。

在下文中，我们首先描述解码过程，重点是现有标准方法的局限性分析和新解决方案的开发。
然后，我们进一步讨论和解决编码过程的局限性。
最后，我们描述了现有的人体姿态估计模型与所提出的方法的集成。

坐标解码
坐标解码是将热图转换成原始图像的坐标过程。假设热图具有与原始图像相同的空间尺寸，我们只需要找到最大激活的位置作为联合坐标预测，这是简单明了的。相反，我们需要通过特定于样本的无约束因子λ 属于R+将热图向上采样到原始图像分辨率。在介绍我们的方法之前，我们首先回顾一下现有姿态估计模型中使用的标准坐标解码方法。
在这里插入图片描述

The standard coordinate decoding method
标准坐标解码方法是根据模型性能根据经验设计的，具体地，给定由训练模型预测的热图h，我们首先识别**最大激活(m)和第二最大激活(s)**的坐标。然后，关节位置被预测为：
在这里插入图片描述

其中：在这里插入图片描述定义了矢量的大小,这意味着预测是最大激活，其中0.25像素(即子像素)在热图空间中向第二最大激活移动。原始图像中的最终坐标预测计算如下:

(1)中的子像素移位的目的是补偿图像分辨率下采样的量化效应。也就是说，预测热图中的最大激活不对应于原始坐标空间中关节的精确位置，而仅对应于粗略位置。所以要做一个这样的转变~！
这样的操作缺乏解释，但是并没有其他的方法，下面是作者的研究方法；
The proposed coordinate decoding method
提出的坐标解码方法探索预测热图的分布结构以推断潜在的最大激活。具体做法：
为了获得亚像素级的精确位置，我们假设预测的热图遵循2D高斯分布，与实况热图相同。因此，我们将预测的热图表示为：
在这里插入图片描述
其中σ是两个方向的标准偏差。对上面的（3）式进行对数变换，然后再进行求导。

我们的目标是估算µ。作为分布的一个极值点，众所周知，该位置的一阶导数满足以下条件:

为了探索这个条件，我们采用了泰勒定理。形式上，我们用泰勒级数(直到二次项)来近似活化P(µ)，在预测热图的最大活化m处评估为：
在这里插入图片描述

(6)、(7)、(8)整理一下，得到如下：

其中 D00(m) and D0(m) 可以从热图中有效地估计。一旦获得µ，就能从应用方程(2)预测原始图像空间中的坐标。
与在热图中仅考虑第二最大激活的标准方法相比，所提出的坐标解码充分探索了热图分布统计，以便更准确地揭示潜在的最大值。理论上，我们的方法是基于训练监督一致假设下的原则分布近似，即热图是高斯分布。关键是，它的计算效率非常高，因为它只需要计算每个热图中一个位置的一阶和二阶导数。因此，现有的人类姿态估计方法可以容易地受益，而没有任何计算成本障碍。

Heatmap distribution modulation
由于所提出的坐标译码方法是基于高斯分布假设的，因此有必要研究该方法在多大程度上满足了这一条件。我们发现，通常情况下，由人体姿态估计模型预测的热图与训练后的热图数据相比，并没有表现出良好的高斯结构。如图3(a)所示，热图通常在最大激活点附近出现多个峰值。这可能会对我们的解码方法的性能产生负面影响。为了解决这一问题，我们建议预先调节热图分布。
具体来说，为了匹配我们的方法的要求，我们建议使用一个与训练数据变化相同的高斯核K来平滑heatmap h中多个峰值的影响，形式上为：（10）
为了保持原有的heatmap的大小，我们最终对h’进行了缩放，使它的最大激活量等于h的最大激活量，变换如下:(11)
在这里插入图片描述

由于会出现多个峰值，所以要用高斯核K对热图h进行平滑。卷积运算后为了保持和原始热图相同的大小，对h’进行缩放操作，让h’的最大激活等于h。最终得到的图如(b)所示。

解码过程总结：

(a)热图分布调制(Eq。(10)、(11))
(b)通过亚像素精度下的泰勒展开的分布感知联合定位(方程式。(3)-(9))。
©分辨率恢复到原始的空间

Coordinate Encoding

前一节讨论了基于分辨率降低的坐标解码问题。作为一个类似的过程，坐标编码也有相同的局限性。具体来说，标准的坐标编码方法是从将原始人物图像向下采样downsample到模型输入大小开始的。因此，在生成热图之前，需要对地面真实联合坐标进行相应的转换。
g = (u; v) 表示真实的坐标。
在这里插入图片描述
为了方便内核生成，进行一个量化quantise操作：

g’‘表示：随后，以量化坐标g’‘为中心的热图可以通过以下方式合成:

由于量化误差的存在，上面方式生成的热图是由偏差的，不准确的，如图4所示。
在这里插入图片描述
这个图主要说明量化误差。蓝点表示g’的精确位置，对于基于floor的量化操作，有一个误差（红色箭头）,其他量化方法也有同样问题。
解决方法：用非量化之前的g’代表量化中心，把方程14中的g’’用g’代替，我们将演示这种无偏热图生成方法的好处(表3)。如下：
在这里插入图片描述
这样无偏热图的好处，如表3：

Integration with State-of-the-Art Models

这种DARK方法可以和现有的任何基于热图的姿态模型无缝集成。它不会涉及到以前算法的改变，唯一的一点改变是，根据实际的关键点坐标生成。

Experiments部分

数据集

用了COCO和MPII

模型评估

We used Object Keypoint Similarity (OKS) for COCO and Percentage of Correct Keypoints(PCK) for MPII to evaluate the model performance.

Implementation details

模型使用：Adam optimiser

Evaluating Coordinate Representation

作为本工作的核心问题，首先研究了坐标表示对模型性能的影响，以及与输入图像分辨率(尺寸)的关系。在本测试中，默认情况下，我们使用HRNet-W32 (Sun等人，2019年)作为主干模型，128×96作为输入大小，并在COCO验证集上报告准确性结果。
在这里插入图片描述

Conclusion

在这项工作中，我们首次系统地研究了在无约束图像中用于人体姿态估计的坐标表示(包括编码和解码)这一被广泛忽略但却很重要的问题。我们不仅揭示了这个问题的真正意义，而且还提出了一种新的分布感知的关键点坐标表示法(DARK)，用于更有区别的模型训练和推理。作为一个随时可用的插件组件，现有的最先进的模型可以无缝地从我们的DARK方法中受益，而无需任何算法调整，成本可以忽略不计。除了从经验上证明坐标表示的重要性之外，我们还通过在两个具有挑战性的数据集上用广泛的当代模型进行实验，验证了DARK的性能优势。我们还提供了一系列深入的组件分析，以便深入了解我们的模型公式的设计原理。