Full-Body Awareness from Partial Observations 阅读理解2020-CSDN博客

本文链接：https://blog.csdn.net/zhang2012liang/article/details/121437529

这篇论文提到当图像中的人存在严重裁剪的时候，依然可以通过局部观察来获取整个人全局的姿态，在现实生活中，这种情况往往需要人通过经验或者上下文信息去判断。那么如何让CNN仅仅从一个图像中去学习到这种能力呢？答案就是数据管够，且确保裁剪程度，确定在一定裁剪程度下，CNN依然能够有效学习。另外作者谈到单独通过在训练的时候进行“裁剪”数据增强，在这种针对消费者视频（存在严重的裁剪）的情况下是不够的，而本文认为将裁剪和对自信视频帧进行自我训练可以提供一个不错的结果。对于严重裁剪的图像，输出结果合理即可。（这里的自信视频帧，指的是模型在这个视频帧上能输出一个不错的结果，这个结果还可以作为伪标签）

如何自动判断这个结果还不错呢？作者借用Bahat和Shakhnarovich[5]的经验结果，即图像变换的不变性通常表明神经网络的可信度。简单地说，对网络的有信心的预测往往比非有信心的预测对小的转换(例如，一个转移)更不变异性。我们将这种技术应用到我们的设置中，在应用小平移抖动后检查参数的变化:我们将模型f应用到中心抖动10和20像素的图像副本上，并查看关节旋转参数θ。我们通过抖动样本计算每个关节旋转参数的方差，然后平均方差。对于HMR，我们将置信样本定义为方差低于0.005的样本(根据经验选择)。对于CMR，为了简单起见，我们确保我们有与HMR相同的12%的接受率;这导致了一个相似的方差阈值0.004。

方法的大致流程如下图所示：

这里文章假设可以访问每个图像的SMPL参数Θ，并对所有带注释的关键点进行训练，即使它们位于图像之外。例如通过smplfy fitting得到SMPL系数。整个方案可以简单的总结三步：

第一步：获取一个初始化模型f0：采用训练好的HMR和CMR作为预训练模型，对MPII数据进行训练，训练过程中，会对图像进行随机裁剪，GT采用通过fiitting的到的SMPL系数和相应的GT。

第二步：将第一步训练得到的初始化模型f1，应用到一组没有对应标签的数据U，这个数据集U中将有部分数据集C被判断为自信视频帧即这部分数据的输出结果还行，然后将这部分数据C作为输入，并进行数据增强，这些数据在上一轮的模型输出作为标签，对网络进行再一次训练。

第三步：反复执行第二步。

这里重点是可靠的模型输出如何有效判断。

文章对应的简述：

选用的基准模型为HMR和CMR，训练方法遵循半监督学习的标准自我训练方法。在自我训练中，一个人从一个初始模型f0: X Y和一组未标记的数据U = {U: U X}开始。在这里，输入是图像，输出SMPL参数，并建立CMR或HMR模型。其核心思想是利用每一轮s模型fi的推论产生有标记的数据来训练下一轮s模型fi+1。具体来说，在每次迭代t时，将模型ft应用于U的每个元素，并识别出一个自信预测子集C U。然后，将模型f对元素的预测作为新的ground-truth来训练下一轮模型fi+1。在标准自训练中，新的训练集是原始的未标记输入和模型输出，或{(c, fi(c)): c c}。在我们的例子中，它永远不会学会处理更多的裁剪人员，因此训练集被增强为置信样本的变换，或者{(t(c)， t(fi(c)): c c, t t}对于某些作物t集合。对新模型fi+1进行再训练，并重复该过程直至收敛。现在我们更具体地描述每一个粗体点的含义。

文章简述：

在人体三维网格复原方面已经取得了很大的进展，人们对从消费者视频数据中了解世界产生了极大的兴趣。不幸的是，目前的3D人体网格恢复方法在消费者视频数据上的工作相当糟糕，因为在互联网上，不同寻常的摄像头视角和激进的截断是常态，而不是罕见的。我们研究了这个问题，并为解决这个问题做出了一些贡献:(i)我们提出了一个简单但高效的自我训练框架，该框架将人类3D网格恢复系统用于消费视频，并演示了其在两个最近的系统中的应用;(ii)为研究该任务，我们引入了针对4个消费者视频数据集的13K帧的评估协议和关键点注释，包括对图像外关键点的评估;(iii)我们表明，与基线相比，我们的方法大大改善了PCK和人类受试者判断，无论是在来自它训练的数据集的测试视频上，还是在其他三个数据集上，无需进一步调整。

目前在人体姿态估计方面的工作，通常还不能应付互联网视频的混乱挑战。最近在人体姿态估计方面的工作[3,9,24,35,38]通常是在2D和3D姿态数据集[4,19,21,30,37]上进行训练和评估的，这些数据集显示了通常在运动场景下水平相机拍摄的完整人体姿态图2(左) 不幸的是，互联网上的视频往往像Fig2（右）。通常只有身体的一部分是看得见的，才能最有效地展示完成一项任务或突出感兴趣的东西。例如，在VLOG[14]上，所有人的关节在只有4%的图像帧中可见。同时，所有的腿部关键点在63%的时间是不可见的，而头部关键点如眼睛在45%的帧中是不可见的。因此，当标准方法在这类数据上进行测试时，它们往往会灾难性地失败，这是我们的经验之谈。

我们在第3节中提出了一个简单但非常有效的方法，我们将其应用于多种形式的人体网格恢复。关键的洞察力是结合裁剪和自训练对有信心的视频帧:裁剪引入模型截断，视频匹配上下文截断。在一个标准数据集的裁剪版本上进行预训练后，我们在一个大的未标记视频数据集上识别可靠的预测，并将这些实例提升到训练集并重复。与标准的自我训练不同，我们添加了作物，让自信的全身预测(通过[5]识别)为具有挑战性的作物提供训练信号。这种方法不需要额外的注释，并采用<3万次额外训练(总时间<8小时在单个RTX2080 Ti GPU)。

我们在两种人体三维网格恢复技术HMR[24]和CMR[26]上演示了我们的方法的有效性，并在四个消费者视频数据集VLOG[14]、Instructions[2]、YouCookII[59]和Cross-Task上进行了评估[62]。为了为未来的工作奠定基础，我们在这些数据集上注释了13k帧的关键点，并提供了一个评估图像内外的框架。除了关键点外，我们还使用人体实验进行评估。我们在第4节的实验证明了我们的方法的有效性，与现成的网格恢复和训练作物从标准图像数据集(MPII)。我们的方法在方法和数据集上改进了图像内和图像外的PCK:例如，在VLOG上训练后，我们的方法在YouCookII上比现成的HMR提高了20.7%，在作物上训练的HMR提高了10.9%(分别提高了36.4%和19.1%)

关于针对截断的图像进行mesh重建的工作不是很多，先前的工作还特别关注于遮挡情况下的姿态估计[15,16]。虽然这种设置需要对不可见关节进行推断，但它不需要面对消费视频中出现的相同的比例变化，消费视频中可以包含比图像大得多的人。最近的一些研究直接解决了转岗问题。Vosoughi和Amer预测了human360万[54]随机作物的截断3D关键点。与我们的工作同时，Exemplar微调[22]使用上半身裁剪来提高互联网视频[34]的性能。然而，消费者网络视频(图2)面临着更极端的截断。我们表明，单独裁剪在这种情况下是不够的;相反，裁剪和自我训练的自信视频帧提供了最好的结果。

by 为什么先生