《人体姿态估计》经典文章回顾1:Convolutional Pose Machine

在这里插入图片描述
导读:人体姿态估计中常用的模式,就是用堆叠的漏斗模型去实现精密的关键点预测,并将上一阶段的预测结果用于当前阶段的先验知识,并以强制中间层监督的方式来解决梯度消失的问题。这一系列经典的操作,根源与这篇文章,即卷积姿态学习机,CPM。



摘要

Pose机为学习丰富的隐式空间模型提供了一个序列预测模型。这篇文章展示了一个姿态估计的系统设计,如何将卷积网络整合到pose机中以学习图像特征和图像相关的空间模型。文章的贡献在于,在结构化的预测任务中如关节姿态估计,隐式建模变量之间的长距离依赖关系。我们通过设计一个由卷积网络组成的顺序架构来实现,该网络直接在上一阶段的信念图上运行,对身体部位的位置产生了不断精细地估计,而不需要显式的图形模型式的推导。我们的方法通过提供一个强制中间监督的自然学习目标函数来解决训练过程中的梯度消失的典型问题,因此补充反向传播的梯度和调节学习过程。我们在标准的数据集如MPII,LSP和FLIC数据集上验证了领先的性能。

介绍

我们介绍了卷积姿态机用于关节点姿态识别。CPM继承了pose机架构的优点,即图像和多局部线索之间长距离依赖的隐式建模,学习与推荐的紧密集成,模块化的循序设计,以及将他们与卷积网络提供的优点结合起来:从数据中学习用于图像和空间上下文的特征表征的能力;一个可微的架构,允许反向传播用于全局联合训练;以及有效处理大数据集的能力。

CPM包含了一个序列的卷积网络,它重复产生每一个局部位置的2D信念图。在CPM的每一个阶段,由上一阶段产生的图像特征与信念图,作为当前阶段的输入。信念图为后续阶段的每个部位的空间不确定性提供了一个表达性的非参数编码,允许CPM去学习丰富的图像相关的部位之间关系的空间建模。取代使用图形建模或者专门的后续处理显式地解析信念图,我们学习卷积网络能够之间在中间层的信念图上操作,并学习隐式的部位之间关系的空间模型。整体提出的多阶段架构是完全可微的,因此能够使用反向传播以端到端的方式来训练。
在这里插入图片描述
A Convolutional Pose Machine consists of a sequence of predictors trained to make dense predictions at each image location. Here we show the increasingly refined estimates for the location of the right elbow in each stage of the sequence. (a) Predicting from local evidence often causes confusion. (b) Multi-part context helps resolve ambiguity. © Additional iterations help converge to a certain solution.
一个CPM包含有序列组成的预测器,被训练成用于每个图像位置的密集预测。这里展示序列中每个阶段右手腕位置不断精细的预测。(a)从局部特征预测经常引起混淆;(b)多部位上下文有助于解决歧义;(c)额外的训练有助于收敛到一个确定的位置。

在CPM的某一特定阶段,部位信念的空间上下文为后续阶段提供了强有力的线索。因此,CPM的每一个阶段产生了针对每个部位位置的不断精细化估计的信念图,上图所示。为了获取部位之间长距离的交互,我们的序列预测网络的每一个阶段,网络的设计都出于在图像和信念图上实现更大感受野的目标。我们发现,通过实验,信念图上的更大感受野对于长距离的空间建模至关重要,并且有助于提升精度。

CPM的多卷积网络组成导致了一个具有多层网络的整体结构,在训练过程中会存在梯度弥散的风险。这个问题出现主要由于反向的梯度在多层网络中传播会降低强度。虽然最近的工作展示了中间层监督深度网络有助于学习,他们大多数局限于分类问题。在这篇文章中,展示了对于结构化的预测问题如姿态估计,CPM如何自然地提出一个系统框架,它通过网络定期地执行中间层监督来补充梯度和引导网络生成越来越精确的信念图。我们同样讨论了诸如此类序列预测问题的不同训练方法。

论文的主要贡献在于:通过一个序列的卷积架构来学习隐式的空间模型;一个系统的方法去设计和训练如此的架构去学习图像特征和图像相关的空间模型用于结构化的预测任务,同时不需要任何的图形模型类的推测。我们在标准的数据集合如MPII,LSP和FLIC等取得了领先的结果。

方法

在这里插入图片描述
Architecture and receptive fields of CPMs. We show a convolutional architecture and receptive fields across layers for a CPM with any T stages. The pose machine [29] is shown in insets (a) and (b), and the corresponding convolutional networks are shown in insets © and (d). Insets (a) and © show the architecture that operates only on image evidence in the first stage. Insets (b) and (d) shows the architecture for subsequent stages, which operate both on image evidence as well as belief maps from preceding stages. The architectures in (b) and (d) are repeated for all subsequent stages (2 to T ). The network is locally supervised after each stage using an intermediate loss layer that prevents vanishing gradients during training. Below in inset (e) we show the effective receptive field on an image (centered at left knee) of the architecture, where the large receptive field enables the model to capture long-range spatial dependencies such as those between head and knees. (Best viewed in color.)
CPM的架构和视觉感受野。我们显示了一个卷积架构和在任一阶段中CPM的视觉感受野。pose机如插图(a)和(b)所示,响应的卷积网络显示在插图© 和(d)中。插图(a)和(c)显示第一阶段仅在图像证据上的卷积操作。插图(b)和(d)显示了后续阶段的架构,它在图像和上一阶段的信念图上操作。网络在每个阶段之后都使用中间损失层进行本地监督,以防止训练期间的梯度消失。插图(e)展示了架构中一幅图像(以左膝盖为中心)的有效视觉感受野,其中大视觉感受野使得模型能够在长距离的空间依赖性上建模,例如头与膝盖等。


总结

提示:

卷积姿态机器提供了端到端的架构用于解决在计算机视觉中结构化的预测问题,而不需要图形模型分割的推理。文章展示了一个序列架构由卷积网络组成,能够隐式地学习用于姿态的空间模型,通过在阶段中传达不断精确的信念图。计算机视觉的多个领域中,如语义标签,单图像深度估计和目标检测等,出现变量之间空间依赖性,将涉及把我们的工作扩展到这些问题中。但该模型对于密集的人群会出现失败的例子,以端到端的模型来处理多人场景是一个有挑战的问题,也是未来工作的有趣途径。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
### 回答1: CBAM是卷积块注意力模块的缩写,是一种用于交替堆叠到深度卷积神经网络(CNNs)中的模块。它包含两个子模块:通道注意力模块和空间注意力模块。通道注意力模块用来对每个通道进行加权,确定哪些通道最重要。空间注意力模块在每个通道中对所有空间位置进行加权,可以捕捉不同位置的重要性,从而更好地定位物体。 CBAM的优点在于,它能够提高CNNs的性能,减少了过度拟合的情况。CBAM结构的输入任意大小、任意通道数、任意深度,因此可以适用于各种计算机视觉任务,包括图像分类,物体检测和语义分割等。 总之,CBAM是一种具有高灵活性和高性能的卷积块注意力模块,能够极大地增强CNNs的表达能力,提高计算机视觉任务的准确性。 ### 回答2: CBAM(Convolutional Block Attention Module),是一种用于图像分类的Attention模块,它主要是用于增强卷积神经网络(CNN)的特征表达能力,使得CNN能够更好地区分不同种类的图像。 CBAM结构由两部分组成,分别是CBAM-Channel和CBAM-Spatial。在CBAM-Channel中,它通过引入注意力机制,对每个通道的特征进行加权求和,并且使用全局平均池化操作,计算其重要性参数,进而对特征进行修正,从而提升模型的表达能力。CBAM-Spatial则通过空间注意力机制对图像中的区域进行注意力分配权重,进一步优化模型的性能。 CBAM在图像分类方面的性能表现非常卓越。实验证明,在对比原始ResNet和ResNeXt网络,以及加入CBAM的ResNet和ResNext网络进行图像分类时,加入CBAM的ResNet和ResNeXt网络具有更强的表达能力和更高的分类准确性,同时,它在训练过程中的收敛速度也有所提升。 总的来说,CBAM是一种非常有效的图像分类模块,利用注意力机制对CNN的特征进行增强,为图像分类任务提供了更好的性能表现。随着人工智能的迅速发展,CBAM在图像识别、物体检测等领域将具有广阔的应用前景。 ### 回答3: CBAM是卷积块注意力模块的缩写,它是一种用于图像分类和目标检测的神经网络模型。CBAM模块通过将通道和空间注意力机制组合在一起,从而有效地提高了模型的性能。 CBAM模块分为两个部分:通道注意力机制和空间注意力机制。通道注意力机制是针对图像特征中的通道信息进行关注,它可以基于每个通道的特征图来计算权重,然后对于每个通道进行信息的调整和加权。这样,在网络中的每个层次上都能更好地利用有用的通道信息,减少无用信息对网络性能的影响。 空间注意力机制是针对图像特征中的空间信息进行关注。它能够自适应地计算每个像素点的权重,然后对于每个像素点进行信息的调整和加权。这样,网络中的每个空间位置都能更好地利用有用的空间信息,提高目标检测和分类的准确率。 通过组合这两种注意力机制,CBAM模块能够区分有用和无用的特征,从而在图像分类和目标检测任务中取得更好的性能。CBAM模块通常被用在深度卷积神经网络中,例如ResNet以及MobileNet等,以提高整个网络中的特征提取能力和分类性能。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

烧技湾

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值