HRNet

摘要

高分辨率表示对于位置敏感视觉问题至关重要,例如人体姿态估计、语义分割和目标检测。现有的最先进的框架首先通过将高到低分辨率卷积串联(例如ResNet, VGGNet)形成的子网将输入图像编码为低分辨率表示,然后从编码的低分辨率表示中恢复高分辨率表示。相反,我们提出的网络,称为高分辨率网络(HRNet),在整个过程中保持高分辨率表示。有两个关键特征:(i)将高分辨率到低分辨率的卷积流并行连接;在各决议之间反复交换信息。这样做的好处是得到的表示在语义上更丰富,在空间上更精确。我们展示了所提出的HRNet在广泛应用中的优势,包括人体姿态估计,语义分割和目标检测,这表明HRNet是计算机视觉问题的强大支柱。

1 介绍

卷积神经网络(DCNNs)在许多计算机视觉任务中取得了最先进的结果,如图像分类、目标检测、语义分割、人体姿态估计等。

其优势在于,与传统的手工表示相比,DCNNs能够学习更丰富的表示。

最近开发的大多数分类网络,包括AlexNet[77]、VGGNet[126]、GoogleNet[133]、ResNet[54]等,都遵循LeNet-5[81]的设计规则。

其规律如图1 (a)所示:逐渐减小特征图的空间大小,将高分辨率到低分辨率的卷积串联起来,得到一个低分辨率的表示,并对其进行进一步处理进行分类。

位置敏感任务需要高分辨率表示,例如语义分割、人体姿态估计和目标检测。之前最先进的方法采用高分辨率恢复过程,从图1 (b)所示的分类或类分类网络输出的低分辨率表示中提高表示分辨率,如沙漏[105]、SegNet[3]、DeconvNet[107]、U-Net[119]、SimpleBaseline[152]和编码器-解码器[112]。此外,扩展卷积被用来去除一些下采样层,从而产生中等分辨率的表示[19],[181]。

图1所示。从低分辨率恢复高分辨率的结构。(a)低分辨率表示学习子网(如VGGNet[126]、ResNet[54]),由高低卷积串联而成。(b)高分辨率表示恢复子网,由低卷积到高卷积串联而成。代表性的例子包括SegNet[3]、DeconvNet[107]、U-Net[119]和Hourglass[105]、编码器-解码器[112]和SimpleBaseline[152]。

我们提出了一种新的架构,即高分辨率网络(HRNet),它能够在整个过程中保持高分辨率的表示。我们从一个高分辨率的卷积流开始,逐步将高分辨率到低分辨率的卷积流逐一加入,并将并行的多分辨率流。所得到的网络由图2所示的几个(本文中为4个)阶段组成,第n个阶段包含对应于n个分辨率的n个流。我们通过在并行流之间反复交换信息来进行重复的多分辨率融合。

从HRNet学习到的高分辨率表示不仅在语义上强,而且在空间上精确。这来自两个方面。(i)我们的方法将高到低分辨率的卷积流并联而不是串联起来。因此,我们的方法能够保持高分辨率,而不是从低分辨率恢复高分辨率,因此学习到的表示在空间上可能更精确。(ii)大多数现有融合方案将高分辨率低分辨率表示和通过上采样低分辨率表示获得的高分辨率低分辨率表示聚合在一起。(跳跃连接)相反,我们重复多分辨率融合,在低分辨率表示的帮助下提高高分辨率表示,反之亦然。因此,所有的高到低分辨率表示在语义上都是强的。

我们提出了两个版本的HRNet。第一个名为HRNetV1,它只输出从高分辨率卷积流计算得到的高分辨率表示。我们通过遵循热图估计框架将其应用于人体姿态估计。我们在COCO关键点检测数据集上实证证明了优越的姿态估计性能[94]。

另一个称为HRNetV2,它结合了来自所有高到低分辨率并行流的表示。我们通过从组合的高分辨率表示中估计分割映射,将其应用于语义分割。所提出的方法在PASCAL-Context, city - landscape, andLIP具有相似的模型大小和较低的计算复杂度。我们观察到HRNetV1和HRNetV2在COCO姿态估计上的性能相似,并且HRNetV2在语义分割方面优于HRNet1。

此外,我们从HRNetV2的高分辨率表示输出中构建了一个名为HRNetV2p的多级表示,并将其应用于最先进的检测框架,包括Faster R-CNN、Cascade RCNN[12]、FCOS[136]和CenterNet[36],以及最先进的联合检测和实例分割框架,包括Mask R-CNN[53]、Cascade Mask R-CNN和Hybrid Task Cascade[16]。结果表明,该方法提高了检测性能,特别是对小目标的检测效果明显。

2 相关工作(可以省略过)

我们从低分辨率表征学习、高分辨率表征恢复和高分辨率表征保持三个方面综述了主要用于人体姿态估计[57]、语义分割和目标检测的密切相关的表征学习技术。此外,我们还提到了一些与多尺度融合相关的工作。

学习低分辨率表示

全卷积网络方法[99],[124]通过去除分类网络中的全连接层来计算低分辨率表示,并估计它们的粗分割映射。通过结合中间低水平中分辨率表示[99]估计的精细分割分数图,或迭代过程[76],可以改进估计的分割图。类似的技术也被应用于边缘检测,例如,整体边缘检测[157]。

通过将一些(通常是两个)跨步卷积和相关卷积替换为扩张卷积,对全卷积网络进行扩展,从而得到中等分辨率的表示[18],[19],[86],[168],[181]。通过特征金字塔进一步扩展到多尺度上下文表示[19],[21],[181],用于在多尺度上分割对象。

恢复高分辨率表示

上采样过程可用于从低分辨率表示中逐渐恢复高分辨率表示。

上采样子网可以是下采样过程的对称版本(例如,VGGNet),通过跳过一些镜像层的连接来转换池索引,例如SegNet[3]和DeconvNet[107],或者复制特征映射,例如U-Net[119]和沙漏[8],[9],[27],[31],[68],[105],[134],[163],[165],编码器-解码器[112]等。U-Net的扩展,全分辨率残差网络[114]引入了一个额外的全分辨率流,该流以全图像分辨率携带信息,以取代跳过连接,下采样和上采样子网中的每个单元从全分辨率流接收信息并向其发送信息。

不对称上样过程也得到了广泛的研究。RefineNet[90]改进了上采样表示和从下采样过程复制的相同分辨率表示的组合。其他工作包括:光照采样过程[7],[24],[92],[152],可能在主干中使用扩张型卷积[63],[89],[113];轻下采样和重上采样过程[141],重组网络[55];使用更多或更复杂的卷积单元改进跳跃连接[64],[111],[180],以及从低分辨率跳跃连接向高分辨率跳跃连接发送信息[189]或在高分辨率跳跃连接之间交换信息[49];研究上样过程的细节[147];结合多尺度金字塔表示[22],[154];将多个密集连接的DeconvNets/UNets/Hourglass[44]、[149]进行叠加[135]。

卷积神经结构[123]和互联cnn[188]这两项早期工作在何时启动低分辨率并行流,以及如何和在何处跨并行流交换信息方面缺乏仔细的设计,并且没有使用批处理归一化和剩余连接,因此没有显示出令人满意的性能。GridNet[42]类似于多个u - net的组合,包括两个对称的信息交换阶段:第一阶段仅从高分辨率向低分辨率传递信息,第二阶段仅从低分辨率向高分辨率传递信息。这限制了它的分割质量。多尺度DenseNet[58]无法学习强分辨率表示,因为没有从低分辨率表示中接收到信息。

多尺度融合

多尺度fusion1广泛研究[11]、[19],[24],[42],[58],[66],[122],[123],[157],[161],[181],[188]。直接的方法是将多分辨率图像单独输入到多个网络中,并汇总输出响应图[137]。沙漏[105]、UNet[119]和SegNet[3]通过跳过连接,将高低下采样过程中的低级特征逐步合并为高低上采样过程中相同分辨率的高级特征。PSPNet [181]和DeepLabV2/3[19]融合了金字塔池化模块和空间金字塔池化获得的金字塔特征。我们的多尺度(分辨率)融合模块类似于两个池化模块。不同之处在于:(1)我们的融合输出四分辨率表示,而不是只有一个;(2)我们的融合模块重复多次,这是受深度融合的启发[129],[143],[155],[178],[184]。

我们的方法

我们的网络以并行方式连接高到低的卷积流。它在整个过程中保持高分辨率表示,并通过对多分辨率流表示的反复融合,生成可靠的高分辨率表示,具有较强的位置灵敏度。

这篇论文代表了我们之前的会议论文[130]的一个非常实质性的扩展,从我们未发表的技术报告[131]中添加了额外的材料,以及在最近开发的最先进的对象检测和实例分割框架下的更多对象检测结果。与[130]相比,主要的技术创新在于三个方面。(1)我们将[130]中提出的网络(命名为HRNetV1)扩展为两个版本:HRNetV2和HRNetV2p,它们探索了所有的四分辨率表示。(2)建立了多分辨率融合和规则卷积之间的联系,证明了在HRNetV2和HRNetV2p中探索所有四分辨率表示的必要性。(3)我们展示了HRNetV2和HRNetV2p相对于HRNetV1的优势,并介绍了HRNetV2和HRNetV2p在广泛的视觉问题中的应用,包括语义分割和目标检测。

3 高分辨率网络

我们将图像输入到一个由两个stride3 × 3卷积组成的干中,该卷积将分辨率降低到14,然后是输出具有相同分辨率(14)的表示的主体。主体如图2所示,下面详细介绍,由几个部分组成:平行多分辨率卷积,重复多分辨率融合,以及如图4所示的表示头。

3.1并行多分辨率卷积

我们从一个高分辨率的卷积流作为第一阶段开始,逐步增加高到低分辨率的流,形成新的阶段,并将多分辨率的流并行连接。因此,后一阶段的并行流的分辨率由前一阶段的分辨率和一个额外的较低的分辨率组成。

图2所示的示例网络结构包含4个并行流,逻辑如下

其中Nsr为第s阶段的子流,r为分辨率指标。第一个流的分辨率索引为r = 1。索引r的分辨率为第一个流分辨率的1 /2^(r−1)。

3.2 重复多分辨率融合

让我们看一个融合3-分辨率表示的示例,如图3所示。融合2个表示和4个表示可以很容易地得到。输入由三个表示组成:\left \{ {R_i^r, r = 1,2,3} \right \},其中r是分辨率索引,相关的输出表示为\left \{ {R_r^o, r = 1,2,3} \right \}。每个输出表示都是三个输入转换后表示的和:R^o_r = f_{1r}(R_{1}^{i}) + f_{2r}(R_{2}^{i}) + f_{3r}(R_{3}^{i})。跨阶段(从阶段3到阶段4)的融合有一个额外的输出:R^o_4= f_{14}(R_{1}^{i}) + f_{24}(R_{2}^{i}) + f_{34}(R_{3}^{i})。变换函数f_{xr}(·)的选择取决于输入分辨率指数x和输出分辨率指数r。如果x = r, f_{xr}(R)=R。如果x < r, f_{xr}(R)通过(r−s)个步长为2的 3 × 3卷积对输入表示R进行下采样。例如,对2×下采样进行一次步长为23 × 3卷积,对4×下采样进行两次连续步长为2 3 × 3卷积。如果x > r, f_{xr}(R)通过双线性上采样对输入表示r进行上采样,然后进行1 × 1卷积以对齐通道的数量。图3描述了这些功能。

图3所示。说明融合模块如何从左到右分别聚合高、中、低分辨率的信息。右图例:跨步3 × 3 =跨步-2 3 × 3卷积,上采样。1 × 1 =双线性上采样,然后是1 × 1卷积。

3.3 表示头

我们有三种表示头,如图4所示,分别称为HRNetV1、HRNetV2和HRNetV1p。

HRNetV1。输出仅是来自高分辨率流的表示。其他三种表示被忽略。图4 (a)说明了这一点。

HRNetV2。我们通过双线性上采样重新调整低分辨率表示,而不改变通道数量到高分辨率,并将四种表示连接起来,然后进行1 × 1卷积以混合四种表示。图4 (b)说明了这一点。

HRNetV2p。我们通过将HRNetV2的高分辨率表示输出降采样到多个级别来构建多级表示。图4 (c)描述了这一点。

在本文中,我们将展示HRNetV1应用于人体姿态估计,HRNetV2应用于语义分割,HRNetV2p应用于目标检测的结果。

图4所示。(a) HRNetV1:只输出高分辨率卷积流的表示。(b) HRNetV2:连接来自所有分辨率的(上采样)表示(随后的1 × 1卷积没有显示清楚)。(c) HRNetV2p:由HRNetV2表示形成特征金字塔。每个子图底部的四分辨率表示是从图2中的网络输出的,灰框表示如何从输入的四分辨率表示中获得输出表示。

3.4 实例化

第二、第三、第四阶段分别包含1、4、3个模块化块。模块化块的多分辨率并行卷积的每个分支包含4个残差单元。对于每个分辨率,每个单元包含两个3 × 3的卷积,其中每个卷积之后是批处理归一化和非线性激活ReLU的宽度(通道的数量)(相当于残差块)

(每个模块化快都有四个残差单元,第一个阶段,每个残差单元用的是BOTTLENECK,第二、三、四个阶段用的都是BASIC。BOTTLENECK块是一种具有瓶颈结构的块,通常由1x1卷积、3x3卷积和1x1卷积组成。它的设计目的是在减少计算量的同时增加网络的非线性能力。通过使用较少的参数,BOTTLENECK块可以提供较大的感受野,并且在保持模型精度的同时减少计算成本。 BASIC块是一种简单的块结构,通常由连续的3x3卷积组成。相比于BOTTLENECK块,BASIC块具有更少的参数和计算量,适用于较小的模型或计算资源有限的情况。 总的来说,BOTTLENECK块在增加网络的非线性能力和感受野方面更强大,但会增加计算成本;而BASIC块更简单、轻量,适用于资源有限的情况。选择使用哪种基本块取决于具体的任务需求和计算资源的限制。)

3.5 分析

我们分析了模块化块,它分为两个部分:多分辨率并行卷积(图5 (a))和多分辨率融合(图5 (b))。多分辨率并行卷积类似于群卷积。它将输入通道划分为几个通道子集,并在不同的空间分辨率上分别对每个子集进行规则卷积,而在群卷积中,分辨率是相同的。这种联系表明,多分辨率并行卷积具有群卷积的一些优点。

多分辨率融合单元类似于规则卷积的多分支全连接形式,如图5 (c)所示。如[178]所述,一个规则卷积可以分为多个小卷积。输入通道被划分为几个子集,输出通道也被划分为几个子集。输入和输出子集以完全连接的方式连接,每个连接都是一个正则卷积。输出通道的每个子集是每个输入通道子集上的卷积输出的总和。不同之处在于我们的多分辨率融合需要处理分辨率的变化。多分辨率融合和规则卷积之间的联系为探索HRNetV2和HRNetV2p中完成的所有四分辨率表示提供了证据。

4 人体姿态估计

人体姿态估计,又称关键点检测,旨在从尺寸为W × H × 3的图像I中检测K个关键点或部位(如肘部、手腕等)的位置。我们遵循最先进的框架,并将这个问题转化为估计大小为w4 × h4, {H1, H2,…的K个热图。HK},其中每个热图HK表示第k个关键点的位置置信度。

我们在HRNetV1输出的高分辨率表示上回归热图。根据我们的经验观察,HRNetV1和HRNetV2的性能几乎相同,因此我们选择HRNetV1,因为它的计算复杂度稍低。损失函数定义为均方误差,用于比较预测热图和真值热图。底真热图是利用二维高斯函数与以每个关键点的真实位置为中心的2个像素的标准差。图6给出了一些示例结果。

数据集。COCO数据集[94]包含超过20万张图像和25万个人实例,标有17个关键点。我们在COCO train2017集上训练我们的模型,该集包括57K张图像和150K个人实例。我们在val2017和test-dev2017集上评估了我们的方法,分别包含5000张图像和20K张图像。

评价指标。标准评价指标基于对象关键点相似度(OKS): OKS =P i exp(−d2i /2s2k2i)δ(vi>0)P i δ(vi>0)。这里di是检测到的关键点与相应的地面真值之间的欧氏距离,vi是地面真值的可见性标志,s是对象尺度,ki是控制衰减的每个关键点常数。我们报告了标准平均精度和召回率得分2:AP50 (AP在OKS = 0.50), AP75, AP (AP在10个OKS位置的平均得分,0.50,0.55,…, 0.90, 0.95);中型物体的APM,大型物体的APL,以及AR (AR在10个OKS位置的平均值,0.50,0.55,…), 0.90, 0.95)。

训练。我们将高度或宽度的人体检测框扩展为固定的长宽比:高度:宽度= 4:3,然后从图像中裁剪该框,将其调整为固定大小,256 × 192或384 × 288。数据增强包括随机旋转([−45◦,45◦]),随机缩放([0.65,1.35])和翻转。继[146]之后,还涉及到半身数据增强。

我们使用Adam优化器[71]。学习计划遵循设定[152]。基本学习率设为1e−3,在第170次和第200次分别降为1e−4和1e−5。训练过程在210个周期内结束。这些模型在4个V100 gpu上进行训练,HRNet-W32 (HRNet-W48)需要大约60(80)小时。

测试:使用了类似于[24]、[109]、[152]的两阶段自顶向下范式:使用人员检测器检测人员实例,然后预测检测关键点。

对于val集和测试开发集,我们使用SimpleBaseline3提供的相同的人员检测器。根据[24],[105],[152],我们通过平均原始图像和翻转图像的热图来计算热图。每个关键点的位置都是通过调整最高热值位置来预测的,从最高响应到第二高响应的方向上有四分之一的偏移。

在val集合上的结果

我们在表1中报告了我们的方法和其他最先进方法的结果。在输入大小为256 × 192的情况下,从头开始训练的网络HRNetV1-W32的AP得分为73.4,优于相同输入大小的其他方法。(i)与Hourglass[105]相比,我们的网络的AP提高了6.5分,我们的网络的GFLOP要低得多,不到一半,而参数数量相似,我们的网络略大。(ii)与CPN [24] w/o和w/ OHKM相比,我们的网络模型规模略大,复杂度略高,分别获得4.8和4.0分增益。(iii)与之前表现最好的方法SimpleBaseline[152]相比,我们的HRNetV1-W32获得了显着改进:具有相似模型大小和GFLOPs的骨干ResNet-50获得3.0分,骨干ResNet-152获得1.4分,其模型大小(#Params)和GFLOPs是我们的两倍。

我们的网络可以从(i) ImageNet上预训练的模型的训练中获益:HRNetV1-W32的增益是1.0分;(ii)通过增加宽度来增加容量:HRNetV1-W48在输入尺寸为256 × 192和384 × 288时分别获得0.7和0.5点增益。

考虑到输入尺寸为384 × 288,我们的HRNetV1W32和HRNetV1-W48得到了75.8和76.3的AP,与输入尺寸为256 × 192相比,分别有1.4和1.2的改进。与使用ResNet-152作为主干的SimpleBaseline[152]相比,我们的HRNetV1-W32和HRNetV1-W48在AP方面分别以45%和92.4%的计算成本获得1.5和2.0分的增益。

测试开发集上的结果

表2报告了我们的方法和现有的最先进的方法的姿态估计性能。我们的方法明显优于自下而上的方法。另一方面,我们的小型网络HRNetV1-W32实现了74.9的AP。

它优于所有其他自顶向下的方法,并且在模型大小(#Params)和计算复杂度(GFLOPs)方面更有效。我们的大模型HRNetV1W48获得了最高的AP分数75.5。相比SimpleBaseline[152]在相同的输入大小下,我们的小型和大型网络分别得到1.2和1.8的改进。使用AI挑战者[148]的额外数据进行训练,我们的单个大网络可以获得77.0的AP。

5 语义分割

语义分割是为每个像素分配一个类标签的问题。图7给出了我们的方法的一些示例结果。我们将输入图像提供给HRNetV2(图4 (b)),然后将结果在每个位置的15c维表示传递给具有softmax损失的线性分类器来预测分割映射。对于训练和测试,分割图通过双线性上采样(4次)上采样到输入大小。我们报告了两个场景解析数据集PASCALContext[103]和cityscape[28]以及一个人工解析数据集LIP[47]的结果。采用类智能交/并的均值(mIoU)作为评价指标。

Cityscapes:城市景观数据集[28]包含5000个高高质量的像素级精细注释的场景图像。经过精细标注的图像被分成2,975 /500/ 1,525个图像,用于训练、验证和测试。共30个类,其中19个类用于评价。除了类智慧交集超过并集(mIoU)的平均值外,我们还报告了测试集上的其他三个分数:IoU类别(cat.), iIoU类(class .)和iIoU类别(cat.)。

我们遵循相同的训练方案[181],[182]。通过随机裁剪(从1024 × 2048到512 × 1024)、在[0.5,2]范围内随机缩放和随机水平翻转来增强数据。我们使用SGD优化器,其基本学习率为0.01,动量为0.9,权重衰减为0.0005。采用幂为0.9的聚学习率策略降低学习率。所有模型都在4个gpu和syncBN上训练了120K次迭代,批处理大小为12。

表3给出了几种具有代表性的方法在cityscape val集合上的参数、计算复杂度和mIoU类的比较。(1) HRNetV2-W40(40表示高分辨率卷积宽度)模型大小与DeepLabv3+相似,计算复杂度远低于DeepLabv3+,性能比UNet++提高4.7分,比DeepLabv3+提高1.7分,比PSPNet、DeepLabv3+提高约0.5分。(ii) HRNetV2-W48的模型大小与PSPNet相似,计算复杂度远低于PSPNet,但取得了非常显著的改进:比unet++提高5.6分,比DeepLabv3提高2.6分,比PSPNet、DeepLabv3+提高1.4分左右。在接下来的比较中,我们采用了HRNetV2-W48,它是在ImageNet上预训练的,与大多数基于DilatedResNet-101的方法具有相似的模型大小。

表3:Cityscapes val(单尺度、无翻转)的语义分割结果。GFLOPs按输入大小1024 × 2048计算。具有最小GFLOPs的小模型HRNetV2-W40比两种具有代表性的上下文方法(Deeplab和PSPNet)性能更好。我们的方法结合最近开发的对象上下文(OCR)表示方案[170]得到了进一步的改进。D-ResNet-101 =膨胀版resnet -101。

表4提供了我们的方法与最先进的方法在cityscape测试集上的比较。所有的结果都是用六种天平翻转的。评估了两种使用粗糙数据w/o的情况:一种是关于在训练集上学习到的模型,另一种是关于在训练+值集上学习到的模型。在这两种情况下,HRNetV2W48都实现了更优越的性能。

表4 cityscape测试的语义分割结果。我们使用HRNetV2-W48进行比较,其参数复杂度和计算复杂度与基于扩展的resnet -101的网络相当。我们的结果在四个评价指标方面是优越的。结合OCR[170]的结果得到进一步改善。D-ResNet-101 =膨胀版resnet -101

PASCAL-Context:

PASCAL-Context数据集[103]包括4,998张用于训练的场景图像和5,105张用于测试的图像,其中包含59个语义标签和1个背景标签。数据增强和学习率策略与cityscape相同。遵循广泛使用的训练策略[32],[172],我们将图像大小调整为480×480,并将初始学习率设置为0.004,权重衰减为0.0001。批大小为16,迭代次数为60K。我们遵循标准测试程序[32],[172]。图像被调整为480 × 480,然后输入到我们的网络中。然后将生成的480×480标签映射调整为原始图像大小。我们使用六个尺度和翻转来评估我们的方法和其他方法的性能。

表5提供了我们的方法与最先进的方法的比较。评估方案分为59个以上mIoU和60班(59班+背景)两种。在这两种情况下,HRNetV2-W48都获得了最先进的结果,除了在不使用OCR方案[170]的情况下[51]的结果高于我们的结果。

表5基于pascal - context的语义分割结果。对59个类和60个类的方法进行了评价。我们的方法在60个类中表现最好,在59个类中表现不如APCN[51],后者开发了一种强上下文方法。我们的方法与OCR[170]相结合,获得了显著的增益,并且性能最好。D-ResNet-101 =膨胀版resnet -101。

LIP:LIP数据集[47]包含50,462张经过精心注释的人类图像,这些图像分为30,462张训练图像和10,000张验证图像。在20个类别(19个人体部位标签和1个背景标签)上对这些方法进行了评估。按照标准的训练和测试设置[98],将图像大小调整为473 × 473,并对原始图像和翻转图像的分割映射的平均值进行性能评估。

数据增强和学习率策略与cityscape相同。训练策略遵循最近的设置[98]。我们将初始学习率设置为0.007,动量设置为0.9,权重衰减为0.0005。批处理size为40,迭代次数为110K。

表6提供了我们的方法与最先进的方法的比较。HRNetV2-W48的整体性能表现最好,参数更少,计算成本更低。我们还想提一下,我们的网络不使用额外的信息,如姿势或边缘。

表6 LIP语义分割结果。我们的方法不利用任何额外的信息,例如,姿势或边缘。我们的方法整体性能是最好的,OCR方案[170]进一步提高了分割质量。D-ResNet-101 =膨胀版resnet -101。

6 目标检测

7 消融研究

我们通过两个任务对HRNet中的组件进行消融研究:COCO验证中的人体姿态估计和cityscape验证中的语义分割。我们主要使用HRNetV1-W32进行人体姿态估计,使用HRNetV2-W48进行语义分割。姿态估计的所有结果都是在输入尺寸为256 × 192的情况下得到的。

我们还介绍了HRNetV1和HRNetV2的比较结果。

代表不同的决议。我们通过检查从高到低的每个分辨率的特征图估计的热图的质量来研究表示分辨率如何影响姿态估计性能。

我们训练了两个HRNetV1网络,这些网络由ImageNet分类预训练的模型初始化。我们的网络从高到低分辨率输出四个响应图。最低分辨率反应图的热图预测质量过低,AP得分低于10分。AP在其他三个地图上的得分如图9所示。对比表明,分辨率对关键点预测质量有一定影响.

重复多分辨率融合。

我们对重复多分辨率融合的效果进行了实证分析。我们研究了网络的三种变体。(a) W/o中间融合单元(1融合):除最终融合单元外,多分辨率流之间不存在融合。(b) W/跨级融合单元(3次融合):每个阶段内平行流之间没有融合。(c)跨阶段和级内融合单元(共8个融合):这是我们提出的方法。所有的网络都是从零开始训练的。如表12所示,COCO人体姿态估计和cityscape语义分割(验证)的结果表明,多分辨率融合单元是有帮助的,融合越多,性能越好。

table 12

多分辨率融合单元在COCO val human pose estimation (AP)和cityscape val semantic segmentation (mIoU)中的消融研究。Final =代表头前的最终融合,Across =跨阶段的中间融合,Within =阶段内的中间融合。我们可以看到,这三种融合对人体姿态估计和语义分割都是有益的。

我们还研究了融合设计的其他可能选择:(i)使用双线性下采样来代替跨行卷积,(ii)使用乘法运算来代替求和运算。在前一种情况下,COCO姿态估计AP得分和城市景观分割mIoU得分分别降至72.6和74.2。原因是,减少了表示映射的体积大小(宽度×高度× #通道),并且跨行卷积比双线性下采样学习更好的体积大小减少。在后一种情况下,结果要差得多:分别为54.7分和66.0分。可能的原因是乘法增加了训练难度,如[145]所指出的。

Resolution maintenance

我们研究了HRNet的一种变体的性能:所有的4个高到低分辨率流都是在开始时添加的,并且4个流的深度是相同的;核聚变方案和我们的一样。HRNets和变体(具有类似的#Params和gflop)都是从头开始训练的。

该变体在COCO val上的人体姿态估计性能(AP)为72.5,低于HRNetV1-W32的73.4。该变体在cityscape val上的分割性能(mIoU)为75.7,低于HRNetV2-W48的76.4。我们认为,原因在于从低分辨率流的早期阶段提取的低层特征帮助不大。此外,另一种简单的变体,只有相似#参数的高分辨率流和gflop,而没有低分辨率并行流,在COCO和cityscape上的性能要低得多。

V1 vs. V2。我们将HRNetV2和HRNetV2p与HRNetV1在姿态估计、语义分割和COCO目标检测方面进行了比较。对于人体姿态估计,性能是相似的。例如,HRNetV2-W32 (w/o ImageNet预训练)的AP得分为73.6,略高于HRNetV1-W32的73.4。

图10 (a)和图10 (b)所示的分割和目标检测结果表明,HRNetV2的性能明显优于HRNetV1,除了在cityscape分割的大模型情况下(1倍)增益较小。我们还测试了一个变体(由HRNetV1h表示),它是通过附加1 × 1卷积来将输出高分辨率表示的维度与HRNetV2的维度对齐来构建的。图10 (a)和图10 (b)中的结果表明,该变体对HRNetV1实现了轻微的改进,这意味着在我们的HRNetV2中聚合来自低分辨率并行卷积的表示对于提高能力至关重要。

8 结论

在本文中,我们提出了一个用于视觉识别问题的高分辨率网络。与现有的低分辨率分类网络和高分辨率表示学习网络有三个根本区别:(i)将高分辨率和低分辨率卷积并行连接,而不是串联连接;(ii)在整个过程中保持高分辨率,而不是从低分辨率恢复高分辨率;(3)重复融合多分辨率表示,呈现丰富的高分辨率表示,具有较强的位置敏感性。

在广泛的视觉识别问题上的优异结果表明,我们提出的HRNet是计算机视觉问题的强大支柱。我们的研究也鼓励更多针对特定视觉问题设计网络架构的研究而不是扩展、修复或修复从低分辨率网络(如ResNet或VGGNet)学习到的表示。

讨论。这里有一个可能的误解:HRNet的内存开销越大,分辨率越高。事实上,HRNet在人体姿态估计、语义分割和目标检测这三种应用上的内存成本与最先进的技术相当,只是在目标检测方面的训练内存成本要大一些。

此外,我们总结了PyTorch 1.0平台上的运行时成本比较。HRNet的训练和推理时间成本与之前的技术水平相当,除了(1)HRNet用于分割的推理时间要小得多,(2)HRNet用于姿态估计的训练时间要大一些,但在支持静态图推理的MXNet 1.5.1平台上的成本与SimpleBaseline相似。我们想强调的是,对于语义分割,推理成本明显小于PSPNet和DeepLabv3。

表13总结了内存和时间成本的比较。

未来及后续工作。我们将研究HRNet与其他语义分割和实例分割技术的结合。目前,我们通过将HRNet与对象上下文表示(OCR)方案[170](对象上下文的一种变体[59],[171])相结合,获得了表3、4、5、6所示的结果(mIoU)。我们会进一步提高图像的分辨率进行研究,例如提高到12像素,甚至全分辨率。

HRNet的应用并不局限于以上我们所做的,它也适用于其他位置敏感视觉应用,如面部地标识别

ection7、超分辨率、光流估计、深度估计等。已经有后续的工作,如图像风格化[83],绘画[50],图像增强[62],图像去雾[1],时间姿态估计[6],无人机目标检测[190]。

有文献[26]报道,在单一模型情况下,稍加修改的HRNet结合ASPP实现了Mapillary panoptic分割的最佳性能。

在ICCV 2019的COCO + Mapillary联合识别挑战研讨会上,COCO DensePose挑战的获胜者和几乎所有COCO关键点检测挑战的参与者都采用了HRNet。OpenImage实例分割挑战获胜者(ICCV 2019)也使用了HRNet。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值