HRNetV2:《High-Resolution Representations for Labeling Pixels and Regions》

在这里插入图片描述
论文地址https://arxiv.org/pdf/1904.04514.pdf

1 Background

深度学习代表是很强的并且在许多视觉任务上实现了很好的结果。目前主要的表示分为两类:用于图像分类的低分分辨率表示,对其它视觉问题重要的高分辨率表示,比如语义分割、人体姿态估计、目标检测等等。高分辨率的表示仍然存在很多问题没有解决,因此吸引了很多人的关注。

解决高分辨率表示主要有两种方式:(1)从低分辨率中来恢复得到高分辨率。(2)从高分辨卷积中获得高分辨率表示并且从平行的低分辨率卷积中来加强高分辨表示

本文沿着第(2)种方式来进一步研究HRNet来增加研究范围。它是研究HRNet的所有的 high-to-low分辨率平行卷积而不是仅仅研究低分辨率研究。简单的修改增加了一些开销但是产生了分辨率更高的表示。

2 Motivation

  • 为了广泛的视觉任务(比如语义分割、目标检测等),进一步研究HRNet(仅仅用于人体姿态估计)。

3 Related Work

  • Learning low-resolution representations:eg,FCN, Holistic edge detection
  • Recovering high-resolution representations:使用子网络(如decoder)来从低分辨率表示中恢复高分辨率表示。eg,SegNet, DeconvNet, U-Net, encoder-decoder, FPN等。 不对称的上采样网络也被经常使用,eg,RefineNet
  • Maintaining high-resolution representations:通常是通过连接多分辨率(从高分辨率到低分辨率)并行卷积并在并行卷积之间重复信息交换而形成的网络,eg,GridNet , convolutional neural fabrics , interlinked
    CNNs , HRNet等

4 Method

4.1 Architecture

在这里插入图片描述
总共包含4个stages,其中2、3、4stage都是重复模式化 multi-resolution blocks,一个multi-resolution blocks包含一个 multi-resolution group convolution(下图(a))和一个multi-resolution convolution(下图(b))
在这里插入图片描述
在这里插入图片描述

multi-resolution group convolution是分组卷积 https://zhuanlan.zhihu.com/p/355123135的一个简单扩展。 multi-resolution convolution它类似于正常卷积的全连接方式(如下图(c)),它们的区别有两方面:(1)multi-resolution convolution中通道的每个子集都有不同的分辨率(2)输入通道和输出通道的连接需要通过使用几个 2-strided的3×3卷积来处理分辨率下降。分辨率增加仅仅通过使用最近邻插值上采样操作。
在这里插入图片描述

4.2 Modification

HRNetV1(如下图)的特征选择,只使用分辨率最高的特征图
在这里插入图片描述
本文(HRNetV2,如下图)的特征选择,将所有分辨率的特征图(小的特征图进行upsample)进行concate,主要用于语义分割和面部关键点检测。这个修改仅仅增加了很少的参数和计算量。
在这里插入图片描述
在目标检测中的应用,HRNetV2p是在HRNetV2的基础上增加了一个特征金字塔
在这里插入图片描述

4.3 Instantiation

使用类似于 HRNetV1的方式来实例化网络。网络从一个包含两个 strided 3 × 3 convolutions的主干网络开始,使得分辨率变为原先的1/4。第一个stage包含4个残差单元。第二、第三和第四个stage分别包含1个、4个和3个multi-resolution blocks。宽度分别是C、2C、4C、8C

5 Experiments

5.1. Semantic Segmentation

  • Cityscapes
    在这里插入图片描述
    在这里插入图片描述
  • PASCAL context:
    在这里插入图片描述
  • LIP:
    在这里插入图片描述

5.2. COCO Object Detection

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

6 Conclusions

在本文中,作者通过一个简单的修改,对高分辨率表示网络在广泛的视觉应用中进行了实证研究。实验结果表明,改进后的神经网络学习到的高分辨率和多层次表征在语义分割、人脸标志检测和目标检测等方面是有效的。

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值