HRNetV2：《High-Resolution Representations for Labeling Pixels and Regions》

最新推荐文章于 2023-08-21 21:56:29 发布

小苑同学

最新推荐文章于 2023-08-21 21:56:29 发布

阅读量1.3k

点赞数

分类专栏：图像分割论文阅读笔记文章标签：深度学习计算机视觉

本文链接：https://blog.csdn.net/yuansiming0920/article/details/114519234

版权

图像分割论文阅读笔记专栏收录该内容

23 篇文章 3 订阅

订阅专栏

在这里插入图片描述
论文地址：https://arxiv.org/pdf/1904.04514.pdf

1 Background

深度学习代表是很强的并且在许多视觉任务上实现了很好的结果。目前主要的表示分为两类：用于图像分类的低分分辨率表示，对其它视觉问题重要的高分辨率表示，比如语义分割、人体姿态估计、目标检测等等。高分辨率的表示仍然存在很多问题没有解决，因此吸引了很多人的关注。

解决高分辨率表示主要有两种方式：（1）从低分辨率中来恢复得到高分辨率。（2）从高分辨卷积中获得高分辨率表示并且从平行的低分辨率卷积中来加强高分辨表示

本文沿着第（2）种方式来进一步研究HRNet来增加研究范围。它是研究HRNet的所有的 high-to-low分辨率平行卷积而不是仅仅研究低分辨率研究。简单的修改增加了一些开销但是产生了分辨率更高的表示。

2 Motivation

为了广泛的视觉任务（比如语义分割、目标检测等），进一步研究HRNet（仅仅用于人体姿态估计）。

3 Related Work

Learning low-resolution representations：eg，FCN, Holistic edge detection
Recovering high-resolution representations:使用子网络（如decoder）来从低分辨率表示中恢复高分辨率表示。eg，SegNet, DeconvNet, U-Net, encoder-decoder, FPN等。不对称的上采样网络也被经常使用，eg，RefineNet
Maintaining high-resolution representations：通常是通过连接多分辨率(从高分辨率到低分辨率)并行卷积并在并行卷积之间重复信息交换而形成的网络，eg，GridNet , convolutional neural fabrics , interlinked
CNNs , HRNet等

4 Method

4.1 Architecture

在这里插入图片描述
总共包含4个stages，其中2、3、4stage都是重复模式化 multi-resolution blocks，一个multi-resolution blocks包含一个 multi-resolution group convolution（下图（a））和一个multi-resolution convolution（下图（b））

multi-resolution group convolution是分组卷积 https://zhuanlan.zhihu.com/p/355123135的一个简单扩展。 multi-resolution convolution它类似于正常卷积的全连接方式（如下图（c）），它们的区别有两方面：（1）multi-resolution convolution中通道的每个子集都有不同的分辨率（2）输入通道和输出通道的连接需要通过使用几个 2-strided的3×3卷积来处理分辨率下降。分辨率增加仅仅通过使用最近邻插值上采样操作。
在这里插入图片描述

4.2 Modification

HRNetV1(如下图)的特征选择，只使用分辨率最高的特征图
在这里插入图片描述
本文（HRNetV2,如下图）的特征选择，将所有分辨率的特征图(小的特征图进行upsample)进行concate，主要用于语义分割和面部关键点检测。这个修改仅仅增加了很少的参数和计算量。

在目标检测中的应用，HRNetV2p是在HRNetV2的基础上增加了一个特征金字塔
在这里插入图片描述

4.3 Instantiation

使用类似于 HRNetV1的方式来实例化网络。网络从一个包含两个 strided 3 × 3 convolutions的主干网络开始，使得分辨率变为原先的1/4。第一个stage包含4个残差单元。第二、第三和第四个stage分别包含1个、4个和3个multi-resolution blocks。宽度分别是C、2C、4C、8C

5 Experiments

5.1. Semantic Segmentation

Cityscapes：
PASCAL context:
LIP:

5.2. COCO Object Detection

在这里插入图片描述

6 Conclusions

在本文中，作者通过一个简单的修改，对高分辨率表示网络在广泛的视觉应用中进行了实证研究。实验结果表明，改进后的神经网络学习到的高分辨率和多层次表征在语义分割、人脸标志检测和目标检测等方面是有效的。

小苑同学

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
HRNetV2：《High-Resolution Representations for Labeling Pixels and Regions》

论文地址：https://arxiv.org/pdf/1904.04514.pdf1 Background深度学习代表是很强的并且在许多视觉任务上实现了很好的结果。目前主要的表示分为两类：用于图像分类的低分分辨率表示，对其它视觉问题重要的高分辨率表示，比如语义分割、人体姿态估计、目标检测等等。高分辨率的表示仍然存在很多问题没有解决，因此吸引了很多人的关注。解决高分辨率表示主要有两种方式：（1）从低分辨率中来恢复得到高分辨率。（2）从高分辨卷积中获得高分辨率表示并且从平行的低分辨率卷积中来加强高分辨表.
复制链接

扫一扫

专栏目录