本文介绍同一作者在Deep High-Resolution Representation Learning for Human Pose Estimation和SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers中提出的两篇高分辨率网络,称为HRNetv1和HRNetv2。
HRNetv1
论文SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers提出了高分辨率网络HRNetv1。
论文指出,现有的最先进的框架首先通过一个连接高分辨率到低分辨率卷积序列的子网络,将输入图像编码为低分辨率表示,然后从编码的低分辨率表示中恢复高分辨率表示。四种典型的姿态估计网络如下图所示。(a)Hourglass 。(b)级联金字塔网络。© SimpleBaseline:用于低到高处理的转置卷积。(d)结合了扩张卷积。
相反,论文中提出的高分辨率网络HRNet在整个过程中保持高分辨率表示。该方法有两个关键特征:
- 并行连接高分辨率到低分辨率的卷积流
- 反复交换各分辨率网络的信息。
如下图所示,HRNet从一个高分辨率的卷积流开始,逐步添加高分辨率到低分辨率的卷积流,并将多分辨率的卷积流并行连接。水平方向和垂直方向分别对应于网络的深度和特征图的比例尺。
从高分辨率卷积流作为第一阶段开始,逐步添加高分辨率到低分辨率的流,形成新的阶段,并将多分辨率流并行连接。因此,后一阶段的平行流的分辨率由前一阶段的分辨率和一个更低的分辨率组成。
其中,融合模块的目标是在多分辨率表示之间交换信息。融合3个分辨率的例子如下:
HRNetv2
论文SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers中对HRNetV1进行了扩展:
- 将HRNetV1扩展为两个版本:hrnetv2和HRNetV2p。
- 将分辨率拓展为四种,如下图所示。
作者提出有三种表示头,分别称为HRNetV1、HRNetV2和HRNetV1p。
(a)HRNetV1:只输出高分辨率卷积流的表示。
(b)HRNetV2:连接来自所有分辨率的(上采样)表示。
(c)HRNetV2p:由HRNetV2表示构成特征金字塔。
每个子图底部的四分辨率表示是从上图中的网络输出的,灰色框表示如何从输入的四分辨率表示获得输出表示。