语义分割论文解读三(HRNetv1, HRNetv2)

本文介绍同一作者在Deep High-Resolution Representation Learning for Human Pose Estimation和SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers中提出的两篇高分辨率网络,称为HRNetv1和HRNetv2。

HRNetv1

论文SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers提出了高分辨率网络HRNetv1。

论文指出,现有的最先进的框架首先通过一个连接高分辨率到低分辨率卷积序列的子网络,将输入图像编码为低分辨率表示,然后从编码的低分辨率表示中恢复高分辨率表示。四种典型的姿态估计网络如下图所示。(a)Hourglass 。(b)级联金字塔网络。© SimpleBaseline:用于低到高处理的转置卷积。(d)结合了扩张卷积。在这里插入图片描述
相反,论文中提出的高分辨率网络HRNet在整个过程中保持高分辨率表示。该方法有两个关键特征:

  1. 并行连接高分辨率到低分辨率的卷积流
  2. 反复交换各分辨率网络的信息。

如下图所示,HRNet从一个高分辨率的卷积流开始,逐步添加高分辨率到低分辨率的卷积流,并将多分辨率的卷积流并行连接。水平方向和垂直方向分别对应于网络的深度和特征图的比例尺。

在这里插入图片描述
从高分辨率卷积流作为第一阶段开始,逐步添加高分辨率到低分辨率的流,形成新的阶段,并将多分辨率流并行连接。因此,后一阶段的平行流的分辨率由前一阶段的分辨率和一个更低的分辨率组成。

其中,融合模块的目标是在多分辨率表示之间交换信息。融合3个分辨率的例子如下:

在这里插入图片描述

HRNetv2

论文SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers中对HRNetV1进行了扩展:

  1. 将HRNetV1扩展为两个版本:hrnetv2和HRNetV2p。
  2. 将分辨率拓展为四种,如下图所示。

作者提出有三种表示头,分别称为HRNetV1、HRNetV2和HRNetV1p。

(a)HRNetV1:只输出高分辨率卷积流的表示。
(b)HRNetV2:连接来自所有分辨率的(上采样)表示。
(c)HRNetV2p:由HRNetV2表示构成特征金字塔。

每个子图底部的四分辨率表示是从上图中的网络输出的,灰色框表示如何从输入的四分辨率表示获得输出表示。在这里插入图片描述

  • 3
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值