【深度学习】语义分割-论文阅读:( NeurIPS 2021 )SegFormer

0.详情

名称:SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers
单位:香港大学, 南京大学, NVIDIA, Caltech.
时间:Published 31 May 2021
论文:添加链接描述
代码:代码
笔记参考:
1.总结简介版
2.简介版
3.翻译版

1.动机

  1. ViT 在图像分类上的成功,催生了 SETR 网络,该网络说明了 Transformer 也能在分割任务上生效。
    **SETR 使用 ViT 作为主干网络,然后使用 CNN 来进行特征图增大。**但是 ViT 有一些不足:
  • SETR中使用VIT作为backbone 提取的特征较为单一,PE限制预测的多样性
  • 传统CNN的Decoder来恢复特征过程较为复杂
  1. 基于此,有作者提出了 PVT,是 ViT 的变体,金字塔结构,能进行密集预测。PVT 的提出,超越了基于 CNN 的目标检测和语义分割。还有后续的 Swin 和 Twins,这些方法主要考虑设计 encoder,但忽略了 decoder 能带来的更多提升。

2. 改进点

本文提出了一种 SegFormer,同时考虑了效果、效率、鲁棒性,同时使用了 encoder 和 decoder
主要提出多层次的Transformer-Encoder和MLP-Decoder

创新性:

  • 包含一个可以输出多尺度信息的transformer编码器(没有使用position embedding,避免了position插值)

  • 避免了复杂的解码器。提出的MLP解码器从不同的层聚合信息,从而结合局部关注和全局关注来呈现强大的表示。作者展示了这种简单和轻量级的设计是有效分割transformer的关键。

(本文提出的 encoder,在对分辨率不同的输入进行 inference 的时候, 没

  • 0
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值