【深度学习】语义分割-论文阅读：（ NeurIPS 2021 ）SegFormer

盏云

已于 2022-04-26 11:32:30 修改

阅读量3.7k

点赞数

分类专栏： transformers 语义分割论文阅读文章标签：深度学习 transformer

于 2022-04-26 11:28:30 首次发布

本文链接：https://blog.csdn.net/zhe470719/article/details/124401566

版权

这里写目录标题

0.详情
1.动机
2. 改进点
3.相关工作
4. Method
5 实验
- 5.1 实验设置

0.详情

名称：SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers
单位：香港大学, 南京大学, NVIDIA, Caltech.
时间：Published 31 May 2021
论文：添加链接描述
代码：代码
笔记参考：
1.总结简介版
2.简介版
3.翻译版

1.动机

ViT 在图像分类上的成功，催生了 SETR 网络，该网络说明了 Transformer 也能在分割任务上生效。
**SETR 使用 ViT 作为主干网络，然后使用 CNN 来进行特征图增大。**但是 ViT 有一些不足：

SETR中使用VIT作为backbone 提取的特征较为单一，PE限制预测的多样性
传统CNN的Decoder来恢复特征过程较为复杂

基于此，有作者提出了 PVT，是 ViT 的变体，金字塔结构，能进行密集预测。PVT 的提出，超越了基于 CNN 的目标检测和语义分割。还有后续的 Swin 和 Twins，这些方法主要考虑设计 encoder，但忽略了 decoder 能带来的更多提升。

2. 改进点

本文提出了一种 SegFormer，同时考虑了效果、效率、鲁棒性，同时使用了 encoder 和 decoder，
主要提出多层次的Transformer-Encoder和MLP-Decoder，

创新性：

包含一个可以输出多尺度信息的transformer编码器（没有使用position embedding，避免了position插值）
避免了复杂的解码器。提出的MLP解码器从不同的层聚合信息，从而结合局部关注和全局关注来呈现强大的表示。作者展示了这种简单和轻量级的设计是有效分割transformer的关键。

（本文提出的 encoder，在对分辨率不同的输入进行 inference 的时候，没

最低0.47元/天解锁文章

盏云

关注

0
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
【深度学习】语义分割-论文阅读：（ NeurIPS 2021 ）SegFormer

这里写目录标题0.详情1.动机2. 改进点3.相关工作4. Method4.1 Hierarchical Transformer Encoder4.1.1 分层特性表示(Hierarchical Feature Representation)4.1.2 重叠合并(Overlapped Patch Merging)4.1.3 自注意机制(Efficient Self-Attention)4.1.4 混合前馈网络(Mix-FFN)4.2 Lightweight ALL-MLP DecoderALL-MLP解码结
复制链接

扫一扫

专栏目录