【深度学习】语义分割-论文阅读:( CVPR 2021)SETR:Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspe

0.详情

名称:Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers
单位:发表于2021年3月份,是由复旦和腾讯优图联合提出的一个基于ViT的新型架构的语义分割模型。
论文:论文
代码:代码
参考笔记:
1。归纳点清晰
2.简洁版

FCN编码器使用CNN提取特征,即增加特征图深度、牺牲分辨率的方式提取特征。
而SETR使用的transformer,不增加特征图深度、也不牺牲分辨率。

本文介绍基于ViT的语义分割的第一个代表模型——SEgementation TRansformer (SETR),提出以纯Transformer结构的编码器来代替CNN编码器,改变现有的语义分割模型架构。

1. 摘要

语义分割以往做法:
基于带有Encoder-Decoder结构的FCN进行设计的。Encoder逐渐降低空间分辨率,同时利用逐渐变大的感受野学习到更为抽象的语义特征

近期做法:
鉴于上下文建模对语义分割的重要性,最新的一些研究聚焦于使用空洞卷积或者插入注意力模块来增大感受野这个方面。然而,这些研究仍然是基于Encoder-Decoder的FCNs架构

本文目的:
通过将语义分割视为一个sequence-to-sequence的预测任务,提供一个可供选择的替代品。
具体地,使用了一个纯粹的transformer结构(也即:没有卷积和下采样过程)将一张图像作为一组patchs进行编码。**通过transformer中每一层所建模的全局上下文,Encoder即可接上一个简单的decoder,从而组合为一个强大的语义分割模型,**该模型称为SETR。

2. 引言

2.1 原来的模型:FCN

一个标准的FCN语义分割模型是有着Encoder-Decoder结构的:
encoder,由大量的卷积层堆叠而成。作用是提取更丰富的语义特征,一般会不断地降低特征图的空间分辨率(大小)来实现更大的感受野
解码器则用于将编码器所提取到的高级特征上采样到原始输入分辨率以进行像素级的分类。

	1.感受野的大小决定了特征是否能足够捕获更大范围的周边信息甚至是全局信息,但对于语义分割,损失分辨率意味着空间损失大,分割效果可能会变差
	2.上下文(context)信息是提升语义分割性能最关键的因素,而感受野(respect-field)则大致决定了网络能够利用到多少的信息。
由于网络中的有效感受野是有限的,这将会严重制约模型的表示能力。

优点:平移等变性使得网络具有一定的泛化能力,而局部性通过参数共享降低了模型复杂度。
缺点:CNNs 难以学习长距离依赖关系

解决:

  • 直接修改卷积操作:大卷积核、空洞卷积、图像/特征金字塔等;
  • 引入注意力模块,对feature map中各个像素建模全局上下文信息。
    上述两种方式的结构仍然属于Encoder-Decoder的FCN。

Transformer 的一个特性便是能够保持输入和输出的空间分辨率不变,同时还能够有效的捕获全局的上下文信息。因此,作者这里便采用了类似ViT的结构来进行特征提取同时结合Decoder来恢复分辨率。

2.2 使用transformers

使用仅包含transformers的Encoder,替代原来的堆叠卷积进行特征提取的方式,这种方式称之为 SEgmentation TRansformer (SETR)。
SETR的Encoder通过学习patch embedding将一副图片视为一个包含了一组image patches的序列,并利用全局自注意力对这个序列进行学习。具体来说:
首先,将
图像分解
成一个由固定大小的小块组成的网格,形成一系列的patches;
然后,对每个patch拉直后使用一个线性embedding层进行学习,即可获得一个特征嵌入向量的序列,并将该序列作为tr

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值