【深度学习】语义分割:论文阅读:(CVPR 2022) MPViT(CNN+Transformer):用于密集预测的多路径视觉Transformer

0详情

论文:MPViT : Multi-Path Vision Transformer for Dense Prediction
代码:代码
笔记参考:
ppt总结版
详细版
详细版2

1摘要

针对任务:
密集的计算机视觉任务(例如对象检测和分割)需要有效的多尺度特征表示,以检测或分类具有不同尺寸的对象或区域。
在语义分割领域中,存在不同尺度的物体,同时对分割边缘的要求精确到了像素级。

VIT for dense predictions:
Vision Transformer(ViT)构建了一个简单的多阶段结构(即精细到粗糙),用于使用单尺度patch的多尺度表示。然而ViT的变体专注于降低自注意的二次复杂度,较少关注构建有效的多尺度表示。

MPVIT概述:

  • 以不同于现有Transformer的视角,探索多尺度path embedding与multi-path结构,提出了Multi-path Vision Transformer(MPViT)。

因此本文作者将重点放在了图像的多尺度多路径上,通过对图片不同尺度分块及其构成的多路径结构,提升了图像分割中Transformer的精确程度。

作用:
MPVit可以同时将图像分成多个尺度,结合精心设计的序列化模块(目的是将不同尺度的序列转化为相同长度的向量),构建了并行的多路径结构,实现了对图像不同尺度的同时利用。

过程:

  • 通过使用 overlapping convolutional patch embedding将其拉平成为不同尺寸的token,在适当调整卷积的填充/步幅后产生具有相同序列长度的特征。同时嵌入多个大小的patch特征。

  • 然后,将不同尺度的Token通过多条路径独立地输入Transformer encoders,并对生成的特征进行聚合,从而在同一特征级别上实现精细和粗糙的特征表示。

  • 特征聚合步骤中,引入了一个global-to-local feature interaction(GLI)过程,该过程将卷积局部特征与Transformer的全局特征连接起来,同时利用了卷积的局部连通性和Transformer的全局上下文。

2 主要工作

  • 提出了一个具有多路径结构的多尺度嵌入方法,用于同时表示密集预测任务的精细和粗糙特征。
  • 介绍了全局到本地特征交互(GLI),同时利用卷积的局部连通性和Transformer的全局上下文来表示特征。
  • 性能优于最先进的vit,同时有更少的参数和运算次数。

3 网络结构

首先对输入的图像做卷积提取特征
而后主要分成了四个Transformer阶段,如图左侧一列所示,
中间一列是每个阶段中两个小块的展开分析图,
右侧一列则是对多路径模块中Transformer(包括局部卷积)以及全局信息模块的图解。

ViT使用单尺度的patch embedding和单路径transformer编码器

过程:
MPViT通过重叠卷积将相同大小的特征和不同大小的patch的同时嵌入。

  • 将多尺度patch嵌入,通过重叠卷积将其拉平成为不同尺寸的token,在适当调整卷积的填充/步幅后产生具有相同序列长度的特征。

  • 然后,来自不同尺度的token被通过多条路径独立并行送到Transformer编码器中,执行全局自我关注。

  • 然后聚合生成的特征,从而在相同的特征级别上实现精细和粗略的特征表示。

在这里插入图片描述
目标是探索用于密集预测的强大骨干网络,因此构建了一个多级体系结构。
具体来说,构建了一个四阶段特征层次结构

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值