这里写目录标题
0详情
论文:MPViT : Multi-Path Vision Transformer for Dense Prediction
代码:代码
笔记参考:
ppt总结版
详细版
详细版2
1摘要
针对任务:
密集的计算机视觉任务(例如对象检测和分割)需要有效的多尺度特征表示,以检测或分类具有不同尺寸的对象或区域。
在语义分割领域中,存在不同尺度的物体,同时对分割边缘的要求精确到了像素级。
VIT for dense predictions:
Vision Transformer(ViT)构建了一个简单的多阶段结构(即精细到粗糙),用于使用单尺度patch的多尺度表示。然而ViT的变体专注于降低自注意的二次复杂度,较少关注构建有效的多尺度表示。
MPVIT概述:
- 以不同于现有Transformer的视角,探索多尺度path embedding与multi-path结构,提出了Multi-path Vision Transformer(MPViT)。
因此本文作者将重点放在了图像的多尺度多路径上,通过对图片不同尺度分块及其构成的多路径结构,提升了图像分割中Transformer的精确程度。
作用:
MPVit可以同时将图像分成多个尺度,结合精心设计的序列化模块(目的是将不同尺度的序列转化为相同长度的向量),构建了并行的多路径结构,实现了对图像不同尺度的同时利用。
过程:
-
通过使用 overlapping convolutional patch embedding将其拉平成为不同尺寸的token,在适当调整卷积的填充/步幅后产生具有相同序列长度的特征。同时嵌入多个大小的patch特征。
-
然后,将不同尺度的Token通过多条路径独立地输入Transformer encoders,并对生成的特征进行聚合,从而在同一特征级别上实现精细和粗糙的特征表示。
-
在特征聚合步骤中,引入了一个global-to-local feature interaction(GLI)过程,该过程将卷积局部特征与Transformer的全局特征连接起来,同时利用了卷积的局部连通性和Transformer的全局上下文。
2 主要工作
- 提出了一个具有多路径结构的多尺度嵌入方法,用于同时表示密集预测任务的精细和粗糙特征。
- 介绍了全局到本地特征交互(GLI),同时利用卷积的局部连通性和Transformer的全局上下文来表示特征。
- 性能优于最先进的vit,同时有更少的参数和运算次数。
3 网络结构
首先对输入的图像做卷积提取特征,
而后主要分成了四个Transformer阶段,如图左侧一列所示,
中间一列是每个阶段中两个小块的展开分析图,
右侧一列则是对多路径模块中Transformer(包括局部卷积)以及全局信息模块的图解。
ViT使用单尺度的patch embedding和单路径transformer编码器
过程:
MPViT通过重叠卷积将相同大小的特征和不同大小的patch的同时嵌入。
-
将多尺度patch嵌入,通过重叠卷积将其拉平成为不同尺寸的token,在适当调整卷积的填充/步幅后产生具有相同序列长度的特征。
-
然后,来自不同尺度的token被通过多条路径独立并行送到Transformer编码器中,执行全局自我关注。
-
然后聚合生成的特征,从而在相同的特征级别上实现精细和粗略的特征表示。

目标是探索用于密集预测的强大骨干网络,因此构建了一个多级体系结构。
具体来说,构建了一个四阶段特征层次结构
最低0.47元/天 解锁文章
1277

被折叠的 条评论
为什么被折叠?



