目录
详情
没懂
名称:Lawin Transformer: Improving Semantic Segmentation Transformer with Multi-Scale Representations via Large Window Attention
单位:北京邮电大学
论文
代码
摘要
多尺度表示对于语义分割至关重要。目前见证了利用多尺度上下文信息的语义分割卷积神经网络 (CNN) 的蓬勃发展。由于视觉Transformer (ViT) 在图像分类方面的强大功能,最近提出了一些语义分割 ViT,其中大多数取得了令人印象深刻的结果,但以计算经济为代价。
-
通过窗口注意力机制将多尺度表示引入语义分割 ViT,并进一步提高了性能和效率。
为此,引入了大窗口注意力,它允许局部窗口以很少的计算开销查询更大区域的上下文窗口。 -
通过调节上下文区域与查询区域的比例,使大窗口注意力能够在多个尺度上捕获上下文信息。
-
此外,采用空间金字塔池化框架与大窗口注意力协作,提出了一种名为大窗口注意力空间金字塔池化(LawinASPP)的新型解码器,用于语义分割 ViT。
ViT Lawin Transformer
- 编码器:高效分层视觉Transformer (HVT)
- 解码器: LawinASPP 组成。
1. Introduction
之前的技术
CNN
主要工作:利用多尺度表征
方法:将过滤器或池化操作(如atrous convolution和自适应池化应用于空间金字塔池化(SPP)模块。
vit
缺点:很高的计算成本,尤其是在输入图像较大的情况下
解决:
该方法纯粹基于层次视觉转换器(HVT)
Swin Transformer是最具代表性的hvt之一,使用了一个沉重的解码器来分类像素。
SegFormer改进了编码器和解码器的设计,产生了非常高效的语义分割ViT。
缺点:仅仅依靠增加编码器的模型容量来逐步提高性能,这可能会降低效率上限。
目前的主要问题:缺乏多尺度的上下文信息,从而影响了其性能和效率。
提出方法:
最低0.47元/天 解锁文章
9671

被折叠的 条评论
为什么被折叠?



