【深度学习】语义分割:论文阅读(没太懂):(2022-1)Lawin Transformer:大窗口注意力改进多尺度表示的语义分割

详情

没懂
名称:Lawin Transformer: Improving Semantic Segmentation Transformer with Multi-Scale Representations via Large Window Attention
单位:北京邮电大学
论文
代码

摘要

多尺度表示对于语义分割至关重要。目前见证了利用多尺度上下文信息的语义分割卷积神经网络 (CNN) 的蓬勃发展。由于视觉Transformer (ViT) 在图像分类方面的强大功能,最近提出了一些语义分割 ViT,其中大多数取得了令人印象深刻的结果,但以计算经济为代价。

  • 通过窗口注意力机制将多尺度表示引入语义分割 ViT,并进一步提高了性能和效率。
    为此,引入了大窗口注意力,它允许局部窗口以很少的计算开销查询更大区域的上下文窗口

  • 通过调节上下文区域与查询区域的比例,使大窗口注意力能够在多个尺度上捕获上下文信息

  • 此外,采用空间金字塔池化框架与大窗口注意力协作,提出了一种名为大窗口注意力空间金字塔池化(LawinASPP)的新型解码器,用于语义分割 ViT。

ViT Lawin Transformer

  • 编码器:高效分层视觉Transformer (HVT)
  • 解码器: LawinASPP 组成。

1. Introduction

之前的技术

CNN
主要工作:利用多尺度表征
方法:将过滤器或池化操作(如atrous convolution和自适应池化应用于空间金字塔池化(SPP)模块。

vit
缺点:很高的计算成本,尤其是在输入图像较大的情况下
解决
该方法纯粹基于层次视觉转换器(HVT)

Swin Transformer是最具代表性的hvt之一,使用了一个沉重的解码器来分类像素。

SegFormer改进了编码器和解码器的设计,产生了非常高效的语义分割ViT。
缺点:仅仅依靠增加编码器的模型容量来逐步提高性能,这可能会降低效率上限。

目前的主要问题:缺乏多尺度的上下文信息,从而影响了其性能和效率。
提出方法:

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值