金字塔视觉transformer PVT及其改进

PVT金字塔视觉transformer

(2021.2.24) 南京大学, 港大, 南理, IIAI, 商汤

PVT提出第一个用于不同像素级密集预测任务的视觉Transformer网络。

参考论文作者解读:https://zhuanlan.zhihu.com/p/353222035
论文地址:https://arxiv.org/abs/2102.12122
源码:https://github.com/whai362/PVT

研究问题

​ViT将输入图像tokens化后不断堆积相同的transformer encoders,但是如果应用在密集任务上,会遇到问题:一是分割和检测往往需要较大的分辨率输入,当输入图像增大时,ViT的计算量会急剧上升;二是ViT直接采用较大patchs进行token化,如采用16x16大小那么得到的粗粒度特征,对密集任务来说损失较大。

方法

在这里插入图片描述

  1. 输入为H x W x 3的图像,划分为4x4大小的patch,就获得了 H W 4 2 \frac{HW}{4^2} 42

  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Transformer是一种基于自注意力机制的深度学习模型,最初用于机器翻译任务。它在处理序列数据时具有很强的表达能力和并行计算的能力,因此在自然语言处理领域取得了重要的突破。 Transformer的核心思想是通过自注意力机制来捕捉输入序列中不同位置之间的依赖关系。自注意力机制允许模型在编码和解码阶段同时对整个输入序列进行关注,而不仅仅是局部区域。这种全局的关注能力有助于模型更好地理解语义和上下文。 除了Transformer本身,还有一些改进方法被提出来进一步优化模型性能。其中包括: 1. 多头注意力机制:在传统的自注意力机制中,通过引入多个注意力头并行处理不同的线性投影来增强模型的表达能力。 2. 残差连接和层归一化:为了避免训练深层网络时梯度消失或梯度爆炸问题,Transformer引入了残差连接和层归一化来加强网络的稳定性。 3. 位置编码:由于Transformer没有使用循环神经网络或卷积神经网络,它无法直接处理序列中的位置信息。为了解决这个问题,位置编码被引入到Transformer中,以提供序列中的位置信息。 4. Transformer-XL:为了解决Transformer对长序列的建模能力问题,Transformer-XL引入了循环机制,并通过缓存先前计算的隐藏状态来扩展模型对长序列的依赖关系建模能力。 5. BERT(Bidirectional Encoder Representations from Transformers):BERT是一种预训练模型,通过在大规模文本语料上进行无监督学习,学习得到通用的语言表示。BERT在多个自然语言处理任务上取得了显著的性能提升。 这些改进方法使得Transformer模型更加强大和灵活,被广泛应用于自然语言处理、语音识别和计算机视觉等领域。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值