PVT(Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions)

在这里插入图片描述

请添加图片描述

1. 网络框图

在这里插入图片描述





1.输入一张 H × W × 3 H \times W\times 3 H×W×3的图片,经过一个PatchEmbeeding将其分割成 H W 4 2 \frac{HW}{4^2} 42HW patches,每一个Patch大小是 4 × 4 × 3 4\times 4 \times 3 4×4×3,经过一个Linear Projection 得到embeeding patches : H × W 4 2 × C 1 \frac{H\times W}{4^2}\times C_1 42H×W×C1,之后通过一个有 L 1 L_1 L1层的encoder, 输出的特征被reshape为3D特征 F 1 F1 F1 H 4 × W 4 × C 1 \frac{H}{4}\times \frac{W}{4}\times C_1 4H×4W×C1 ).

F 1 F_1 F1作为下一阶段的输入,重新对其进行patch划分,此时采用patch_size=2 ,也就是采用这种对feature map多次划分patch的方法,层层降低了分辨率,以此类推可以得到不同分辨率的 F 2 , F 3 , F 4 {F_2,F_3,F_4} F2,F3,F4





在这里插入图片描述




由于使用了 4 × 4 4 \times 4 4×4 大小的patch,计算transformer所需的资源巨大, 因此必须想办法减少计算代价。作者这里主要使用一种SRA的方法,将计算attention需要的输入 K,V通过一个线性投影,减少计算维度。





在这里插入图片描述





R i R_i Ri 代表缩减率,reshape操作就是将输入 x ∈ R H i W i × C i x \in \mathbb{R}^{H_iW_i\times C_i} xRHiWi×Ci,通过线性投影 W s ∈ R ( R i 2 C i ) × C i W_s \in \mathbb{R}^{(R_i^2C_i)\times C_i} WsR(Ri2Ci)×Ci,变为 H i W i R i 2 × ( R i 2 C i ) \frac{H_iW_i}{R_i^2}\times (R_i^2C_i) Ri2HiWi×(Ri2Ci),Norm代表layer Norm。





在这里插入图片描述



attention的计算还是以前的公式。通过这些公式,可以计算出 Attention(·) 操作的计算/内存成本比 MHA 低 R 2 R^2 R2 倍,因此它可以在资源有限的情况下处理更大的输入特征图/序列。

论文所说,主要消耗资源的地方在stage 3



在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Pyramid Vision Transformer (PVT)是一种用于密集预测的通用backbone,它是一种基于Transformer的设计。PVT的整体架构包括了Transformer编码器和其他细节。PVT的设计使得它可以应用于图像分类、目标检测和实例分割等任务。 PVT的整体架构包括了Transformer编码器和其他细节。Transformer编码器是PVT的核心组件,它通过自注意力机制和全连接层来建模输入图像的关系。PVT还采用了金字塔结构,通过在不同尺度上应用Transformer来捕捉图像中的多尺度信息。这种金字塔结构可以提高PVT在密集预测任务中的性能。 PVT还提供了相应的代码实现,包括了图像分类、目标检测和实例分割的代码。这些代码可以帮助研究人员和开发者更好地理解和应用PVT模型。 论文地址:PVT-V1版本论文 源码地址:PVT-v1-torch源码<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [PVT论文精读:Pyramid Vision Transformer: A Versatile Backbone for Dense Predictionwithout ...](https://blog.csdn.net/qq_52053775/article/details/127700540)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 33.333333333333336%"] - *2* [Pyramid Vision Transformer (PVT) 代码,用于密集预测的通用backbone](https://download.csdn.net/download/weixin_42715977/87625056)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 33.333333333333336%"] - *3* [Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions论文以及...](https://blog.csdn.net/m0_45971439/article/details/120495124)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 33.333333333333336%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值