PVT(Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions)

GY-赵

已于 2022-11-09 10:36:36 修改

阅读量433

点赞数

分类专栏：计算机视觉文章标签： transformer 深度学习人工智能

于 2022-08-30 16:22:28 首次发布

本文链接：https://blog.csdn.net/xiaoxiaomo_/article/details/126605014

版权

计算机视觉专栏收录该内容

20 篇文章 1 订阅

订阅专栏

在这里插入图片描述

请添加图片描述

1. 网络框图

在这里插入图片描述

1.输入一张 $\times W\times 3$ 的图片，经过一个PatchEmbeeding将其分割成 $\frac{HW}{4^2}$ patches,每一个Patch大小是 $4\times 4 \times 3$ ,经过一个Linear Projection 得到embeeding patches ： $\frac{H\times W}{4^2}\times C_1$ ,之后通过一个有 $L_1$ 层的encoder， 输出的特征被reshape为3D特征 $F 1$ （ $\frac{H}{4}\times \frac{W}{4}\times C_1$ ).

将 $F_1$ 作为下一阶段的输入，重新对其进行patch划分，此时采用patch_size=2 ,也就是采用这种对feature map多次划分patch的方法，层层降低了分辨率，以此类推可以得到不同分辨率的 ${F_2,F_3,F_4}$

在这里插入图片描述

由于使用了 $\times 4$ 大小的patch，计算transformer所需的资源巨大，因此必须想办法减少计算代价。作者这里主要使用一种SRA的方法，将计算attention需要的输入 K，V通过一个线性投影，减少计算维度。

在这里插入图片描述

$R_i$ 代表缩减率，reshape操作就是将输入 $\in \mathbb{R}^{H_iW_i\times C_i}$ ,通过线性投影 $W_s \in \mathbb{R}^{(R_i^2C_i)\times C_i}$ ,变为 $\frac{H_iW_i}{R_i^2}\times (R_i^2C_i)$ ,Norm代表layer Norm。

在这里插入图片描述

attention的计算还是以前的公式。通过这些公式，可以计算出 Attention(·) 操作的计算/内存成本比 MHA 低 $R^2$ 倍，因此它可以在资源有限的情况下处理更大的输入特征图/序列。

论文所说，主要消耗资源的地方在stage 3

在这里插入图片描述

GY-赵

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
PVT(Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions)

大小的patch，计算transformer所需的资源巨大，因此必须想办法减少计算代价。作者这里主要使用一种SRA的方法，将计算attention需要的输入 K，V通过一个线性投影，减少计算维度。attention的计算还是以前的公式。通过这些公式，可以计算出 Attention(·) 操作的计算/内存成本比 MHA 低。倍，因此它可以在资源有限的情况下处理更大的输入特征图/序列。的图片，经过一个PatchEmbeeding将其分割成。作为下一阶段的输入，以此类推可以得到不同分辨率的。.........
复制链接

扫一扫