PVTv2 论文笔记

最新推荐文章于 2025-03-28 10:20:03 发布

Tianchao龙虾

最新推荐文章于 2025-03-28 10:20:03 发布

阅读量2.7k

点赞数

分类专栏： Transformer 论文笔记文章标签：计算机视觉深度学习神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wuchaohuo724/article/details/120987697

版权

Transformer 论文笔记专栏收录该内容

11 篇文章

订阅专栏

PVTv2: Improved Baselines with Pyramid Vision Transformer

PVTv2

论文链接: https://arxiv.org/abs/2106.13797

一、 Problem Statement

PVTv1 有三个缺点:

把图片当成是non-overlapping patches的序列，一定程度上丢失了图像的局部联系。
PVTv1的position encoding是固定大小的，对处理任意图片大小不灵活。
当处理大分辨率的输入图像时候，计算发杂度相对较高。

二、 Direction

根据上面的问题，提出了下列方法:

Overlapping patch embedding
Convolutional Feed-Forward
Linear Spatial Reduction Attention

三、 Method

先来看一下整体的网络结构:

1. Overlapping patch embedding

作者扩大Patch window，使得调整后的窗口有半个区域的重叠，而且把特征图用zero-padding来保持分辨率大小。具体来说就是给定了一个输入大小为 $\times w \times c$ 的特征图，把它输入到stride为 $S$ ，kernel size为 $2 S - 1$ ，padding size为 $S - 1$ 和通道数为 $c^{'}$ 的卷积中，得到输出大小为 $\frac{h}{S} \times \frac{w}{s} \times C'$ 。

2. Convolutional Feed-Forward

把fixed-size position encoding去掉，使用zero-padding position encoding。

具体来说就是，添加一个3x3，padding size为1的depth-wise convolution在FC和GELU之间。

3. Linear Spatial Reduction Attention

PVTv1提出了SRA模块，但是计算量还是比较大。所以作者提出了Linear SRA，降低了内存消耗。具体来说就是给定一个大小为 $\times w \times c$ 的输入，经过Average Pooling，具体如下:

在这里插入图片描述

计算复杂度如下:
$\Omega(SRA) = \frac{2h^2w^2c}{R^2} + hwc^2R^2 \\ \Omega(Linear SRA) = 2hwP^2c$

4. 网络性能

在这里插入图片描述

四、 Conclusion

PVTv2 可以获得更多的图像或者特征图内数据的局部联系；也可以处理不同分辨率的输入，使得网络更加灵活。最后表现SOTA，是一个很好的backbone。

Reference

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。