PVT金字塔视觉transformer
(2021.2.24) 南京大学, 港大, 南理, IIAI, 商汤
PVT提出第一个用于不同像素级密集预测任务的视觉Transformer网络。
参考论文作者解读:https://zhuanlan.zhihu.com/p/353222035
论文地址:https://arxiv.org/abs/2102.12122
源码:https://github.com/whai362/PVT
研究问题
ViT将输入图像tokens化后不断堆积相同的transformer encoders,但是如果应用在密集任务上,会遇到问题:一是分割和检测往往需要较大的分辨率输入,当输入图像增大时,ViT的计算量会急剧上升;二是ViT直接采用较大patchs进行token化,如采用16x16大小那么得到的粗粒度特征,对密集任务来说损失较大。
方法
-
输入为H x W x 3的图像,划分为4x4大小的patch,就获得了 H W 4 2 \frac{HW}{4^2} 42