Vision Transformer (ViT) 模型在各类视觉任务上都展现出了强⼤的性能。因其具有较⼤甚⾄增⼤到全局的感受野,ViT 相⽐卷积神经⽹络(CNN)能更好地对⻓距离依赖关系建模,特别是在⼤量训练数据的情况下,ViT 可以轻易扩展参数以达得 SOTA 的实验结果。但是,ViT 里的 Attention 机制也是⼀把双刃剑,⼤量的 key/value 增加了不少计算量,使模型难于收敛,也增加了过拟合的⻛险。
最近来自清华黄高老师课题组的研究者们对 ViT 模型中的 Attention 机制进行改进,提出了可变形的 attention 机制。研究者们让所有 query 都跟同⼀组 key 和 value 交互,通过对每个输⼊图像学习⼀组偏移量,移动 key 和 value 到重要的位置。这种设计不仅增强了 sparse attention 的表征能⼒,同时具有线性空间复杂度。
该项工作获得幻方AI算力资助,在大量的场景下进行了实验对比,验证了所提方法的优异性能。在前不久闭幕的 CVPR 2022 视觉领域顶级学术会议上,该项工作进入了 Best Paper 奖项的候选角逐。
本次文章将为大家介绍这项工作。如果您需要幻方萤火超算集群的算力来支持您的科研工作,欢迎申请使用。
论文标题:Vision Transformer with Deformable Attention
论文地址:https://arxiv.org/pdf/2201.00520.pdf
模型仓库:https://github.com/LeapLabTHU/DAT
模型介绍
1►概述
为了避免过量的 attention,现有工作采取了很多的稀疏化 Attention 的办法:
-
Swin Transformer 设计了滑动窗口机制,每次在窗口内部计算 Attention;
-
PVT 将 key/value 进行降采样来节约计算的开销
虽然这些方法十分有效,但是它们手工设计的 Attention 模式容易将与任务相关的 k