模型实践 | 可变形的 Attention 助力 ViT 优化

幻方AI小编

已于 2022-10-27 14:55:18 修改

阅读量1.1k

点赞数 4

分类专栏：幻方AI萤火幻方AI模型实践文章标签：深度学习 transformer 人工智能

于 2022-07-19 11:15:49 首次发布

本文链接：https://blog.csdn.net/weixin_66945478/article/details/125868020

版权

本文介绍了清华黄高课题组提出的一种改进的Vision Transformer（ViT）模型，采用可变形Attention机制，增强Sparse Attention的表征能力，降低计算复杂度。在ImageNet-1K、COCO目标检测和ADE20K语义分割任务上表现出优秀性能，并已开源。

摘要由CSDN通过智能技术生成

Vision Transformer (ViT) 模型在各类视觉任务上都展现出了强⼤的性能。因其具有较⼤甚⾄增⼤到全局的感受野，ViT 相⽐卷积神经⽹络（CNN）能更好地对⻓距离依赖关系建模，特别是在⼤量训练数据的情况下，ViT 可以轻易扩展参数以达得 SOTA 的实验结果。但是，ViT 里的 Attention 机制也是⼀把双刃剑，⼤量的 key/value 增加了不少计算量，使模型难于收敛，也增加了过拟合的⻛险。

最近来自清华黄高老师课题组的研究者们对 ViT 模型中的 Attention 机制进行改进，提出了可变形的 attention 机制。研究者们让所有 query 都跟同⼀组 key 和 value 交互，通过对每个输⼊图像学习⼀组偏移量，移动 key 和 value 到重要的位置。这种设计不仅增强了 sparse attention 的表征能⼒，同时具有线性空间复杂度。

该项工作获得幻方AI算力资助，在大量的场景下进行了实验对比，验证了所提方法的优异性能。在前不久闭幕的 CVPR 2022 视觉领域顶级学术会议上，该项工作进入了 Best Paper 奖项的候选角逐。

本次文章将为大家介绍这项工作。如果您需要幻方萤火超算集群的算力来支持您的科研工作，欢迎申请使用。

论文标题：Vision Transformer with Deformable Attention

论文地址：https://arxiv.org/pdf/2201.00520.pdf

模型仓库：https://github.com/LeapLabTHU/DAT

模型介绍

1►概述

为了避免过量的 attention，现有工作采取了很多的稀疏化 Attention 的办法：

Swin Transformer 设计了滑动窗口机制，每次在窗口内部计算 Attention；
PVT 将 key/value 进行降采样来节约计算的开销

虽然这些方法十分有效，但是它们手工设计的 Attention 模式容易将与任务相关的 k

最低0.47元/天解锁文章

幻方AI小编

关注

4
点赞
踩
13

收藏

觉得还不错? 一键收藏
打赏
0
评论
模型实践 | 可变形的 Attention 助力 ViT 优化

来自清华黄高课题组的研究者们对ViT模型中的Attention机制进行改进，提出了可变形的attention机制。研究者们让所有query都跟同⼀组key和value交互，通过对每个输⼊图像学习⼀组偏移量，移动 key和value到重要的位置。这种设计不仅增强了 sparse attention 的表征能⼒，同时具有线性空间复杂度。该项工作获得幻方AI算力资助，在大量的场景下进行了实验对比，验证了所提方法的优异性能。
复制链接

扫一扫