模型实践 | 可变形的 Attention 助力 ViT 优化

本文介绍了清华黄高课题组提出的一种改进的Vision Transformer(ViT)模型,采用可变形Attention机制,增强Sparse Attention的表征能力,降低计算复杂度。在ImageNet-1K、COCO目标检测和ADE20K语义分割任务上表现出优秀性能,并已开源。
摘要由CSDN通过智能技术生成

Vision Transformer (ViT) 模型在各类视觉任务上都展现出了强⼤的性能。因其具有较⼤甚⾄增⼤到全局的感受野,ViT 相⽐卷积神经⽹络(CNN)能更好地对⻓距离依赖关系建模,特别是在⼤量训练数据的情况下,ViT 可以轻易扩展参数以达得 SOTA 的实验结果。但是,ViT 里的 Attention 机制也是⼀把双刃剑,⼤量的 key/value 增加了不少计算量,使模型难于收敛,也增加了过拟合的⻛险。

最近来自清华黄高老师课题组的研究者们对 ViT 模型中的 Attention 机制进行改进,提出了可变形的 attention 机制。研究者们让所有 query 都跟同⼀组 key 和 value 交互,通过对每个输⼊图像学习⼀组偏移量,移动 key 和 value 到重要的位置。这种设计不仅增强了 sparse attention 的表征能⼒,同时具有线性空间复杂度。

该项工作获得幻方AI算力资助,在大量的场景下进行了实验对比,验证了所提方法的优异性能。在前不久闭幕的 CVPR 2022 视觉领域顶级学术会议上,该项工作进入了 Best Paper 奖项的候选角逐。

本次文章将为大家介绍这项工作。如果您需要幻方萤火超算集群的算力来支持您的科研工作,欢迎申请使用。

论文标题:Vision Transformer with Deformable Attention

论文地址:https://arxiv.org/pdf/2201.00520.pdf

模型仓库:https://github.com/LeapLabTHU/DAT


模型介绍

1概述

为了避免过量的 attention,现有工作采取了很多的稀疏化 Attention 的办法:

  • Swin Transformer 设计了滑动窗口机制,每次在窗口内部计算 Attention;

  • PVT 将 key/value 进行降采样来节约计算的开销

虽然这些方法十分有效,但是它们手工设计的 Attention 模式容易将与任务相关的 k

  • 4
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

幻方AI小编

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值