focal transformer讲解 博客 这是微软的一篇文章,也是屠榜级别的力作,在COCO上达到了58.9%的map

43 篇文章 6 订阅
32 篇文章 4 订阅

这是微软的一篇文章,也是屠榜级别的力作,在COCO上达到了58.9%的map
参考博客:
http://www.360doc.com/content/21/0707/22/73546223_985588571.shtml

在这里插入图片描述讲解在DEit中的 原始SA 可以关注全局和局部的信息 然后作者提出 和距离相关的 粗细粒度的注意力 近距离的是细粒度 包含的tokens小 远距离的是粗粒度 包含的区域tokens大一点。
在这里插入图片描述
这段话给出了创新的动机 以及原始SA 高复杂度的原因
在这里插入图片描述
引出 FSA 讲解什么是粗粒度的关注 也就是 参与tokens的区域越多 并图解 FSA的感受野的接受域比SA大一点。在这里插入图片描述

这是本文最关键的一个图 比较难理解一点:

在这里插入图片描述
三个定义

这个图信息太多,很容易看晕。首先要在图上找到token、sub-window、window的概念。细线框出来的最小单位即是token,黑粗线框出来的一个格子就是一个sub-window,可以看出level 1每个sub-window就是一个token,level 2则是 2 × 2 2\times2 2×2个token,level 3 则是 4 × 4 4\times4 4×4个token。而window即是蓝色的部分,可以看出来无论在哪个pyramid,一个window都是由 4 × 4 4\times 4 4×4个token组成

从左到右第二个图展示的是一个window的surrounding region在不同level下的分布情况。也就是说,在level 1,一个window的surrounding region为图中没有变蓝的部分,level 2为周围的8个window,level3为周围的24个window。

右边部分的图展示的是,每个level的每个sub-window都得到一个key和value,而每个token的query需要和它所有level的surrounding region的所有sub-window的key和value进行注意力。从这里可以看出来,实际上对于某个sub-window,其实同在一个window内的其它sub-window也被注意到了。

最后,你可能会有点疑惑,为什么attention compute这一小节提出的计算方法和给出的图,和上面给出的小猫的图,怎么对不上呢?确实是对不上的。小猫的图将重叠的区域去掉了。也就是说,小猫解释的是“远的粗粒度,近的细粒度”,然而看完attention compute你会发现,按feature level这种算法,近的不仅有粗粒度,也有细粒度。是的,而实际实现也是这样的,并没有在粗粒度的feature map上去掉与细粒度的feature map重叠的surrounding region,一方面这样比较简单,另一方面也提供了临近区域的feature pyramid结构,有点multi-scale的意味。
————————————————
版权声明:本文为CSDN博主「sysu_first_yasuo」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
来自博客:
https://blog.csdn.net/weixin_44326452/article/details/119734064

剩下的就是实验啥的:
参考博客:
https://blog.csdn.net/Q1u1NG/article/details/118634253

在这里插入图片描述
这篇博客 图解带彩色步骤 :
https://blog.csdn.net/weixin_44751294/article/details/121055664

在这里插入图片描述
这个博客有写的代码 可以阅读 看看 :
https://blog.csdn.net/kim_jisoo123/article/details/121439076

最后放上我翻译的文档 加原文:
https://download.csdn.net/download/zqx951102/84797249

大致就这么多 来个总结:
作者提出了同时结合细粒度自注意力与粗粒度自注意力的结合来做self-attention的计算,从而实现有效的local-global信息交互,且在同等层数下其获得的感受野范围要更高。不过,从结果也可以看出,其参数量比Swin是要大的,只是一定程度上减少了计算复杂度的问题。

ps:感觉绝大多数的博文都没有细节的讲解核心部分,然后有时直接看论文还是有点懵,这篇paper推荐油管的一个讲解视频:https://www.youtube.com/watch?v=YH319yyeoVw

微软三部曲:
https://blog.csdn.net/weixin_47196664/article/details/118981716?utm_medium=distribute.pc_relevant.none-task-blog-2defaultbaidujs_title~default-0.pc_relevant_default&spm=1001.2101.3001.4242.1&utm_relevant_index=3

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

zqx951102

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值