论文阅读—— BiFormer(cvpr2023)

じんじん

已于 2023-11-04 16:27:42 修改

阅读量934

点赞数 1

分类专栏：论文文章标签：深度学习

于 2023-11-04 16:25:54 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43575791/article/details/134217741

版权

论文专栏收录该内容

68 篇文章 0 订阅

订阅专栏

论文：https://arxiv.org/abs/2303.08810

github：GitHub - rayleizhu/BiFormer: [CVPR 2023] Official code release of our paper "BiFormer: Vision Transformer with Bi-Level Routing Attention"

一、介绍

1、要解决的问题：transformers可以捕捉长期依赖，但是它具有很高的计算复杂性，并占用大量内存。

2、之前研究者解决这个问题的做法，一般都是稀疏注意力：

1）基于手动设计的稀疏模式：在局部窗口或空洞窗口的限制注意力

2）使得稀疏性可以自适应于数据

上面这些方法使用不同的策略融合或者选择和查询无关的键值token，这些token对所有查询共享。但是根据VIT和DETR的可视化结果，不同语义区域的查询对应不同的键值对。

3、所以作者的方法是动态的、查询相关的query-aware，找到最有相关性的键值对。

本文的想法：主要想法是先在区域级别粗略的过滤掉和查询不相关的键值对，这样留下一小部分topk选好的区域routed regions，然后在这些区域上使用细粒度token到token的细粒度注意力机制。

二、方法：

1、Bi-Level Routing Attention

1）输入图片HxWxC，分成SxS个区域，reshape到，然后求出Q,K,V

2）求相关区域

每个区域的，求区域之间的相似性矩阵，文中称为通过矩阵相乘得到的region-to-region affinity graph：，衡量了两个区域之间的语义相关性大小。然后选出topk个区域，I的第i行是最相关的k个区域的索引。

3）Token-to-token attention

为了能在GPU并行计算，先把K和V聚集在一起，然后再计算注意力：

4）分析得到的提出的BRA（Bi-Level Routing Attention）复杂度，而一般的注意力复杂度为。

2、BiFormer

BRA作为基础模块，采用四层金字塔结构。

patch merging module用来减少空间分辨率同时增加通道数。

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
论文阅读—— BiFormer(cvpr2023)

本文的想法：主要想法是先在区域级别粗略的过滤掉和查询不相关的键值对，这样留下一小部分topk选好的区域routed regions，然后在这些区域上使用细粒度token到token的细粒度注意力机制。但是根据VIT和DETR的可视化结果，不同语义区域的查询对应不同的键值对。1、要解决的问题：transformers可以捕捉长期依赖，但是它具有很高的计算复杂性，并占用大量内存。3、所以作者的方法是动态的、查询相关的query-aware，找到最有相关性的键值对。，I的第i行是最相关的k个区域的索引。
复制链接

扫一扫

专栏目录

じんじん CSDN认证博客专家 CSDN认证企业博客

码龄6年

170: 原创

13万+: 周排名

1万+: 总排名

9万+: 访问

: 等级

2493: 积分

498: 粉丝

697: 获赞

23: 评论

748: 收藏

私信

关注

热门文章

分类专栏

论文 68篇
杂七杂八 7篇
数学 12篇
data structures 5篇
机器学习 21篇
计算机编程 17篇
强化学习 3篇
计算机视觉 1篇
NLP 14篇
3D 8篇
深度学习 9篇
射影几何 5篇

最新评论

论文阅读——Unified Generative Adversarial Networks for Controllable Image-to-Image Translation
普通网友: 写的很好，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
论文阅读——Unified Generative Adversarial Networks for Controllable Image-to-Image Translation
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读——MVDiffusion
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读——Sat2Vid
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读——SpectralGPT
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。