yolov8改进|注意力机制:BiFormer
各位哥哥姐姐弟弟妹妹大家好,我是干饭王刘姐,主业干饭,主业2.0计算机研究生在读。
和我一起来改进yolov8变身计算机大牛吧!
本文中的论文笔记都是刘姐亲自整理,原创整理哦~
BiFormer简介
论文地址
https://arxiv.org/pdf/2303.08810.pdf
代码地址
https://github.com/rayleizhu/BiFormer.
主要内容(原创整理)
前述
- Transformer具有许多适合于构建强大的数据驱动模型的属性。
- 当注意力在所有空间位置上计算成对的标记亲和力时,它具有很高的计算复杂度,并且会产生大量的内存占用。
- 为了缓解这个问题,一个有希望的方向是将稀疏注意力引入视觉转换器,这样每个查询只关注一小部分键值对,而不是所有键值对。以这种方式,已经探索了几种手工制作的稀疏模式,例如在局部窗口中限制注意力,扩大窗口或轴向条纹。
- 也有一些作品试图使稀疏性适应数据。然而,虽然它们使用不同的策略来合并或选择键/值令牌,但这些令牌是查询不可知的,即ÿ