YOLOv8改进系列,YOLOv8添加BiFormer注意力机制,助力小目标检测能力

22 篇文章 10 订阅 ¥39.90 ¥99.00

在这里插入图片描述

原论文摘要

作为视觉Transformer的核心构建模块,注意力机制是捕捉长距离依赖关系的强大工具。然而,这种能力伴随着高昂的代价:由于需要计算所有空间位置之间的成对标记交互,导致巨大的计算负担和高内存占用。一系列工作试图通过引入手工设计的与内容无关的稀疏性来缓解这一问题,例如将注意力操作限制在局部窗口、轴向条带或扩张窗口内。与这些方法不同,我们提出了一种通过双层路由实现动态稀疏注意力的新方法,以实现更灵活的计算分配,同时具备内容感知性。具体而言,对于查询,首先在粗略区域级别过滤掉无关的键值对,然后在剩余候选区域(即路由区域)的联合中应用细粒度的标记对标记注意力。我们提出了这种双层路由注意力的一个简单而有效的实现,该实现利用稀疏性节省计算和内存,同时仅涉及GPU友好的稠密矩阵乘法。基于所提出的双层路由注意力,我们推出了一种新的通用视觉Transformer,称为BiFormer。由于BiFormer能够在查询自适应的方式中仅关注相关标记,而不受其他无关标记的干扰,因此在密集预测任务中表现出良好的性能和高计算效率。多个计算机视觉任务(如图像分类、目标检测和语义分割)的实验证明了我们设计的有效性。

BiFormer介绍

BiFormer的主要贡献在于提出了双层级路由注意力(Bi-Level Routing Attention),具体而言包括以下几点:
1.双层级路由注意力机制:局部路由机制利用了稀疏的局部连接,类似于卷积神经网络中的卷积操作,但具有更灵活的学习能力。全局路由机制采用了一种类似于自注意力的全局特征聚合方法,但通过智能选择关注的区域,减少了计算量。
2.高效的计算和存储设计:BiFormer通过选择性地在局部和全局特征之间进行信息交换,减少了传统Transformer模型的计算复杂度。通过引入层级化的信息处理方式,该模型在保持高性能的同时显著降低了内存和计算资源的消耗。
传统的全局注意力机制到不同的稀疏注意力方法,再到双层级路由注意力机制过程如下图所示
在这里插入图片描述

BiFormer理论详解可以参考链接:论文地址
BiFormer代码可在这个链接找到:代码地址

本文在YOLOv8中引入BiFormer,代码已经整理好了,跟着文章复制粘贴,即可直接运行


  • 5
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

挂科边缘(毕业版)

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值