即插即用篇 | YOLOv8引入局部自注意力 HaloAttention | 为参数高效的视觉主干网络扩展局部自注意力

本改进已集成到 YOLOv8-Magic 框架。

在这里插入图片描述

我们提出了Axial Transformers,这是一个基于自注意力的自回归模型,用于图像和其他组织为高维张量的数据。现有的自回归模型要么因高维数据的计算资源需求过大而受到限制,要么为了减少资源需求而在分布表达性或实现的便捷性上做出妥协。相比之下,我们的架构既保持了对数据联合分布的完全表达性,也易于使用标准的深度学习框架实现,同时在需要合理的内存和计算资源的同时,达到了标准生成建模基准测试的最先进结果。我们的模型基于axial attention,这是自注意力的一个简单泛化,自然地与张量的多个维度在编码和解码设置中对齐。值得注意的是,所提出的层结构允许在解码过程中并行计算大部分上下文,而不引入任何独立性假设。这种半并行结构极大地促进了甚至是非常大的Axial Transformer的解码应用。我们在ImageNet-32ImageNet-64 图像基准测试以及BAIR Robotic Pushing视频基准测试上展示了Axial Transformer 的最先进结果。我们开源了Axial Transformers 的实现。


1 论文简介

自注意力因为参数独立的感受野缩放和内容依赖的交互作用,有望改善计算机视觉系统,这与参数依赖的缩放和内容独立的卷积交互形成对比。自注意力模型最近在精度与参数之间的权衡上显示出与基线卷积模型(如

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 3
    评论
fasternet是YOLOv8中的主干网络更换方案之一。YOLOv8是目标检测算法YOLO系列的最新版本,它在YOLOv3的基础上进行了一些改进和优化。 传统的YOLOv3主干网络采用的是Darknet53,这是一个由53个卷积层组成的卷积神经网络。虽然Darknet53在一定程度上能够提取出图像的特征信息,但是它的计算量较大,速度较慢。 为了进一步提高YOLOv8的检测速度,研究者们提出了fasternet作为新的主干网络方案。fasternet是一种轻量级的卷积神经网络,它采用了一种称为Focus module的结构。 Focus module有两个主要的特点。首先,它将输入图像分为四个部分,并在每个部分上进行卷积操作,这样可以捕捉到不同尺度的特征。其次,Focus module使用了一个更小的卷积核来代替传统的大卷积核,这样可以减少参数量,加快计算速度。 相比于Darknet53,fasternet在保证检测性能的同时,减小了网络规模,从而提高了检测速度。实验结果表明,使用fasternet作为YOLOv8主干网络可以获得与之前版本相当的准确率,在速度上有了大幅度的提升。 总之,fasternet是YOLOv8中一种更为轻量级的主干网络,它通过优化网络结构和参数量,提高了目标检测算法的实时性和计算效率。这一改进使得YOLOv8能够在更高的速度下对图像中的目标进行快速、准确地检测,为目标检测技术的发展追求更高的水平。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

迪菲赫尔曼

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值