YOLOv8最新改进系列:YOLOV8主干改进-华为诺亚提出全新骨干架构VanillaNet,YOLOv8融合深度学习极简主义的力量,大力提升模型鲁棒性!!

YOLOv8最新改进系列

VanillaNet提出的论文戳这

详细的改进教程以及源码,戳这!戳这!!戳这!!!B站:AI学术叫叫兽 源码在相簿的链接中,动态中也有链接,感谢支持!祝科研遥遥领先!

截止到发稿时,B站YOLOv8最新改进系列的源码包,已更新了26种+损失函数的改进!自己排列组合2-4种后,不考虑位置已达4万种改进方法!考虑位置不同后可排列上百万种!!专注AI学术,关注B站博主:AI学术叫叫兽!

YOLOv8最新改进系列:YOLOV8主干改进-华为诺亚提出全新骨干架构VanillaNet,YOLOv8融合深度学习极简主义的力量,大力提升模型鲁棒性!!


一、VanillaNet概述

1.1 摘要

基础模型的核心是“更多不同”的理念,计算机视觉和自然语言处理方面的出色表现就是例证。然而,Transformer模型的优化和固有复杂性的挑战要求范式向简单性转变。在本文中,我们介绍了VanillaNET,这是一种设计优雅的神经网络架构。通过避免高深度、shortcuts和自注意力等复杂操作,VanillaNet简洁明了但功能强大。每一层都经过精心设计,非线性激活函数在训练后被修剪以恢复原始架构。VanillaNet克服了固有复杂性的挑战,使其成为资源受限环境的理想选择。其易于理解和高度简化的架构为高效部署开辟了新的可能性。广泛的实验表明,VanillaNet提供的性能与著名的深度神经网络和vision transformers相当,展示了深度学习中极简主义的力量。VanillaNet的这一富有远见的旅程具有重新定义景观和挑战基础模型现状的巨大潜力,为优雅有效的模型设计开辟了一条新道路

1.2 VanillaNet结构

在过去的几十年里,研究人员在神经网络的基本设计上达成了一些共识。大多数最先进的图像分类网络架构应该由三部分组成:一个主干块,用于将输入图像从3个通道转换为多个通道,并进行下采样,一个学习有用的信息主题,一个全连接层分类输出。主体通常有四个阶段,每个阶段都是通过堆叠相同的块来派生的。在每个阶段之后,特征的通道将扩展,而高度和宽度将减小。不同的网络利用和堆叠不同种类的块来构建深度模型。

尽管现有的深度网络取得了成功,但它们利用大量复杂层来为以下任务提取高级特征。例如,著名的ResNet需要34或50个带shortcat的层才能在ImageNet上实现超过70%的top-1精度。Vit的基础版本由62层组成,因为自注意力中的K、Q、V需要多层来计算。

随着AI芯片雨来越大,神经网络推理速度的瓶颈不再是FLOPs或参数,因为现代GPU可以很容易地进行并行计算。相比之下,它们复杂的设计和较大的深度阻碍了它们的速度。为此我们提出了Vanilla网络,即VanillaNet,其框架图如图一所示。我们遵循流行的神经网络设计,包括主干、主体和全连接层。与现有的深度网络不同,我们在每个阶段只使用一层,以建立一个尽可能少的层的极其简单的网络。

在这里插入图片描述
这里我们详细展示了VanillaNet的架构,以6层为例。对于主干,我们使用步长为4的4 × 4 × 3 × C 4 \times 4 \times 3 \times C4×4×3×C卷积层,遵循流行设置,将具有3个通道的图像映射到具有C个通道的特征。在1、2和3阶段,使用步幅为2的最大池化层来减小尺寸和特征图,并将通道数增加2。在第4阶段,我们不增加通道数,因为它使用平均池化层。最后一层是全连接层,输出分类结果。

每个卷积核的内核大小为1 × 1 1 \times 11×1,因为我们的目标是在保留特征图信息的同时对每一层使用最小的计算成本。在每个1 × 1 1 \times 11×1卷积层之后应用激活函数。为了简化网络的训练过程,还在每一层之后添加了批量归一化。VanillaNet没有shortcut,因为我们凭经验发现添加shortcut几乎没有提高性能。

这也带来的另一个好处,即所提出的架构非常容易实现,因为没有分支和额外的块,例如squeeze和excitation block。虽然VanillaNet的体系结构简单且相对较浅,但其弱非线性导致性能受到限制,因此,我们提出了一系列技术来解决该问题。

1.3 结论

本文充分研究了建立高性能神经网络的可行性,但没有复杂的架构,如快捷方式、高深度和注意层,这体现了设计向简单和优雅的范式转变。我们为VanillaNets提出了一种深度训练策略和系列激活函数,以增强其在训练和测试过程中的非线性并提高其性能。大规模图像分类数据集的实验结果表明,VanillaNet的性能与著名的深度神经网络和视觉转换器相当,从而突出了极简主义在深度学习中的潜力。我们将进一步探索更好的参数分配,以获得高性能的高效VanillaNet架构。总之,我们证明可以使用非常简洁的架构与最先进的深度网络和视觉转换器实现可比的性能,这将在未来释放普通卷积网络的潜力。

二、YOLOv8+VanillaNet

2.1 修改YAML文件

详细的改进教程以及源码,戳这!戳这!!戳这!!!B站:AI学术叫叫兽 源码在相簿的链接中,动态中也有链接,感谢支持!祝科研遥遥领先!

2.2 新建SwinTransformer.py

详细的改进教程以及源码,戳这!戳这!!戳这!!!B站:AI学术叫叫兽 源码在相簿的链接中,动态中也有链接,感谢支持!祝科研遥遥领先!

2.3 修改tasks.py

详细的改进教程以及源码,戳这!戳这!!戳这!!!B站:AI学术叫叫兽 源码在相簿的链接中,动态中也有链接,感谢支持!祝科研遥遥领先!

三、验证是否成功即可

执行命令

python train.py

详细的改进教程以及源码,戳这!戳这!!戳这!!!B站:AI学术叫叫兽 源码在相簿的链接中,动态中也有链接,感谢支持!祝科研遥遥领先!

改完收工!
关注B站:AI学术叫叫兽
从此走上科研快速路
遥遥领先同行!!!!
详细的改进教程以及源码,戳这!戳这!!戳这!!!B站:AI学术叫叫兽 源码在相簿的链接中,动态中也有链接,感谢支持!祝科研遥遥领先!

  • 2
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值