YOLOv8改进，YOLOv8主干网络替换为FasterNet(全网独发手把手教学，助力涨点)

本文链接：https://blog.csdn.net/weixin_44779079/article/details/142208686

在这里插入图片描述

摘要

近年来，许多研究致力于减少浮点运算（FLOPs）以加速神经网络。然而，我们观察到这种FLOPs的减少并不一定能带来相应的延迟减少。这主要是由于运算每秒浮点运算数（FLOPS）效率低下，尤其是在频繁的内存访问（如深度卷积）时。为了解决这一问题，提出了一种新的部分卷积（Partial Convolution，PConv），该方法通过减少冗余计算和内存访问来更高效地提取空间特征。基于PConv，我们进一步提出了FasterNet，这是一系列新的神经网络家族，在不牺牲各种视觉任务准确性的前提下，大幅提高了在各类设备上的运行速度。例如，在ImageNet-1k数据集上，FasterNet-T0在GPU、CPU和ARM处理器上的运行速度分别比MobileViT-XXS快2.8倍、3.3倍和2.4倍，同时精度提高了2.9%。FasterNet-L在GPU上的推理吞吐量提高了36%，在CPU上的计算时间减少了37%，达到了与Swin-B相当的83.5%的顶级准确率。

理论介绍

FasterNet 的整体架构由四个分层阶段组成，每个阶段包含一组 FasterNet模块，每个层次采用 PConv 来提取局部特征，同时通过 MLP 块来进行全局的信息处理，每个特征图不仅得到了更高效的局部感知，还能通过 MLP更好地学习全局上下文，并在前面加一个嵌入或合并层，最后三层用于特征分类。每个FasterNet 模块内部，一个 PConv 层后跟两个 PWConv 层，为了保持特征多样性并降低延迟，归一化和激活层仅在中间层之后进行，其中，PConv 是一种快速高效的卷积操作，通过仅对部分输入通道应用卷积滤波器，而保持其余通道不变，从而减少了计算量和内存访问。相比于常规卷积，PConv 具有更低的浮点运算次数（FLOPs），而相比深度卷积或分组卷积，PConv 的每秒浮点运算数（FLOPS）更高。FasterNet 架构如下图：
在这里插入图片描述
其中，深度卷积（DWConv）尽管减少了计算量，但却限制了网络的计算能力，因此难以充分发挥硬件的性能。为此，作者提出，通过提高每秒浮点运算数（FLOPS）可以加速神经网络的推理速度。

PConv 的设计目标：部分卷积通过在卷积核和通道之间选择性地应用卷积操作来平衡计算量与性能，不仅保留了卷积操作的效率，同时又提升了网络的整体性能。
多层感知器块（MLP Block）：作者还引入了改进版的 MLP 块来与 PConv 配合使用。该模块通过通道内的全连接操作增加了计算能力，从而提升了模型的表达能力。

理论详解可以参考链接：论文地址
代码可在这个链接找到：