L-Net 阅读笔记 --20240417

L-Net: A lightweight convolutional neural network for devices with low computing power

一种面向低计算能力设备的轻量级卷积神经网络

论文地址:https://www.sciencedirect.com/science/article/pii/S0020025524000446?via%3Dihub#se0150

1 Introduction

先前研究:ResNet 通过残差连接解决了梯度消失问题;SquezeNet 保持准确性的同时实现了大幅模型压缩MobileNet 引入深度可分离卷积,降低了计算成本,同时保留了捕获复杂特征的能力。

但是,ResNet 参数数量较大;SqueezeNet 准确性较低、训练时间较长和通道交互受限;MobileNet 通道交互较差、准确性较低。

轻量级网络现有问题:通道交互不平衡,梯度消失等。

本研究:将残差增强通道注意(R-ECA)模块融入深度可分离CNN中。

2 Related work

2.1 The development process of DL

2.2 The work of competitors

3 Preliminary knowledge

3.1 Working principle of depthwise separable convolution

深度可分离卷积将标准卷积分为:深度部分和逐点部分。每个输入通道都有自己独立的卷积核,用于收集通道的特征。输入通道和输出通道的数量保持不变;因此,深度部分不改变维度。逐点部分使用1×1卷积操作,收集每个点的特征,可能增加或减少维度。

Fig. 1. The composition of standard convolution and depthwise separable convolution.

3.2 The limitation of depthwise separable convolution

虽然在理论上,𝑁 × 𝑁深度部分和1×1逐点部分的组合可以实现与𝑁 × 𝑁标准卷积类似的性能,但由于ReLU激活函数的影响,每个深度卷积核的小尺寸可能导致卷积输出的稀疏性。这种限制在固定点和低精度训练过程中可能会更加显著。此外,由于数据仅存在于每个通道内,因此通道之间缺乏交互,这可能导致信息屏蔽、阻塞和不循环。此外,随着深度可分离卷积层数量的增加,模型可能会出现梯度消失问题。

3.3 The parameter comparison between depthWise separable convolution and standard convolution(普通卷积和深度可分离卷积参数比较)

http://t.csdnimg.cn/6shCi
 

3.4 Comparison between ELU and ReLU(ELU和ReLU比较)

http://t.csdnimg.cn/CWkca

4 Construction of L-Net

4.1 Bypass mechanism(旁路机制)

网络较深时,可能会出现梯度消失现象,导致训练集损失增加,浅层网络表现较深层网络好,为了解决此问题,关键在于将在较低层学习到的特征传递到较高层,确保深层网络至少保持与浅层网络相当的性能水平。

传统的残差模块具有固定结构,无法根据需要添加到主干网络中,提出受ResNet启发的旁路机制,这种机制涉及使用一个维度增加模块来增加输入维度,然后将其添加到经过𝑛个卷积层卷积后的结果中。这种灵活的方法使我们能够向每个旁路模块添加卷积操作,以实现即插即用的功能。旁路机制由𝑛个深度可分离卷积模块和一个维度提升模块组成。

给定输入𝑋𝑙,执行以下操作:首先,通过评估𝐻(𝑋𝑙)来增加𝑋𝑙的维度,其中𝐻是分支路径的维度提升函数。同时,对𝑋𝑙应用一系列深度可分离卷积操作,表示为𝐹(𝑋𝑙)。最后,通过将𝐻(𝑋𝑙)和𝐹(𝑋𝑙)相加来获得旁路机制的输出。

4.2 Cross-channel interaction(跨通道交互)

为解决深度可分离卷积通道之间信息孤立、阻塞、不循环的问题,提出跨通道交互机制。

首先,输入特征图经过全局平均池化操作,生成一个特征图,其中 𝐷𝐻 =1 且 𝐷𝑊 =1,有效地将其减少到仅通道维度。然后,将此特征图转换为一个长条。在大小为1的核上进行卷积操作后,每一层的通道与下一层的通道进行交互,并通过 sigmoid 函数共享其权重。最后,将输入特征图的权重乘以处理后特征图的权重,然后加到特征图中。

4.3 R-ECA module

整合旁路和跨通道交互机制来增强CNN的性能。

该过程从对输入𝑋𝑙进行卷积操作开始,得到𝐹 (𝑋𝑙)。然后,对𝐹 (𝑋𝑙)进行全局平均池化,将特征图减少到𝐷𝐻和𝐷𝑊维度为1,同时保留通道维度。随后,通过对具有共享权重的1×1卷积操作进行交叉通道交互,实现相邻层之间的交互。将输入𝑋𝑙与处理后的特征图权重使用sigmoid相乘,得到𝐹 ′(𝑋𝑙)。同时,分支路径利用一个维度升级模块对输入𝑋𝑙进行升级,并生成与𝐹 ′(𝑋𝑙)相同维度的𝐻(𝑋𝑙)。将𝐻(𝑋𝑙)和𝐹 ′(𝑋𝑙)结合起来生成𝑋𝑙+1。

伪代码表示:

4.4 L-Net

首先,输入特征图通过一个3×3卷积层。随着它通过一系列的深度可分离卷积基本单元、R-ECA块和额外的深度可分离卷积基本单元,特征图的大小和输出通道数按以下顺序发生变化:一个、一个、两个、一个、两个、另一个、五个、一个(最终)和两个。为了增强特征提取和模型收敛,L-Net外部卷积处理得到的输出应该经过批量归一化(BN)层归一化,并采用ELU非线性激活函数来提高其非线性表达能力。

伪代码:

5 Experiment and result analysis

5.1 Dataset preparation

数据集:cifar-10

5.2. Experimental environment

5.3. Performance comparison

5.3.1. Accuracy, loss, parameter, and weight size comparison

5.3.2. mAP comparison

5.3.3. Comparison of ELU and ReLU

6. Application of this scheme in agriculture

将数据集划分为9:1,8:2,7:3,体现其泛化能力强大。

6.1. Dataset preparation

6.2. Performance comparison

6.3. Performance comparison

7. Conclusion

本研究提出了 L-Net,这是一种专为低计算能力设备设计的轻量级卷积神经网络。L-Net具有优化的网络结构和较少的参数,使其在计算效率上表现出色,并且非常适合资源受限环境。它引入了 R-ECA 模块,该模块将简化的残差学习和注意机制相结合,以解决轻量级深度学习中存在的通道交互差异和梯度消失的挑战。此外,L-Net通过将ReLU函数替换为ELU函数来增强其非线性表达能力。ELU函数在负区域具有非零梯度,从而缓解了梯度消失问题,从而提高了网络拟合非线性模式、模型准确性和稳定性的能力。大量实验结果证明了L-Net的高准确性、快速模型训练收敛和稳定性。L-Net的性能在多种数据集上进行了评估,包括公共数据集和自定义数据集,并与众所周知的神经网络进行了比较。尽管我们的模型在公共数据集上表现优于某些模型,但与MobileNetV2、ResNet20和ShuffleNet等模型相比仍存在一定的性能差距。尽管如此,考虑到模型的参数数量为390万个,并且实现了83%的准确率,总体性能仍然可以认为是令人满意的。对于我们的自定义数据集,我们将它们划分为不同的比例,并确定了每个模型的实际差异。L-Net在不同的数据集分割上表现相对一致,优于大多数比较的模型。这表明该模型的性能在不同的训练和测试集比例下变化最小。此外,该模型在面对数据波动或变化时表现出稳定性,展示了在不同数据规模下的可靠性能。模型在各种大小的数据集上保持一致的性能进一步表明了其对不同数据分布的强大泛化能力。在未来,我们计划通过减少参数数量来提高L-Net的准确性和鲁棒性。此外,我们还计划加入其他性能指标,并优化该模型以在移动设备上部署,从而提高其实用性和多功能性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值