轻量化网络：ShuffleNet v1解析

最新推荐文章于 2024-06-04 15:56:21 发布

zhw864680355

最新推荐文章于 2024-06-04 15:56:21 发布

阅读量2.7k

点赞数

分类专栏：深度学习轻量化网络

原文链接：https://www.sohu.com/a/156480212_473283

版权

深度学习同时被 2 个专栏收录

58 篇文章 3 订阅

订阅专栏

轻量化网络

9 篇文章 4 订阅

订阅专栏

原文： ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices

论文链接：https://arxiv.org/abs/1707.01083

开源代码增加自定义layer（caffe版本）：https://github.com/farmingyard/ShuffleNet

https://github.com/camel007/Caffe-ShuffleNet

开源代码（tensorflow版本）：https://github.com/MG2033/ShuffleNet

原文链接：https://www.sohu.com/a/156480212_473283

现代卷积神经网络的绝大多数计算量集中在卷积操作上，因此高效的卷积层设计是减少网络复杂度的关键。其中，稀疏连接（sparse connection）是提高卷积运算效率的有效途径，当前不少优秀的卷积模型均沿用了这一思路。例如，谷歌的”Xception“网络[1]引入了”深度可分离卷积”的概念，将普通的卷积运算拆分成逐通道卷积（depthwise convolution）和逐点卷积（pointwise convolution）两部进行，有效地减少了计算量和参数量；而Facebook的“ResNeXt”网络[2]则首先使用逐点卷积减少输入特征的通道数，再利用计算量较小的分组卷积（group convolution）结构取代原有的卷积运算，同样可以减少整体的计算复杂度。

ShuffleNet网络结构同样沿袭了稀疏连接的设计理念。作者通过分析Xception和ResNeXt模型，发现这两种结构通过卷积核拆分虽然计算复杂度均较原始卷积运算有所下降，然而拆分所产生的逐点卷积计算量却相当可观，成为了新的瓶颈。例如对于ResNeXt模型逐点卷积占据了93.4%的运算复杂度。可见，为了进一步提升模型的速度，就必须寻求更为高效的结构来取代逐点卷积。

受ResNeXt的启发，作者提出使用分组逐点卷积（group pointwise convolution）来代替原来的结构。通过将卷积运算的输入限制在每个组内，模型的计算量取得了显著的下降。然而这样做也带来了明显的问题：在多层逐点卷积堆叠时，模型的信息流被分割在各个组内，组与组之间没有信息交换（如图 1(a)所示）。这将可能影响到模型的表示能力和识别精度。

图 1 逐点卷积与通道重排操作

因此，在使用分组逐点卷积的同时，需要引入组间信息交换的机制。也就是说，对于第二层卷积而言，每个卷积核需要同时接收各组的特征作为输入，如图 1(b)所示。作者指出，通过引入“通道重排”（channel shuffle，见图 1(c)）可以很方便地实现这一机制；并且由于通道重排操作是可导的，因此可以嵌在网络结构中实现端到端的学习。

ShuffleNet网络结构

基于分组逐点卷积和通道重排操作，作者提出了全新的ShuffleNet结构单元，如图2所示。该结构继承了“残差网络”（ResNet）[3]的设计思想，在此基础上做出了一系列改进来提升模型的效率：首先，使用逐通道卷积替换原有的3x3卷积，降低卷积操作抽取空间特征的复杂度，如图2(a)所示；接着，将原先结构中前后两个1x1逐点卷积分组化，并在两层之间添加通道重排操作，进一步降低卷积运算的跨通道计算量。最终的结构单元如图2(b)所示。类似地，文中还提出了另一种结构单元（图2(c)），专门用于特征图的降采样。

借助ShuffleNet结构单元，作者构建了完整的ShuffeNet网络模型。它主要由16个ShuffleNet结构单元堆叠而成，分属网络的三个阶段，每经过一个阶段特征图的空间尺寸减半，而通道数翻倍。整个模型的总计算量约为140MFLOPs。通过简单地将各层通道数进行放缩，可以得到其他任意复杂度的模型。

另外可以发现，当卷积运算的分组数越多，模型的计算量就越低；这就意味着当总计算量一定时，较大的分组数可以允许较多的通道数，作者认为这将有利于网络编码更多的信息，提升模型的识别能力。

图 2 ShuffleNet结构单元

网络结构

原始版本的ShuffleNet的结构如下：（为了保证参数量基本一致，当使用不同group时作者调整了feature map的数量）

实验结果

作者通过一系列在ImageNet 2016分类数据集上的控制实验说明了ShuffleNet结构单元每个部件存在的必要性、对于其他网络结构单元的优越性。接着作者通过在MS COCO目标检测上的结果说明模型的泛化能力。最后，作者给出了在ARM计算平台上ShuffleNet实际运行时的加速效果。

分组化逐点卷积

作者对于计算复杂度为140MFLOPs 、 40MFLOPs、13MFLOPs的ShuffleNet模型，在控制模型复杂度的同时对比了分组化逐点卷积的组数在1~8时分别对于性能的影响。从表1中可以看出，带有分组的(g>1)的网络的始终比不带分组(g=1)的网络的错误率低。作者观察到对于较小的网络(如ShuffleNet 0.25x)，较大的分组会得到更好结果，认为更宽的通道对于小网络尤其重要。受这点启发，作者移除了网络第三阶段的两个结构单元，将节省下来的运算量用来增加网络宽度后，网络性能进一步提高。

表1 组数对分类错误率的影响

通道重排

通道重排的目的是使得组间信息能够互相交流。在实验中，有通道重排的网络始终优于没有通道重排的网络，错误率降低0.9%~4.0%。尤其是在组数较大时(如g=8)，前者远远优于后者。

对比其他结构单元

作者使用一样的整体网络布局，在保持计算复杂度的同时将ShuffleNet结构单元分别替换为VGG-like、ResNet、Xception-like和ResNeXt中的结构单元，使用完全一样训练方法。表2中的结果显示在不同的计算复杂度下，ShuffleNet始终大大优于其他网络。

表2 和其他网络结构的分类错误率对比（百分制）

对比MobileNets和其他的一些网络结构

最近Howard et al. 提出了MobileNets [4]，利用[1]里的逐通道卷积的设计移动设备上高效的网络结构。虽然ShuffleNet是为了小于150MFLOPs的模型设计的，在增大到MobileNet的500~600MFLOPs量级，依然优于MobileNet。而在40MFLOPs量级，ShuffleNet比MobileNet错误率低6.7%。详细结果可以从表3中得到。

表3 ShuffleNet和MobileNet对比

和其他一些网络结构相比，ShuffleNet也体现出很大的优势。从表4中可以看出，ShuffleNet 0.5x仅用40MFLOPs就达到了AlexNet的性能，而AlexNet的计算复杂度达到了720MFLOPs，是ShuffleNet的18倍。

表4 ShuffleNet和其他网络结构计算复杂度的对比

zhw864680355

关注

0
点赞
踩
16

收藏

觉得还不错? 一键收藏
2
评论
轻量化网络：ShuffleNet v1解析

原文：ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices论文链接：https://arxiv.org/abs/1707.01083开源代码增加自定义layer（caffe版本）：https://github.com/farmingyard/ShuffleNet ...
复制链接

扫一扫