第五周深度学习总结

YYH-

已于 2022-08-10 21:47:29 修改

阅读量736

点赞数

文章标签：深度学习人工智能

于 2022-08-10 17:05:10 首次发布

本文链接：https://blog.csdn.net/weixin_72552113/article/details/126257707

版权

ShuffleNet

ShuffleNet V1

GConv虽然能够减少参数与计算量，但是GConv中不同组之间信息没有交流。ShuffleNet V1网络增加了channel shuffle的思想，ShuffleNet Unit中全是GConv和DWConv。如下图：

经过分析发现在ResNeXt网络中1×1卷积的计算量占据了大部分，故ShuffleNet V1网络中都换成了1×1GConv，如下图：

ShuffleNet V1网络结构

网络参数对比

ShuffleNet V2

网络的计算复杂度不能仅仅只看FLOPs，在ShuffleNet V2的论文中提出了四条设计高效网络的准则，并设计了新的block运用在ShuffleNet V2网络中。

模型速度影响因素：

直接的：speed
间接的：FLOPs
其他因素：memory access cost、degree of parallelism、platform

设计高效网络四条准则

G1: Equal channel width minimizes memory access cost (MAC)

G2: Excessive group convolution increases MAC

G3: Network fragmentation reduces degree of parallelism

G4: Element-wise operations are non-negligible

总结：1）使用平衡的convolutions(即输入输出特征矩阵channel比值尽可能为1)

2）注意组卷积的计算成本

3）减少网络的碎片化程度

4）减少使用Element-wise operations

ShuffleNet V2网络设计

EfficientNet

Google团队2019发表的文章，本文提出的EfficientNet网络在之前的一些论文中，有的会通过增加网络的width即增加卷积核的个数（增加特征矩阵的channels）来提升网络的性能如图(b)所示，有的会通过增加网络的深度即使用更多的层结构来提升网络的性能如图(c)所示，有的会通过增加输入网络的分辨率来提升网络的性能如图(d)所示。而在本篇论文中会同时增加网络的width、网络的深度以及输入网络的分辨率来提升网络的性能如图(e)所示。

根据以往的经验，增加网络的深度depth能够得到更加丰富、复杂的特征并且能够很好的应用到其它任务中。但网络的深度过深会面临梯度消失，训练困难的问题。
增加网络的width能够获得更高细粒度的特征并且也更容易训练，但对于width很大而深度较浅的网络往往很难学习到更深层次的特征。
增加输入网络的图像分辨率能够潜在得获得更高细粒度的特征模板，但对于非常高的输入分辨率，准确率的增益也会减小。并且大分辨率图像会增加计算量。

网络详细结构

MBConv结构

MBConv其实就是MobileNetV3网络中的InvertedResidualBlock，但也有些许区别。一个是采用激活函数不一样（EfficientNet的MBConv中使用的都是Swish激活函数），另一个是在每MBConv中都加入了SE（Squeeze-and-Excitation）模块。

SE模块如下所示，由一个全局平均池化，两个全连接层组成。

Transformer里的 multi-head self-attention

self-attention

以上三幅图的便是self-attention的内容，总结下来就是下面的公式：

Multi-Head Self-Attention

如上图所示，head=2的情况，将q,k,v分别分解成两个部分，并组合成两个head。通过上述方法就能得到每个head的Q,K,V的值。

代码练习

使用VGG模型进行猫狗大战

数据处理

datasets 是 torchvision 中的一个包，可以用做加载图像数据。它可以以多线程（multi-thread）的形式从硬盘中读取数据，使用 mini-batch 的形式，在网络训练中向 GPU 输送。在使用CNN处理图像时，需要进行预处理。图片将被整理成 224×224×3 的大小，同时还将进行归一化处理。