深度学习调优深度学习模型

最新推荐文章于 2024-05-03 02:51:31 发布

BigCowPeking

最新推荐文章于 2024-05-03 02:51:31 发布

阅读量6.1k

点赞数 3

分类专栏： Caffe参数调优人脸检测深度学习通用策略文章标签：深度学习调优

人脸检测同时被 3 个专栏收录

57 篇文章 7 订阅

订阅专栏

深度学习通用策略

35 篇文章 0 订阅

订阅专栏

Caffe参数调优

30 篇文章 2 订阅

订阅专栏

前沿的迁移学习方向

1、Reinforcement Transfer Learning

怎么迁移智能体学习到的知识：比如我学会了一个游戏，那么我在另一个相似的游戏里面也是可以应用一些类似的策略的。

2、Transitive Transfer Learning

传递性迁移学习，两个domain之间如果相隔得太远，那么我们就插入一些intermediate domains，一步步做迁移。

3、Source-Free Transfer Learning

不知道是哪个源领域的情况下如何进行迁移学习。

二、假如你目前有了一些代表性数据集，进入了温饱阶段，恨不得压榨出每一滴数据的价值，又害怕用力过以偏概全（俗称过拟合）。那么我们可能需要如下技巧。

严防死守过拟合（所谓尽人事，听……）

深度学习由于超参数的个数比较多，训练样本数目相对超参数来说略显不足，一不小心就容易发生过拟合。从本质上来说，过拟合是因为模型的学习能力太强，除了学习到了样本空间的共有特性外，还学习到了训练样本集上的噪声。因为这些噪声的存在，导致了模型的泛化性能下降。

深度学习中有几种较为常用的改善过拟合方法：

1、data augmentation

data augmentation即数据增强，数据增强其实是增加训练样本的一种方法。以人脸识别为例，对于人脸识别的数据增强，一般有随机裁剪，随机加光照，随机左右翻转等。

通过类似的手段，无论是图像处理，还是语音或者自然语言处理，我们都能有效地增加样本数量。更多的训练样本意味着模型能够学到更多的本质特征，具有对于噪声更好的鲁棒性，从而具有更好的泛化性能，能够有效地避免过拟合。

2、early stopping

early stopping，顾名思义，就是在训练次数没有达到预先设定的最大训练次数时，我们就让网络停止训练。采用early stopping需要我们在训练集合上划分出一小部分（大概10%~30%吧）作为验证集，验证集不参与训练，可以视为是我们知道结果的测试集。我们通过实时监控模型在验证集上的表现来（实时监控并不意味着每次迭代都去监控，可以每1000次去观察一次），一旦模型在验证集上的表现呈现下降趋势，我们就停止训练，因为再训练下去模型的泛化性能只会更差。

而实际训练中，我们不可能一直坐在电脑旁观察验证集的准确率，更一般的做法是每隔一段时间（比如每1000次迭代）就保存一次模型，然后选择在验证集上效果最好的模型作为最终的模型。

3、增加Dropout层

Dropout（https://www.cs.toronto.edu/~hinton/absps/JMLRdropout.pdf ）原理非常简单，Dropout t的作用对象是layer，对于某一层中的每个节点，Dropout技术使得该节点以一定的概率p不参与到训练的过程中（即前向传导时不参与计算，bp计算时不参与梯度更新）。

如上图所示，实验证明了，Dropout的效果非常爆炸，对于模型训练有非常好的效果。

为什么Dropout能起到这么大作用呢？

一个原因是通过Dropout，节点之间的耦合度降低了，节点对于其他节点不再那么敏感了，这样就可以促使模型学到更加鲁棒的特征；

第二个是Dropout 层中的每个节点都没有得到充分的训练（因为它们只有一半的出勤率），这样就避免了对于训练样本的过分学习；

第三个原因是在测试阶段，Dropout 层的所有节点都用上了，这样就起到了ensemble的作用，ensemble能够有效地克服模型的过拟合。

在实际的模型训练中，ropout在一般的框架中初始默认的0.5概率的丢弃率是保守的选择，如果模型不是很复杂，设置为0.2就够了。

不过也要注意到Dropout的缺点：

（1）Dropout是一个正则化技术,它减少了模型的有效容量。为了抵消这种影响,我们必须增大模型规模。不出意外的话,使用Dropout时最佳验证集的误差会低很多,但这是以更大的模型和更多训练算法的迭代次数为代价换来的。对于非常大的数据集,正则化带来的泛化误差减少得很小。

在这些情况下,使用Dropout和更大模型的计算代价可能超过正则化带来的好处。

（2）只有极少的训练样本可用时,Dropout不会很有效。

4、weight penality（L1&L2）

第四种常用的办法就是weight decay,weight decay通过L1 norm和L2 norm强制地让模型学习到比较小的权值。

这里有两个问题：

（1）为什么L1和L2 norm能够学习到比较小的权值？

（2）为什么比较小的权值能够防止过拟合？

对于第一个问题：

首先看一下L1和L2的定义：

其中C0为未加上惩罚项的代价函数。那么L1和L2形式的代价函数会如何影响w的值呢？

1）未增加惩罚项w的更新　

2）L1下的w更新，其中u为学习率

3）L2下的w更新，其中u为学习率

由上面的（1）（2）（3）可以看出，加上惩罚项之后，w明显减少得更多。L1是以减法形式影响w，而L2则是以乘法形式影响w，因此L2又称为weight decay。

对于第二个问题：

过拟合的本质是什么呢？无非就是对于非本质特征的噪声过于敏感，把训练样本里的噪声当作了特征，以至于在测试集上的表现非常稀烂。当权值比较小时，当输入有轻微的改动（噪声）时，结果所受到的影响也比较小，所以惩罚项能在一定程度上防止过拟合。

除了千方百计增加数据多样性，还要增加模型的多样性

1、试试不断调整隐层单元和数量

调模型，要有点靠天吃饭的宽容心态，没事就调调隐层单元和数量，省的GPU闲着，总有一款适合你。

一般来说，隐层单元数量多少决定了模型是否欠拟合或过拟合，两害相权取其轻，尽量选择更多的隐层单元，因为可以通过正则化的方法避免过拟合。与此类似的，尽可能的添加隐层数量，直到测试误差不再改变为止。

2、试试两个模型或者多个模型concat

比如，两种不同分辨率的图像数据集，分别训练出网络模型a和网络模型b，那么将a和b的瓶颈层concat在一起，用一个全连接层（或者随便你怎么连，试着玩玩没坏处）连起来，，输入concat后的图片，训练结果可能比单个网络模型效果要好很多哦。

loss函数那些事儿

这里只从模型调优的tric角度来介绍下。

Softmax-loss算是最常用的loss方法了，但是Softmax-loss不会适用于所有问题。比如在数据量不足够大的情况下，softmax训练出来的人脸模型性能差，ECCV 2016有篇文章（A Discriminative Feature Learning Approach for Deep Face Recognition）提出了权衡的解决方案。通过添加center loss使得简单的softmax就能够训练出拥有内聚性的特征。该特点在人脸识别上尤为重要，从而使得在很少的数据情况下训练出来的模型也能有很好的作用。此外，contrastive-loss和triplet-loss也有其各自的好处，需要采样过程，有兴趣的可以多了解下。

花式调优

1、batch size设置

batch size一般设定为2的指数倍，如64，128，512等，因为无论是多核CPU还是GPU加速，内存管理仍然以字节为基本单元做硬件优化，2的倍数设置将有效提高矩阵分片、张量计算等操作的硬件处理效率。

不同batch size的模型可能会带来意想不到的准确率提升，这个调节其实是有一定规律和技巧的。

2、激励函数

激励函数为模型引入必要的非线性因素。Sigmoid函数由于其可微分的性质是传统神经网络的最佳选择，但在深层网络中会引入梯度消失和非零点中心问题。Tanh函数可避免非零点中心问题。ReLU激励函数很受欢迎，它更容易学习优化。因为其分段线性性质，导致其前传，后传，求导都是分段线性，而传统的sigmoid函数，由于两端饱和，在传播过程中容易丢弃信息。ReLU激励函数缺点是不能用Gradient-Based方法。同时如果de-active了，容易无法再次active。不过有办法解决，使用maxout激励函数。

3、权重初始化

权重初始化常采用随机生成方法以避免网络单元的对称性，但仍过于太过粗糙，根据目前最新的实验结果，权重的均匀分布初始化是一个最优的选择，同时均匀分布的函数范围由单元的连接数确定，即越多连接权重相对越小。
Tensorflow的 word2vec程序中初始化权重的例子，权重初始值从一个均匀分布中随机采样：