神经网络调参：loss 问题汇总（震荡/剧烈抖动，loss不收敛/不下降）

for name, parms in model.named_parameters():
	print('-->name:', name, '-->grad_requirs:', parms.requires_grad, '--weight', torch.mean(parms.data), ' -->grad_value:', torch.mean(parms.grad))

主要有以下几个原因：

1.1、learning rate设大了会带来跑飞（loss突然一直很大）的问题

这个是新手最常见的情况——为啥网络跑着跑着看着要收敛了结果突然飞了呢？可能性最大的原因是你用了relu作为激活函数的同时使用了softmax或者带有exp的函数做分类层的loss函数。当某一次训练传到最后一层的时候，某一节点激活过度（比如100），那么exp(100)=Inf，发生溢出，bp后所有的weight会变成NAN，然后从此之后weight就会一直保持NAN，于是loss就飞起来辣。我的depth estimation相关项目的loss曲线，如下：

可以看出跑飞了，（幸lr设的并不是非常大所以又拉了回来）。如果lr设的过大会出现跑飞再也回不来的情况。这时候你停一下随便挑一个层的weights看一看，很有可能都是NAN了。对于这种情况建议用二分法尝试。0.1~0.0001.不同模型不同任务最优的lr都不一样。1.

1.2、数据库太小一般不会带来不收敛的问题

只要你一直在train总会收敛（rp问题跑飞了不算）。反而不收敛一般是由于样本的信息量太大导致网络不足以fit住整个样本空间。样本少只可能带来过拟合的问题，你看下你的training set上的loss收敛了吗？如果只是validate set上不收敛那就说明overfitting了，这时候就要考虑各种anti-overfit的trick了，比如dropout，SGD，增大minibatch的数量，减少fc层的节点数量，momentum，finetune等。

1.3、尽量用小模型。

如果数据太少尽量缩小模型复杂度。考虑减少层数或者减少kernel number。

2、模型loss 不下降

train loss与test loss结果分析

train loss 不断下降，test loss不断下降，说明网络仍在学习;
train loss 不断下降，test loss趋于不变，说明网络过拟合;
train loss 趋于不变，test loss不断下降，说明数据集100%有问题;
train loss 趋于不变，test loss趋于不变，说明学习遇到瓶颈，需要减小学习率或批量数目;
train loss 不断上升，test loss不断上升，说明网络结构设计不当，训练超参数设置不当，数据集经过清洗等问题。

相关链接：以下两个链接必须看一下

参考链接1：神经网络训练与注意点

2、Loss 函数不收敛

下面，这段在使用caffe的时候遇到了两个问题都是在训练的过程中loss基本保持常数值，特此记录一下。

2.1、loss等于87.33不变

loss等于87.33这个问题是在对Inception-V3网络不管是fine-tuning还是train的时候遇到的，无论网络迭代多少次，网络的loss一直保持恒定。

查阅相关资料以后发现是由于loss的最大值由FLT_MIN计算得到，FLT_MIN是1.17549435e−38F1.17549435e−38F其对应的自然对数正好是-87.3356，这也就对应上了loss保持87.3356了。

这说明softmax在计算的过程中得到了概率值出现了零，由于softmax是用指数函数计算的，指数函数的值都是大于0的，所以应该是计算过程中出现了float溢出的异常，也就是出现了inf，nan等异常值导致softmax输出为0.

当softmax之前的feature值过大时，由于softmax先求指数，会超出float的数据范围，成为inf。inf与其他任何数值的和都是inf，softmax在做除法时任何正常范围的数值除以inf都会变成0.然后求loss就出现了87.3356的情况。

解决办法

由于softmax输入的feature由两部分计算得到：一部分是输入数据，另一部分是各层的权值等组成
减小初始化权重，以使得softmax的输入feature处于一个比较小的范围
降低学习率，这样可以减小权重的波动范围
如果有BN(batch normalization)层，finetune时最好不要冻结BN的参数，否则数据分布不一致时很容易使输出值变得很大(注意将batch_norm_param中的use_global_stats设置为false )。
观察数据中是否有异常样本或异常label导致数据读取异常
本文遇到的情况采用降低学习率的方法，learning rate设置为0.01或者原来loss的1/51/5或者1/101/10。

3、原因解决方法总结

训练网络的时候loss一直居高不下或者准确度时高时低，震荡趋势

首先你要保证训练的次数够多，不要以为一百两百次就会一直loss下降或者准确率一直提高，会有一点震荡的。只要总体收敛就行。若训练次数够多（一般上千次，上万次，或者几十个epoch）没收敛，则试试下面方法：

无过拟合情况

3.1、数据和标签---标签错乱

数据分类标注是否准确？数据是否干净？数据的输入是否正常，data和label是否一致（标签错乱）？

数据库太小一般不会带来不收敛的问题，只要你一直在train总会收敛（rp问题跑飞了不算）。反而不收敛一般是由于样本的信息量太大导致网络不足以fit住整个样本空间。样本少只可能带来过拟合的问题

3.2、学习率设定不合理

选择合适的优化器和学习速率。我们需要手动调整学习率，首先选择一个合适的初始学习率，当训练不动之后，稍微降低学习率，然后再训练一段时间，这时候基本上就完全收敛了

在自己训练新网络时，可以从0.1开始尝试，如果loss不下降，那就降低，除以10，用0.01尝试，一般来说0.01会收敛，不行的话就用0.001. 学习率设置过大，很容易震荡。不过刚刚开始不建议把学习率设置过小，尤其是在训练的开始阶段。在开始阶段我们不能把学习率设置的太低否则loss不会收敛。我的做法是逐渐尝试，从0.1,0.08,0.06,0.05 ......逐渐减小直到正常为止，

有的时候候学习率太低走不出低谷，把冲量提高也是一种方法，适当提高mini-batch值，使其波动不大。

3.3、Batch size对模型训练有什么影响？其大小是怎么选取的？

一般来说，在合理的范围之内，越大的 batch size 使下降方向越准确，震荡越小

batch size的问题一般是较大会有比较好的效果，一是更快收敛，二是可以躲过一些局部最优点。batch size增大，处理相同的数据量速度加快，越大的 batch size 使下降方向越准确，震荡越小；但是也不是一味地增加batch size就好，太大的batch size 容易陷入局部最优的情况，泛化性不好。较小的 bath size 引入的随机性更大，难以达到收敛，但是可能不会陷入局部最优，另一方面，当类别较多时，可能会使得网络有明显的震荡，所以，Batch size过小会使Loss曲线振荡的比较大。

因此基于上述两种情况，batch size要调试到合适的数值；过大的batchsize会让网络收敛到不好的局部最优点；过小的batchsize训练速度慢，训练不收敛；具体的batch size需要根据训练集数据内容和数量进行调试。大小一般按照2的次幂规律选择，这是为了硬件计算效率考虑的。

3.4、网络设定不合理

网络架构的选择，一般是越深越好，也分数据集。并且用不用在大数据集上pre-train的参数也很重要的。

如果做很复杂的分类任务，却只用了很浅的网络，可能会导致训练难以收敛，换网络换网络换网络，重要的事情说三遍，或者也可以尝试加深当前网络。神经网络的拟合能力不够。增加神经网络的层数。

3.5、是否使用合适的activation function

一般来说，都几乎使用RELU作为全局activation function，尽可能少的使用sigmoid activation function（output范围太小），容易造成梯度弥散、消失

3.6、是否选择合适的优化算法

一般来说，我都使用Adam作为优化器（默认参数）。如果经过仔细调整的SGD算法性能可能更好，但是时间上不太允许这样做。

3.7、选择合适的损失函数

损失函数相当于模型拟合程度的一个评价指标，如果损失函数选取不当，导致学习难度过大，就容易欠拟合。考虑降低损失函数的学习难度。

在深度学习里面，不同的loss针对的任务是有不同的，有些loss函数比较通用例如L1/L2等，而如perceptual loss则比较适合在图像恢复/生成领域的任务上。当loss出现问题的适合，想一想，是不是loss设置的有问题，别人在此领域的任务的方法是否也使用和你一样的loss。

3.8、数据归一化

神经网络中对数据进行归一化是不可忽略的步骤，网络能不能正常工作，还得看你有没有做归一化，一般来讲，归一化就是减去数据平均值除以标准差，通常是针对每个输入和输出特征进行归一化

3.9、正则化过度

正则化过度，开始训练时可以考虑一个小的正则化系数。过拟合后，再根据训练情况进行调整。

3.10、样本不均衡你会怎么处理(重采样/Focal loss)

样本不均衡的方法无非有两种，一种是增强训练数据，另外一种是采用focal loss。

过拟合情况

通过提前终止确定最优模型：在训练的过程中，可能会出现训练到最后的精度竟然还不如前面的epoch高，那么可以直接终止训练，然后将之前的model作为best model，之后使用这个model即可
Regularization(正则化)：通过正则化进行约束，一般的方法可以通过优化器的权重衰减方法，即训练到后期，通过衰减因子使权重的梯度下降越来越缓慢。或者BN、Dropout以及L1/L2
调整网络结构：一句话，你的网络结构出了问题，是错误的，没有科学性的
增加训练数据量：数据集太小太少，且没有进行数据增强，就可能导致过拟合