导致val_loss比loss低很多的几个原因
1、学习率设置问题
学习率设置太大会造成网络不能收敛,在最优值附近徘徊,也就是说直接跳过最低的地方跳到对称轴另一边,从而忽视了找到最优值的位置;学习率设置太小,网络收敛非常缓慢,会增大找到最优值的时间,也就是说从山坡上像蜗牛一样慢慢地爬下去。虽然设置非常小的学习率是可以到达,但是这很可能会进入局部极值点就收敛,没有真正找到的最优解。
学习率一般可以设为0.001、0.0001
2、网络模型过拟合
搭建的模型层数过多,网络过于复杂;数据集又比较小;激活函数没有使用正确。
解决办法:简化模型(加入Flatten层、dropout层,利用正则化);换一个大的数据集;relu后面一般不能是softmax,relu由于对于很大的数值直接复制,所以会对softmax产生不好的影响,从而输出不好的结果。
3、在设置验证集比例前没有对数据集进行打乱
model.add(validation_split=0.x)
这只会分配验证集的比例,并不会打乱数据,所以就可能出现训练集跟验证集联系并不大。相当于你的数据前一半标签全是1 ,后一半全是0。在拆分数据集之前将数据集进行打乱。
4、batch_size的值
batch_size一般是2的倍数(但也可以不是),batch normalization需要batch size至少是16,一般可以令其为64、128、256等进行测试。