最近在用CNN作为主干网络来训练二分器时,出现了loss停留在0.69左右,acc在0.5左右的情况,在这里记录一下解决方法。
首先是我在网上收集到的方法以及我最终的解决方法。
方法1:查看数据有没有问题,看输入的数据及label是否正确。
方法2:数据没有问题的话,再查看一下输入到网络前你的data是否进行了归一化处理,如果数据没有进行归一化处理模型也容易爆炸无法收敛。
方法3:如何前面两个没有出现问题的话很大概率就是数据分布的问题,这也是一般模型无法收敛的重要原因,其解决方法就是在网络的最后一层的FC层前面加上一层BN层调整数据分布。
方法4:还是不行的话,还可以试试改变一下的bias,因为也可能因为初始bias都为0,网络太深导致梯度消失的出现。
如果上面的方法的都无法解决问题的话,那多半就是训练的问题了,网络没有正常反向传播,显然我就是属于这种情况。
可是使用下面这个代码来查看网络的参数情况,看每个batch后网络参数是否更新:
for name, param in model.named_parameters():
print(name, " ", param)
其中name是每层网络的名字,param为其对应的参数。 经过观察发现,原来其网络参数并没有更新,于是我检测了一下代码,原来loss.bcackward()部分写错了,大家见下面的代码发现问题所在了吗?
cost = loss(output1, targets) ##计算BCE损失
model.zero_grad()
loss.backward() #计算梯度回传
optimizer.step()
对没错,正确的应该是cost.backward(),backward()函数的对象是loss计算的结果cost,这里比较容易出现混淆,希望大家注意一下,将其改正后训练时loss就正常下降啦!
希望我的分享能够帮助到你!!!