目录 问题概述 根本原因:交叉熵 常见原因之一:Sigmoid 出现问题原因及解决方法 1 当输入与输出确实不相关时 2 当模型初始权重相同且较大,且学习率较小时 3 当模型的输入本身就很小,或者模型初始化权重很小时 4 特征不明显,导致长时间训练不拟合 5 使用sigmoid或tanh这类函数时,或输入特征较大使得收敛更困难 阅读原文(https://blog.woyou.cool/post/74) 这种情况一般是在使用了交叉熵的二分类问题上容易出现,同样的,也可能出现loss收敛到1.0986、1.386等等,其实他们就是log(1/2)、log(1/3)、log(1/4)。。。 问题概述 根本原因:交叉熵 若q=0.5则对于01分布来说,H=log(0.5)=0.69,同理对于n分类问题来说,loss可能会收敛到log(1/n),这都是因为各个类别拟合概率相近导致的,再看看为什么会导致各类别拟合概率相似