如果有错误,欢迎指正。
交叉熵应该是从极大似然估计从推导出来的,并且使用的log似然的形式是为了提高反向传播的速度和防止不收敛。
具体内容可以参考参考文献。
这篇参考文献对MSE的缺点作出了分析(主要的缺点是反向传播的速度太慢,可能导致收敛到局部最优)。
参考文献:
Supervised Learning of Probability Distributions by Neural Networks
如果有错误,欢迎指正。
交叉熵应该是从极大似然估计从推导出来的,并且使用的log似然的形式是为了提高反向传播的速度和防止不收敛。
具体内容可以参考参考文献。
这篇参考文献对MSE的缺点作出了分析(主要的缺点是反向传播的速度太慢,可能导致收敛到局部最优)。
参考文献:
Supervised Learning of Probability Distributions by Neural Networks