1、为什么分类用交叉熵而不用MSE(均方误差mean squared error --欧氏距离)
分类问题的目标变量是离散的,而回归是连续的数值。因此分类问题用 cross entropy,回归问题用 mean squared error。
分类问题总的来说,分类问题需要用 one hot 的形式计算个 label 的概率,然后用 argmax 来决定分类。计算概率的时候通常用 softmax。参考流程:计算 loss-> 计算 softmax->argmax。
用 MSE 计算 loss 的问题在于,通过 Softmax 输出的曲线是波动的,有很多局部的极值点。 即,非凸优化问题 (non-convex),既然是非凸的问题,当然就谈不到用梯度下降法优化了。
而 cross entropy 计算 loss,则依旧是一个凸优化问题,用梯度下降求解时,凸优化问题有很好的收敛特性。
公式推倒证明:https://blog.csdn.net/liuweiyuxiang/article/details/90707375
参考其他说法:https://www.zhihu.com/question/314185485/answer/613688732
2、损失函数正则项的本质是什么?
(正则化可以看做是损失函数的惩罚项。所谓『惩罚』是指对损失函数中的某些参数做一些限制。惩罚回归,约束极值,超参数不可求扔掉常数项.)