为什么使用交叉熵作为损失函数

最新推荐文章于 2024-03-22 12:49:52 发布

zju_huster

最新推荐文章于 2024-03-22 12:49:52 发布

阅读量6.2k

点赞数 10

本文链接：https://blog.csdn.net/zju_huster/article/details/97394646

版权

为什么使用交叉熵作为损失函数

为什么交叉熵可以作为损失函数
- 交叉熵损失函数的数学原理
为什么在分类问题中一般使用交叉熵而不使用均方误差
总结
参考资料

之前在学习分类问题是，突然有个疑问，为什么损失函数变成使用交叉熵了，而不是所熟悉的均方差MSE？
关于这个问题，我查了很多资料，对于这个问题的回答各式各样的都有，所以结合自己的理解在此做一个总结。我觉得对于这个问题可以分成两步来看， 一是为什么交叉熵可以作为损失函数，二是为什么在分类问题中一般使用交叉熵而不使用均方误差。

为什么交叉熵可以作为损失函数

交叉熵的定义如下：
$L_i = -[y^{(i)}log\hat{y}^{(i)} + (1-y^{(i)})log(1-\hat{y}^{(i)})]$
大多数情况下我们都是直接拿来用，但是它是怎么来的？为什么能表征真实样本标签和预测概率之间差距？也许很多人还不是很清楚，没关系，接下来就慢慢解读。

交叉熵损失函数的数学原理

以二分类问题为例，逻辑回归、神经网络等模型，真实样本标签为[0,1]，分别表示负类和正类。模型最后会通过一个Sigmod函数，输出一个概率值，这个概率值反映了预测为正类的可能性：概率值越大，样本为正类的可能性越大。
Sigmod函数的表达式和图形表示如下：
$g(s)=\frac{1}{1+e^{-s}}$

其中s是模型上一层的输出，Sigmod函数特点为：当s为0时，g(s)=0.5；s >> 0时，g $\approx$ 1,;s << 0时，g $\approx$ 0。显然，g(s)将前一级的线性输出映射到[0,1]之间的数值概率上。这里的g(s)就是交叉熵中的模型预测输出。
之前说过，模型预测输出表征了当前样本为正类（即标记值为1）的概率：
$\hat{y} = P(y=1|x)$

所以，当前样本为负类的概率可以表示为：
$1-\hat{y} = P(y=0|x)$
    重点来了，从极大似然的角度来看，把上述两种情况整合到一起：
$P(y|x)=\hat{y}^{y}*(1-\hat{y})^{1-y}$
不懂极大似然估计也没关系，可以这么看：
    当真实样本标签为 $y = 0$ 时，上面式子第一项为1，概率等式转化为：
$P(y=0|x)=1-\hat{y}$
    当真实样本标签为 $y = 1$ 时，上米昂式子第二项为1，概率等式转化为：
$P(y=1|x)=\hat{y}$
    两种情况下概率表达式跟之前完全一致，，只不过把两种情况整合在一起了。
重点看一下整合之后的概率表达式，我们希望的是概率 $P (y ∣ x)$ 越大越好。首先，我们对P(y|x)引入log函数，因为log运算不会对函数本身的单调性产生影响， $P (y ∣ x)$ 取最大时， $l o g P (y ∣ x)$ 也是最大。如下：
$log(\hat{y}^{y}*(1-\hat{y})^{1-y})=ylog\hat{y}+(1-y)log(1-\hat{y})$
    我们希望 $l o g P (y ∣ x)$ 越大越好，反过来，只需要 $l o g P (y ∣ x)$ 的负值 $- l o g P (y ∣ x)$ 越小就可以了。那我们就引入损失函数，令 $l o s s = - l o g P (y ∣ x)$ 即可。则得到损失函数为：
$Loss=-[ylog\hat{y}+(1-y)log(1-\hat{y}]$
    上述已经推导出单个样本的损失函数，如果要计算N个样本的总损失函数，只要将N个Loss叠加起来就可以了：
$Loss=-\sum[ylog\hat{y}+(1-y)log(1-\hat{y}]$
    此时，便完整实现了交叉熵损失函数的推到过程。

为什么在分类问题中一般使用交叉熵而不使用均方误差

在回归问题中，我们常常使用均方误差（MSE）作为损失函数，其公式如下：
$\frac{1}{2m}\sum^{m}_{i=1}(y_i-\hat{y_i})$
这也比较好理解，因为回归问题要求拟合实际的值，通过MSE衡量预测值和实际值之间的误差，可以通过梯度下降的方法来优化。而分类问题，需要一系列的激活函数（sigmod、softmax）来将预测值映射到0-1之间，这时候再使用MSE的时候需要好好考虑下了，因为激活函数的缘故，将损失函数关于参数的梯度变得复杂化（不再保证凸优化问题），使用给优化带来难度。

上面复杂的推到过程，其实结论就是下面一张图：

从上述公式可以看出，w和b的梯度跟激活函数的梯度成正比，激活函数的梯度越大，w和b的大小调整越快，训练收敛的越快。而sigmod函数却是长下面这样：

在上图的绿色部分，初始值是0.98，红色部分的初始值为0.82，加入真实值是0。直观来看那么0.82下降的速度明显高于0.98，但是明明0.98的误差更大，这就导致了神经网络不能像人一样，误差越大，学习收敛越快。但是如果我们把MSE换成交叉熵会怎么样呢？

重进计算梯度：

另外sigmod有一个很好的性质：

这样损失函数关于参数的偏导数中就不再含有sigmod函数的导数了，有的是sigmod的值与实际值之间的差，也就满足了我们之前所说的错误越大，下降越快。这也就是在分类问题中常用cross entropy而不是MSE的原因了！

总结

    由于神经网络、logistic回归等一般存在sigmod函数作为激活函数，因此若使用MSE作为损失函数时，损失函数关于待求参数的导数中会出现sigmod的导数，而sigmod函数的导数是关于原函数的二次函数（以 $\sigma(z)$ 为自变量时，导数为 $\sigma(z)(1-\sigma(z))$ ）,这会使得偏导数变得复杂，不利于参数的更新（可能出现）。
    而交叉熵求导时，由于log函数的存在，会使得分母上出现相应的二次方项，消元后，梯度是关于 $y-\hat{y}$ 的线性函数，即误差越大，参数更新幅度越大。
    更直观的可以这样理解，令预测值与真实值的差 $(y - a)$ 为A, $y = 1$ 为例，那么 $\sigma{\prime}(z) = \sigma(z)(1-\sigma(z))$ 转化为 $A (1 - A)$ ,所以单样本损失函数的梯度 $(a-y)\sigma{\prime}(z)x$ 转化为关于误差A的函数 $A^2(1-A)x$ ,是一个关于A的三次函数，无法实现A越大，梯度越大；反观交叉熵的梯度正比于A，A越大，梯度越大，参数更新越快。

参考资料

简单的交叉熵，你真的懂了吗
 简单的交叉熵，你真的懂了吗
 为什么使用交叉熵作为损失函数

zju_huster

关注

10
点赞
踩
34

收藏

觉得还不错? 一键收藏
2
评论
为什么使用交叉熵作为损失函数

为什么使用交叉熵作为损失函数为什么交叉熵可以作为损失函数交叉熵损失函数的数学原理    之前在学习分类问题是，突然有个疑问，为什么损失函数变成使用交叉熵了，而不是所熟悉的均方差MSE？    关于这个问题，我查了很多资料，对于这个问题的回答各式各样的都有，所以结合自己的理解在此做一个总结。我觉得对于这个问题可以分成...
复制链接

扫一扫