逻辑回归为什么使用交叉熵而不用均方差？

对许

已于 2024-02-21 22:02:12 修改

阅读量1.2k

点赞数 23

分类专栏： # 人工智能与机器学习基础理论文章标签：逻辑回归机器学习

于 2024-02-20 17:53:11 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_55629186/article/details/136190904

版权

人工智能与机器学习同时被 2 个专栏收录

49 篇文章 0 订阅

订阅专栏

18 篇文章 1 订阅

订阅专栏

逻辑回归为什么使用交叉熵而不用均方差？或者说逻辑回归的损失函数为什么不用最小二乘？

下面主要从两个角度进行阐述：

从逻辑回归的角度出发，逻辑回归的预测值是一个概率，而交叉熵又表示真实概率分布与预测概率分布的相似程度，因此选择使用交叉熵
从均方差(MSE)的角度来说，预测值概率与欧式距离没有任何关系，并且在分类问题中，样本的值不存在大小比较关系，与欧式距离更无关系，因此不适用MSE

1、损失函数的凸性（使用MSE可能会陷入局部最优）

前面我们在介绍线性回归时，我们用到的损失函数是误差（残差）平方和

$L=\sum_{i=1}^m(y_i-\hat y_i)^2=\sum_{i=1}^m(y_i-x_i\omega)^2$

这是一个凸函数，有全局最优解

如果逻辑回归也使用误差平方和，由于逻辑回归假设函数的外层函数是Sigmoid函数，Sigmoid函数是一个复杂的非线性函数，这就使得我们将逻辑回归的假设函数代入上式时，即
$L=\sum_{i=1}^m\left(y_i-\frac{1}{1+e^{-x_i\omega}}\right)^2$

那么，我们得到的 $L$ 是一个非凸函数，不易优化，容易陷入局部最优解。所以逻辑回归的损失函数使用的是对数损失函数（Log Loss Function）

在逻辑回归（详见：传送门）一文中，我们已经给出了KL散度与交叉熵的关系
$交叉熵 = K L 散度 + 信息熵$

即交叉熵等于KL散度加上信息熵。而信息熵是一个常数，并且在计算的时候，交叉熵相较于KL散度更容易，所以我们直接使用了交叉熵作为损失函数

因此，我们在最小化交叉熵的时候，实际上就是在最小化 KL散度，也就是在让预测概率分布尽可能地与真实概率分布相似

2、MSE的损失小于交叉熵的损失（导致对分类错误点的惩罚不够）

逻辑回归的数学表达式如下
$h_\theta(x)=\rm g(\theta^Tx)=\frac{1}{1+e^{-\theta^Tx}}$

对于一元逻辑回归，其预测值为
$\hat y = \sigma(\omega x+b)$

其中， $\sigma$ 为Sigmoid函数

如果使用均方差作为损失函数，我们以一个样本为例，为方便计算，我们给均方差除以2（不改变函数的单调性）
$C=\frac{1}{2}(y-\hat y)^2$

其中 $\hat y$ = $\sigma(z)$ = $\frac{1}{1+e^{-z}}$ ， $z$ = $\omega x+b$ ，使用梯度下降法对 $\omega$ 进行更新，那么就需要将损失函数对 $\omega$ 进行求偏导数
$\frac{\partial C}{\partial \omega}=(y-\hat y)\sigma'(z)x=(y-\hat y)\hat y(1-\hat y)x$

具体计算过程可参考如下或文末参考文章

在这里插入图片描述

可以看到，均方差损失函数的梯度与激活函数（Sigmoid函数）的梯度成正比，当预测值接近于1或0时，梯度会变得非常小，几乎接近于0，这样会导致当真实值与预测值差距很大时，损失函数收敛的很慢，无法进行有效学习，与我们的期望不符合

因此，如果使用均方差损失，训练的时候可能看到的情况是预测值和真实值之间的差距越大，参数调整的越小，训练的越慢

如果使用交叉熵作为损失函数，对于二分类问题，交叉熵的形式是由极大似然估计下概率的连乘然后取对数得到的（推导见文章：传送门）
$C=-[y\ln \hat y +(1-y)\ln (1-\hat y)]$

关于 $\omega$ 求偏导数得
$\frac{\partial C}{\partial \omega}=(\sigma(z)-y)x$

可以看到，交叉熵损失函数的梯度和当前预测值与真实值之间的差是有关的，没有受到Sigmoid函数的梯度的影响，且真实值与预测值的差越大，损失函数的梯度就越大，更新的速度也就越快，这正是我们想要的

参考文章：https://zhuanlan.zhihu.com/p/453411383?login=from_csdn

关注

23
点赞
踩
21

收藏

觉得还不错? 一键收藏
0
评论
逻辑回归为什么使用交叉熵而不用均方差？

函数）的梯度成正比，当预测值接近于1或0时，梯度会变得非常小，几乎接近于0，这样会导致当真实值与预测值差距很大时，损失函数收敛的很慢，无法进行有效学习，与我们的期望不符合。而信息熵是一个常数，并且在计算的时候，交叉熵相较于KL散度更容易，所以我们直接使用了交叉熵作为损失函数。因此，如果使用均方差损失，训练的时候可能看到的情况是预测值和真实值之间的差距越大，参数调整的越小，训练的越慢。函数的梯度的影响，且真实值与预测值的差越大，损失函数的梯度就越大，更新的速度也就越快，这正是我们想要的。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。