[机器学习基础]为什么要使用 softmax 和交叉熵 ?

最新推荐文章于 2023-08-20 11:15:39 发布

有点欠扁的圈圈

最新推荐文章于 2023-08-20 11:15:39 发布

阅读量1.2k

点赞数 1

分类专栏：机器学习基础文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_44834206/article/details/123674380

版权

机器学习基础专栏收录该内容

2 篇文章 0 订阅

订阅专栏

在做数据拟合时，如果我们在线性函数中加入高斯噪声，通过极大似然的方法我们可以推导出均方误差（mean squared error，MSE）损失函数。从直观上来看，MSE通过最小化所有点到直线距离平方的加和来确定参数。

在做数据分类时，如果我们也希望用距离的平方和来作为损失函数，那就不是特别好，毕竟距离分割超平面越远，应该损失越小才是。

对于分类问题，最经典的模型就是支持向量机（support vector machine，SVM），它的分割超平面由支撑向量所决定，非支撑向量的微小振动并不会改变最终模型。

今天我们通过概率的角度，介绍另一种分类准则。

分类问题中使用交叉熵损失函数的两种合理解释

我们设训练集 $\mathcal T=\{(x_i,y_i)\}_{i=1,...,n}$ ，其中 $x_i\in\mathbb R^n$ ， $y_i$ 是one-hot标签，设共有m个类别（因此 $y_i\in\mathbb R^m$ ），我们期望学习到一个函数 $P$ 来使得 $P(x_i)\in\mathbb R^m$ 是 $x_i$ 属于每一类的概率。

如何学习？（我们假设函数 $P$ 已经经过处理使得各分量加和为1）

第一种方法，我们可以使用极大似然：

$P=\arg\max\prod\limits_{i=1}^n P(x_i)\cdot y_i$

（注意这里 $y_i$ 是one-hot编码，因此内积 $P(x_i)\cdot y_i$ 其实只有一小项相乘，在数值上等于 $P(x_i) $ 的第 $j$ 项， $j$ 是 $x_i$ 所在的类）

极大似然等价于极小化负对数似然：

$P=\arg\min[-\sum\limits_{i=1}^n y_i\cdot\log P(x_i)]$

（因为是one-hot，所以我们可以把 $y_i$ 从内积中提出来，这里对向量 $P(x_i)$ 求对数等于对每一项求对数）

第二种方法，由于向量 $P(x_i)$ 和 $y_i$ 都满足各分量的加和为1，因此可以看成是一种分布，在信息论中衡量分布的损失经常用交叉熵损失函数：

$l(P(x_i),y_i)=-\sum\limits_{j=1}^m y_i^{(j)}\log P(x_i)^{(j)}=-y_i\cdot\log P(x_i)$

我们发现这和极大似然得到了 相同的结果，我们一般称这个损失函数为交叉熵损失函数。

函数 $P$ 的预处理

一般我们神经网络某层的输出并不总是满足各分量的和为1，目前使用最多的处理方法是使用softmax的方法。

我浏览了很多讲解softmax的合理性的文章，其中这篇文章 https://intellipaat.com/community/2015/why-is-the-cross-entropy-method-preferred-over-mean-squared-error-in-what-cases-does-this-doesnt-hold-up 提到的softmax函数的二维形式与sigmoid很类似让我很受启发（我刚看了一下百度百科也有类似的介绍）：
$\dfrac{e^{x_i}}{\sum_j e^{x_j}}\\ sigmoid:\dfrac{1}{1+e^{-x}}=\dfrac{e^a}{e^a+e^{a-x}}$
其实这两个函数的导数非常好表示：

我们对交叉熵损失函数求导：（假设 $P(x_i)=softmax(o_i)$ ）

$\dfrac{\partial}{\partial o_i^{(j)}}[- y_i\cdot\log softmax(o_i)] =\dfrac{\partial}{\partial o_i^{(j)}}[-\sum\limits_{j=1}^m y_i^{(j)}*\log \dfrac{exp(o_i^{(j)})}{\sum_{k=1}^m exp(o_i^{(k)})}]\\ =\dfrac{\partial}{\partial o_i^{(j)}}[\sum\limits_{j=1}^m y_i^{(j)}*\log \sum_{k=1}^m exp(o_i^{(k)})-\sum\limits_{j=1}^m y_i^{(j)}*o_i^{(j)}]\\ =\dfrac{\partial}{\partial o_i^{(j)}}[\log \sum_{k=1}^m exp(o_i^{(k)})-\sum\limits_{j=1}^m y_i^{(j)}*o_i^{(j)}]\\ =softmax(o_i^{(j)})-y_i^{(j)}$

我们下面对sigmoid函数求导：（这个推导网上很多，就不重复了）
$\dfrac{\partial }{\partial x}\dfrac{1}{1+e^{-x}}=\dfrac{1}{1+e^{-x}}(1-\dfrac{1}{1+e^{-x}})$
我们发现这两个函数对原变量求导，得到导数值在计算过程中都不必知道原变量值的大小，只需要知道自身的值（交叉熵损失函数需要知道外部标签）即可，这在实现误差的反向传播（BP）算法的时候十分方便。