Softmax与Cross-entropy的求导

最新推荐文章于 2024-03-08 17:25:04 发布

愤怒的可乐

最新推荐文章于 2024-03-08 17:25:04 发布

阅读量1.1k

点赞数 5

分类专栏：人工智能文章标签：机器学习 softmax求导 cross-entropy求导交叉熵求导

本文链接：https://blog.csdn.net/yjw123456/article/details/106767782

版权

人工智能专栏收录该内容

195 篇文章 93 订阅

订阅专栏

引言

在多分类问题中，一般会把输出结果传入到softmax函数中，得到最终结果。并且用交叉熵作为损失函数。本来就来分析下以交叉熵为损失函数的情况下，softmax如何求导。

对softmax求导

softmax函数为:

$\hat y_i = \frac{e^{z_i}}{\sum_{k=1}^K e^{z_k}}$

这里 $K$ 是类别的总数，接下来求 $\hat y_i$ 对某个输出 $z_j$ 的导数,
$\frac{\partial \hat y_i}{\partial z_j} = \frac{\partial \frac{e^{z_i}}{\sum_{k=1}^K e^{z_k}}}{\partial z_j}$

这里要分两种情况,分别是 $i = j$ 与 $\neq j$ 。当 $i = j$ 时, $e^{z_i}$ 对 $z_j$ 的导数为 $e^{z_i}$ ，否则当 $\neq j$ 时，导数为 $0$ 。

当 $i = j$ ，
$\begin{aligned} \frac{\partial \hat y_i}{\partial z_j} &= \frac{e^{z_i}\cdot \sum_{k=1}^K e^{z_k} - e^{z_i} \cdot e^{z_j} }{(\sum_{k=1}^m e^{z_k})^2} \\ &= \frac{e^{z_i}}{\sum_{k=1}^m e^{z_k}} - \frac{e^{z_i}}{\sum_{k=1}^m e^{z_k}} \cdot \frac{e^{z_j}}{\sum_{k=1}^m e^{z_k}} \\ &= \hat y_i - \hat y_i^2 = \hat y_i(1 - \hat y_i) \end{aligned}$

当 $\neq j$ ，
$\begin{aligned} \frac{\partial \hat y_i}{\partial z_j} &= \frac{0 \cdot \sum_{k=1}^K e^{z_k} - e^{z_i} \cdot e^{z_j}}{(\sum_{k=1}^m e^{z_k})^2} \\ &= - \frac{e^{z_i}}{\sum_{k=1}^m e^{z_k}} \cdot \frac{e^{z_j}}{\sum_{k=1}^m e^{z_k}} \\ &= - \hat y_i \hat y_j \end{aligned}$

对cross-entropy求导

损失函数 $L$ 为:

$-\sum_k y_k \log \hat y_k$

其中 $y_k$ 是真实类别，相当于一个常数，接下来求 $L$ 对 $z_j$ 的导数

$\begin{aligned} \frac{\partial L}{\partial z_j} &= \frac{\partial -(\sum_k y_k \log \hat y_k)}{z_j}\\ &= \frac{\partial -(\sum_k y_k \log \hat y_k)}{\partial \hat y_k} \frac{\partial \hat y_k}{\partial z_j} \\ &= -\sum_k y_k \frac{1}{\hat y_k} \frac{\partial \hat y_k}{z_j} \\ &= \left(-y_k \cdot \hat y_k(1 - \hat y_k) \frac{1}{\hat y_k} \right)_{k=j} - \sum_{k \neq j} y_k \frac{1}{\hat y_k} (-\hat y_k \hat y_j) \\ &= - y_j (1 -\hat y_j) - \sum_{k \neq j} y_k (-\hat y_j) \\ &= - y_j + y_j \hat y_j + \sum_{k \neq j} y_k (\hat y_j) \\ &= - y_j + \sum_{k} y_k (\hat y_j) \\ &= - y_j +\hat y_j \\ &= \hat y_j -y_j \end{aligned}$