SoftMax 推导

最新推荐文章于 2022-04-04 17:44:42 发布

坏习惯的叛逆者

最新推荐文章于 2022-04-04 17:44:42 发布

阅读量677

点赞数

分类专栏：深度学习文章标签： AI 深度学习 softmax 人工智能

本文链接：https://blog.csdn.net/wenxueliu/article/details/80907007

版权

深度学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

softmax

一组数据通过 softmax 之后，按照各个数字的大小归一化到 (0,1) 的概率，并且所有数字概率之和为 1，因此，数字越大，概率越大。
计算偏导非常简单

假设我们有一个数组，V，Vi表示V中的第i个元素，那么这个元素的softmax值就是

$S_i = \frac {e^i}{\sum_j e^j}$

看了很多推导，感觉来时自己亲自的推导最清楚。

推导

X : (N, D) N 为样本个数，D 为每个样本当前的维度

W: (D, C) C 为分类，D 为每个样本当前的维度

y : (N, C) N 为样本数量，y[k][i] = 1 表示第 k 个样本的标签为类别 i。

S : (N, C) S = X.dot(W) S[i, :] 为第 i 个样本的预测向量。

P : (N, C) P 为 S 经过 sotfmax 之后的矩阵，P[i,:] 为第 i 个样本的 softmax

为了方便推导，下面，以 S_{k,i} 表示第 k 个样本第 i 个输出值，P_{k,i} 表示第 k 个样本第 i 个分类的预测分数，

其 softmax 为

$P_{k,i} = \frac {e^{S_{k,i} }}{\sum_{m=1}^C e^{S_{k, m} }}$

$P = \frac {e^S}{ I^T e(S)}$ 其中 I 为 K x 1 的向量

对于任意的 $P_{k,i}$ ，有 $P_{k,i} \in (0, 1)$ 并且 $\sum_i^C P_{k,i} = 1$ ，因此，可以认为 $P_{k,i}$ 是概率
在图像分类的训练中，如果 $P_{k,m}$ 最大，那么该样本的预测分类为 m。

标量法求导推导

$\frac {\partial P_{k,j} }{S_{k,i}} = \frac {\frac {e^{S_{k,j}} }{\sum_{m=1}^C e^{S_{k,m} } } } {\partial S_{k,i}}$

由上可知，对 j = i 和 $j \neq i$ 求导方式是不同的

如果 i=j

令 $t = e^{S_{k,j}}$

$\frac {\partial P_{k,j} } {\partial S_{k,j}} = \frac {\partial P_{k,j}} {\partial t} \frac {\partial t}{\partial S_{k,j}}$

其中

由于 $P_{k,j} = \frac { t } { t + \sum_{m \neq j}^C e^{S_{k,m} }}$

$\frac {\partial P_{k,j} }{\partial t} =\frac { 1 } { t + \sum_{m \neq i}^C e^{S_{k,m} } } - \frac { t } { (t + \sum_{m \neq i}^C e^{S_{k,m} })^2}$
$\frac {\partial t}{\partial S_{k,j}} = t$

因此， $\frac {\partial P_{k,j} } {S_{k,j}} = \frac { t } { t + \sum_{m \neq i}^C e^{S_{k,m} }} - \frac { t^2} { (t + \sum_{m \neq i}^C e^{S_{k,m}})^2} = P_{k,j} - P_{k,j}^2$

如果 $i \neq j$

$\frac {\partial P_{k,j} }{S_{k,i}} = e^{S_{k,j}} (- \frac {e^{S_{k,i}} }{(\sum_{m=1}^C e^{S_{k,m} })^2}) = - P_{k,j} P_{k,i}$

向量法求导推导

S : 1 x K

P : 1 x K

$\frac {\partial P} {\partial S} = \frac {1}{ I^T e^S} \frac {\partial e^S}{\partial S} + \frac{ \frac {1}{I^T e^S} }{\partial S} (e^S)^T \\ \quad = \frac {diag(e^S)}{ I^T e^S} -\frac {1}{(I^T e^S)^2} \frac{\partial I^T e^S }{\partial S} (e^S)^T \\ \quad = \frac {diag(e^S)}{ I^T e^S} -\frac {1}{(I^T e^S)^2} diag(e^S) I (e^S)^T \\ \quad = \frac {diag(e^S)}{ I^T e^S} -\frac {1}{(I^T e^S)^2} e^S (e^S)^T \\ \quad = diag(\frac {e^S}{ I^T e^S}) -\frac {e^S}{I^T e^S} \frac{ (e^S)^T}{I^T e^S} \\ \quad = diag( softmax(S)) - softmax(S) softmax(S)^T$

其中 $diag(e^S) I = e^S$

Softmax loss

$L = \frac {1}{N } \sum_k^N L_k + \lambda R(W)$

$L_k = - \sum_{i=1}^C y_i log P_{k,i}$

其中 $y_i$ 为某个分类的真实标签，比如对于一个 3 分类的图片分类，样本 $X_{k,}$ 有一个标签，假设为 $y_{k,} = [y_{k,1}, y_{k,2}, y_{k,3} ] = [0, 1, 0]$ ，该样本 X_k 通过卷积网络和 softmax 之后得到 $P =[P_{k,1}, P_{k,2}, P_{k,3}]$ ，那么，L 就等于

$L_k = - (y_{k,1} log P_{k,1} + y_{k,2} log P_{k,2} + y_{k,3} log P_{k,3})$

由于 y 中只有一个为 1 其余都为 0，因此，实际

$L_k = - log P_{k,2}$

因此， $P_{k,2}$ 越大， $L_k$ 越小，也即预测值 $P_k$ 与标签对应的值越高，损失越低。

Softmax Loss 推导

$\frac {\partial L}{\partial S} = [\frac {\partial L}{\partial S_1}, \frac {\partial L}{\partial S_2} \cdots \frac {\partial L}{\partial S_C}]$

对于

$\frac {\partial L}{\partial S_i} = \frac { \frac {1}{N} \sum_k^N L_k + \lambda R(w) }{\partial S_i}$

关键在于求解

$\frac {\partial L_k}{\partial S_{k,i}} = \frac { \partial(- \sum_j^C y_{k,j} logP_{k,j} )}{\partial S_{k,i}}= - \frac{\partial(\sum_j^C y_{k,j} log \frac {e^{S_{k,j}} }{\sum_m^C e^{S_{k,m}} } )}{\partial S_{k,i}} = - \frac { \partial(\sum_j^C (y_{k,j} S_{k,j} - y_{k,j} log (\sum_m^C e^{S_{k,m}})) )}{\partial S_{k,i}}$

$\frac {\partial L_{k,j}}{\partial S_{k,i}} = \frac {\partial(- y_{k,j} logP_{k,j}) }{\partial S_{k,i}}= - \frac{\partial ( y_{k,j} log \frac {e^{S_{k,j}} }{\sum_m^C e^{S_{k,m}} }) }{\partial S_{k,i}} = - \frac { \partial(y_{k,j} S_{k,j} - y_{k,j} log (\sum_m^C e^{S_{k,m}}) )}{\partial S_{k,i}}$

当 j = i 时，

$\frac {\partial L_{k,j} }{\partial S_{k,i} } = -y_{k,i} (1 - P_{k,i})$

当 $j \neq i$ 时

$\frac {\partial J_{k,j} }{\partial S_{k,i}} = y_{k,j} P_{k,i}$

所以 $\frac {\partial L_k}{\partial S_{k,i}} = -y_{k,i}(1 - P_{k,i}) + \sum_{m \neq i}^C y_{k,m}P_{k,m} = -y_{k,i} + \sum_m^C y_{k,m}P_{k,m}$

当 $S_{k,i}$ 对应的 $y_{k,i} = 1$ 时， $\frac {\partial L_k}{\partial S_{k,i}} = P_{k,i} -1$

当 $S_{k,i}$ 对应的 $y_{k,i}$ = 0 时， $\frac {\partial L_k}{\partial S_{k,i}} = P_{k,t}$ 此时 $y_{k,t} = 1$

因此 $\frac {\partial L_k} {\partial S_k} = P_k - y_k$

$\frac {\partial L_k}{\partial W} = \frac {\partial L_k}{\partial S_k} \frac {S_k}{\partial W} = (P_k - y_k) X^T$

举例：

假设一个 5 分类任务，一张图像经过 softmax 层后得到的概率向量 p 是 [0.1,0.2,0.25,0.4,0.05]，真实标签 y 是[0,0,1,0,0]，那么损失回传时该层得到的梯度就是 p-y=[0.1,0.2,-0.75,0.4,0.05]。这个梯度就指导网络在下一次forward 的时候更新该层的权重参数。

cross entropy

$L = - \sum_j^T y_j log P_j$

因此，cross entropy 与 softmax loss 是一样的

以上就是关于 softmax 的一些理解，希望对你有帮助。

坏习惯的叛逆者

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
SoftMax 推导

softmax一组数据通过 softmax 之后，按照各个数字的大小归一化到 (0,1) 的概率，并且所有数字概率之和为 1，因此，数字越大，概率越大。计算偏导非常简单假设我们有一个数组，V，Vi表示V中的第i个元素，那么这个元素的softmax值就是Si=ei∑jejSi=ei∑jejS_i = \frac {e^i}{\sum_j e^j}看了很多推导，感觉来时自己亲自...
复制链接

扫一扫

专栏目录