Softmax函数和交叉熵Cross-entropy以及KL散度求导

最新推荐文章于 2023-03-20 18:51:08 发布

winycg

最新推荐文章于 2023-03-20 18:51:08 发布

阅读量2.6k

点赞数

分类专栏： python机器学习

本文链接：https://blog.csdn.net/winycg/article/details/106895881

版权

python机器学习专栏收录该内容

37 篇文章 7 订阅

订阅专栏

参考链接：https://blog.csdn.net/qian99/article/details/78046329

交叉熵cross-entropy

对一个分类神经网络 $f$ ，输出为 $z=f(x;\theta),z=[z_{0},z_{1},\cdots,z_{C-1}]$ , $z$ 为logits，其中类别数量为 $C$ , $y$ 为 $x$ 的one-hot标签。通过softmax归一化来得到概率：
$p_{i}=\frac{\exp{z_{i}}}{\sum_{j}{\exp{z_{j}}}}$
负交叉熵误差为：
$\mathcal{L}=-\sum_{i}y_{i}\log{p_{i}}$
误差对于概率的梯度为：
$\frac{\partial \mathcal{L}}{\partial p_{i}}=-y_{i}\frac{1}{p_{i}}$
紧接着计算 $\frac{\partial \mathcal{p_{i}}}{\partial z_{k}},k=0,1,...,C-1$ :
（1）当 $k = i$ 时，
$\frac{\partial \mathcal{p_{i}}}{\partial z_{i}}=\frac{\partial ( \frac{\exp{z_{i}}}{\sum_{j}{\exp{z_{j}}}})}{\partial z_{i}}=\frac{\exp{z_{i}}\sum_{j}\exp{z_{j}}-(\exp{z_{i}})^{2}}{(\sum_{j}{\exp{z_{j}}})^{2}} \\ =( \frac{\exp{z_{i}}}{\sum_{j}{\exp{z_{j}}}})(1- \frac{\exp{z_{i}}}{\sum_{j}{\exp{z_{j}}}})=p_{i}(1-p_{i})$

（2）当 $k\neq i$ 时，
$\frac{\partial \mathcal{p_{i}}}{\partial z_{k}}=\frac{\partial ( \frac{\exp{z_{i}}}{\sum_{j}{\exp{z_{j}}}})}{\partial z_{k}}=\frac{-\exp{z_{i}}\exp{z_{k}}}{(\sum_{j}{\exp{z_{j}}})^{2}} =-p_{i}p_{k}$
根据求导的链式法则：
$\frac{\partial \mathcal{\mathcal{L}}}{\partial z_{k}}=\sum_{j}(\frac{\partial \mathcal{L}}{\partial p_{j}}\frac{\partial \mathcal{p_{j}}}{\partial z_{k}})\\ =\sum_{j=/k}(\frac{\partial \mathcal{L}}{\partial p_{j}}\frac{\partial \mathcal{p_{j}}}{\partial z_{k}})+(\frac{\partial \mathcal{L}}{\partial p_{k}}\frac{\partial \mathcal{p_{k}}}{\partial z_{k}})\\ =\sum_{j=/k}(-y_{j}\frac{1}{p_{j}}*-p_{j}p_{k})+(-y_{k}\frac{1}{p_{k}}*p_{k}(1-p_{k}))\\ =\sum_{j=/k}(y_{j}p_{k})-y_{k}+y_{k}p_{k}\\ =p_{k}\sum_{j}y_{j}-y_{k}$
因为 $y$ 为one-hot编码，所以 $\sum_{j}y_{j}=1$ ,i.e.,
$\frac{\partial \mathcal{\mathcal{L}}}{\partial z_{k}}=p_{k}-y_{k}$

相对熵KL散度

预测的概率分布 $p$ ,真实概率分布为 $q$ ，KL的散度为：
$\mathcal{L}=KL(q||p)=\sum_{k}q_{c}\log{\frac{q_{k}}{p_{k}}}$
求解对概率 $p_{k}$ 的梯度
$\frac{\partial \mathcal{\mathcal{L}}}{\partial p_{k}}=-\frac{q_{k}}{p_{k}}$
求解对logits $z_{k}$ 的梯度:
$\frac{\partial \mathcal{\mathcal{L}}}{\partial z_{c}}= \sum_{j}(\frac{\partial \mathcal{L}}{\partial p_{j}}\frac{\partial \mathcal{p_{j}}}{\partial z_{k}})\\ =\sum_{j=/k}(\frac{\partial \mathcal{L}}{\partial p_{j}}\frac{\partial \mathcal{p_{j}}}{\partial z_{k}})+(\frac{\partial \mathcal{L}}{\partial p_{k}}\frac{\partial \mathcal{p_{k}}}{\partial z_{k}})\\ =\sum_{j=/k}(-\frac{q_{j}}{p_{j}}*-p_{j}p_{k})+(-\frac{q_{k}}{p_{k}}*p_{k}(1-p_{k}))\\ =\sum_{j=/k}(q_{j}p_{k})+q_{k}p_{k}-q_{k}\\ =\sum_{j}q_{j}p_{k}-q_{k}$

winycg

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Softmax函数和交叉熵Cross-entropy以及KL散度求导

参考链接：https://blog.csdn.net/qian99/article/details/78046329对一个分类神经网络fff，输出为z=f(x;θ),z=[z0,z1,⋯ ,zC−1]z=f(x;\theta),z=[z_{0},z_{1},\cdots,z_{C-1}]z=f(x;θ),z=[z0,z1,⋯,zC−1],zzz为logits，其中类别数量为CCC,yyy为xxx的one-hot标签。通过softmax归一化来得到概率：pi=exp⁡zi∑jexp⁡zjp_{i}=
复制链接

扫一扫