softmax和softamxLoss求导公式推导

最新推荐文章于 2024-07-15 00:04:26 发布

z0n1l2

最新推荐文章于 2024-07-15 00:04:26 发布

阅读量1.8k

点赞数 1

分类专栏：三省吾身文章标签： softmax softmax loss 损失函数求导

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/z0n1l2/article/details/80613757

版权

三省吾身专栏收录该内容

21 篇文章 0 订阅

订阅专栏

本文详细介绍了Softmax函数及其损失函数Softmax Loss的定义，并通过数学推导展示了它们的导数计算过程，重点讨论了利用链式法则进行求导的方法，对于理解神经网络中的分类问题具有重要意义。

摘要由CSDN通过智能技术生成

Softmax

定义

$f(x_i) = \frac{e^{x_i}}{\sum_{j}e^{x_j}}$

求导

d f ( x k ) d x i = e x i \sum j e x j + e x i - 1 ( \sum j e x j ) 2 e x i = f (x i) - f (x i) 2 = f (x i) (1 - f (x i)) i f k = i

$\frac{df(x_k)}{dx_i} = \frac{e^{x_i}}{\sum_{j}e^{x_j}} + e^{x_i}\frac{-1}{(\sum_je^{x_j})^2}e^{x_i} = f(x_i)-f(x_i)^2=f(x_i)(1-f(x_i)) \ \ if\ k = i$

d f ( x k ) d x i = ? ? i f k! = i

$\frac{df(x_k)}{dx_i} = ?? \ \ if\ k\ != i$

Softmaxloss

定义

$L(x_i) = -\sum_k{y_klogf_k(x_i)}$ 其中 $y=(y_0,y_1,...,y_n)$ , $y_i \in \{0,1\}$ 是 $x_i$ 类别描述, 比如常见的one hot encoding中,对一个样本 $x_i$ , $y$ 只有一个元素值为1,其他都是0,所以假设 $x_i$ 标签中只有 $y_i=1$ ,则求和号可以去掉有

L (x i) = - l o g f i (x i) = - l o g e x i \sum j e x j = - x i + l o g \sum j e x j

$L(x_i) = -logf_i(x_i)=-log\frac{e^{x_i}}{\sum_j{e^{x_j}}}=-x_i+log\sum_j{e^{x_j}}$

求导1

直接利用展开式 $L(x_i)=-x_i+log\sum_j{e^{x_j}}$

d L d x i = - 1 + e x i \sum j e x j = f (x i) - 1

$\frac{dL}{dx_i}=-1+\frac{e^{x_i}}{\sum_j{e^{x_j}}}=f(x_i)-1$

求导2

从原始公式 $L(x_i) = -logf_i(x_i)$

d L d x i = d L d f i d f i d x i = - 1 f i ( x i ) f (x i) (1 - f (x i)) = f (x i) - 1

$\frac{dL}{dx_i}=\frac{dL}{df_i}\frac{df_i}{dx_i}=\frac{-1}{f_i(x_i)}f(x_i)(1-f(x_i))=f(x_i)-1$

PS: $f_i()$ 的下标似乎应该去掉???

重点

链式法则是和复合函数求导关联, $f(g(x))$ 是复合函数, $f(x)g(x)$ 不是符合函数

d f ( g ( x ) ) x = d f d g d g d x

$\frac{df(g(x))}{x} = \frac{df}{dg}\frac{dg}{dx}$

d ( f ( x ) g ( x ) ) d x = d f ( x ) d x g (x) + d g ( x ) d x f (x)

$\frac{d(f(x)g(x))}{dx}=\frac{df(x)}{dx}g(x)+\frac{dg(x)}{dx}f(x)$

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

z0n1l2 CSDN认证博客专家 CSDN认证企业博客

码龄6年

66: 原创

18万+: 周排名

44万+: 总排名

26万+: 访问

: 等级

3335: 积分

28: 粉丝

77: 获赞

27: 评论

324: 收藏

私信

关注

热门文章

分类专栏

3D 1篇
深度学习 49篇
文献阅读 9篇
三省吾身 21篇
scrapy 1篇
docker 2篇
pytorch 1篇
darknet 9篇
数据分析 6篇
pandas 3篇
mxnet 9篇
codes 21篇
NLP 2篇
backup 5篇
RL 2篇
stat-of-art 3篇

最新评论

深度学习和传统机器学习的差别
qyys30: 豁然开朗
从FocalLoss到hardsample
weixin_39542692: adaboost中样本权重更新的思路和focus loss一致. 赞
从FocalLoss到hardsample
weixin_39542692: adaboost中样本权重更新的思路和focus loss一致. 赞
时间序列分析-linear-models-to-GARCH
Tiana_amazing: 楼主好，请问下arma22 = smt.arma_generate_sample(ar=ar, ma=ma, nsample=n, burnin=burn)生成模拟时间序列数据的时候，不考虑白噪声嘛
darknet-配置参数burn-in
一个努力学编程的女子: 博主，有实现warmingup功能的代码可以分享吗？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。