交叉熵损失函数

最新推荐文章于 2024-09-12 12:09:01 发布

wwang_dev

最新推荐文章于 2024-09-12 12:09:01 发布

阅读量256

点赞数

分类专栏：深度学习文章标签：机器学习深度学习交叉熵损失函数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wwang_dev/article/details/120184809

版权

深度学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

本文探讨了在多分类问题中，交叉熵损失函数与KL散度（相对熵）的内在联系，揭示了它们如何衡量模型预测与真实分布的差异。通过实例说明，交叉熵最小化时，模型预测与真实类别接近，且由于信息熵恒定，KL散度等价于交叉熵。关键概念包括one-hot编码和H(p,q)的计算方法。

摘要由CSDN通过智能技术生成

说明

关于分类问题的交叉熵损失函数，博客交叉熵介绍的非常清楚。
我这里补充一点笔记，给自己看的。

前文结论

在这篇博文中，关于 KL 散度部分，已得到：

KL散度越小，表示P(x)和Q(x)越接近，所以可以通过反复训练，来使Q(x)逼近P(x)，但KL散度有个特点，就是不对称，就是用P来拟合Q和用Q来拟合P的KL散度(相对熵)是不一样的，但是P和Q的距离是不变的。

那KL散度(相对熵)和交叉熵有什么联系呢？

所以可以看到：KL散度 = 交叉熵 - 信息熵。

从信息熵的公式，我们知道，对于同一个数据集，其信息熵是不变的，所以信息熵可以看作一个常数，因此当KL散度最小时，也即是当交叉熵最小时。在多分类任务中，KL散度(相对熵)和交叉熵是等价的。

补充

上面最后一句提到在多分类问题中，KL散度和交叉熵等价。

在多分类问题中，我们会对真实的 y 进行 one_hot 编码，如 [0, 1, 0, 0, 0] 这种形式。

所以对于真实类别 p [1, 0, 0, 0] 和预测概率 q [0.4, 0.3, 0.2, 0.1]

H p = - (1 x log1 + 0 x log0 + 0 x log0 + 0 x log0) = 0，

所以 Dkl = H(p, q)，并且：

H(p, q) = - sum(p(i) * log(q(i))) = - log(q(i)) ，其中 i 是真实的类别。

我们知道 Dkl 衡量的就是 p 和 q 的差异，所以 H(p.q) 也就能衡量预测概率 q 和真实类别 p 的差异，也能作为损失函数(越小，预测越正确)，并且 H(p, q) 的公式也知道，并且在分类问题里，p(i) 不是1就0(one hot 后只有一个1)，随后就只剩下一项了，就是这个样本对应的真实类别，在预测结果里的对应位置的概率，取对数再取反，就简单！！！

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

wwang_dev CSDN认证博客专家 CSDN认证企业博客

码龄5年

76: 原创

8万+: 周排名

172万+: 总排名

9万+: 访问

: 等级

1184: 积分

26: 粉丝

108: 获赞

35: 评论

338: 收藏

私信

关注

热门文章

分类专栏

深度学习 1篇
Vue 2篇
springsecurity 3篇
源码 3篇
springboot 9篇
jwt 1篇
algorithm 56篇
红黑树 2篇
java 12篇
Docker 2篇
RabbitMq 1篇
社交登录 1篇
Linux 1篇
ElasticSearch 2篇
mybatis 1篇
框架 1篇
c/c++ 54篇
PAT 52篇
ccf 2篇
leetcode 1篇
windows10 1篇
socket 1篇
swing 1篇
dubbo 1篇
qq

最新评论

PAT 1018 Public Bike Management (30分) 思路分析 + 满分代码
小小小秃头.cheng.qin: 这组数据，感觉官方代码处理得有问题： 10 3 3 5 4 3 10 0 1 1 0 2 1 0 3 3 1 3 1 2 3 1 1 0->1->3 5 按理说这种情况，应该只带回3个，并且不用从PCBC发送，你觉得呢？
PTA 1014 Waiting in Line (30分) 解题思路及满分代码
CocaCona: 黄线内的人就不需要排最短的队伍了吗？
PAT 1018 Public Bike Management (30分) 思路分析 + 满分代码
墨绿色。: “这里有个问题就是，如果PCBC最终需要发送自行车，那么带回的自行车就是0，如果PCBC最终需要带回自行车，那么发送的自行车就是0，所以应该只需要一个参数就能搞定”，作者这个想法的问题在于，题意的意思，最短路径只从V0->...->Vsp走一遍，如果是前面站点需要很多车而后面的站点车又有多的情况，必须要从出发点带车补足前面站点需求，然后后面站点多的车又要带回。题目数据的意思应该是到了Vsp之后带着车瞬移到V0需要带回的车子数量，反正不是沿着最短路径回去，然后沿着路径能把后面节点多的车用于补足前面节点所缺的意思。
解决win10更新后wifi无法使用甚至wifi图标消失
Fewsa_Tewsa: 好了好了，感谢博主，哭了😭
AuthenticationManager 的 authentication 过程
kimi-001: 自定义等逻辑时我手动调用了 Authentication authentication=authenticationManager.authenticate(new UsernamePasswordAuthenticationToken(vo.getUsername(),vo.getPassword())); //将认证成功的Authentication放入Security上下文 SecurityContextHolder.getContext().setAuthentication(authentication); 日志显示认证成功了，但是下次请求资源有要求重新登录，这是为什么？

大家在看

哈希表 part 1

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。