交叉熵详解

Lilili..

于 2022-07-30 23:18:48 发布

阅读量361

点赞数 1

分类专栏：医学图像处理文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46042803/article/details/126065865

版权

医学图像处理专栏收录该内容

3 篇文章 0 订阅

订阅专栏

目录

为什么是对数呢？

为什么加上负号？

为什么要取均值？

3、相对熵（KL散度）

机器学习中的交叉熵

1、为什么要用交叉熵做loss函数？

2、梯度下降的原理，为什么要这样更新参数？

3、batch对随机梯度下降的影响？

信息论

1、信息量

用概率描述信息量的重要性质：

（1）事件发生的概率越低，信息量越大

（2）事件发生的概率越高，信息量越小

（3）多个事件同时发生的概率是多个事件概率相乘，总信息量是多个事件信息量相加（确定为对数关系）

则信息量与概率之间一定是减函数的关系。

为什么是对数呢？

x1和x2同时发生的概率：P(x1,x2)=P(x1)×P(x2)

x1和x2的总信息量：I( x1x2 )=I( x1 )+I( x2 ) --> log( P(x1x2) )=log( P(x1) )+log( P(x2) )

为什么加上负号？

为了保证信息熵是正数

为什么要取均值？

随机变量有多个状态值，P（xi）只代表随机变量X取xi的概率，我们用熵来评价整个随机变量平均的信息量，而平均最好的量度就是随机变量的期望。

2、熵

信息量是对单个事件来说，但是实际情况一件事有很多种发生的可能，比如掷骰子有可能出现6种情况，明天的天气可能晴、多云或者下雨等等。熵是表示随机变量不确定的度量，是对所有可能发生的事件产生的信息量的期望。（熵表示所有信息量的期望）

例如：

该事件的熵为：

$H(x)=-P(A)log(P(A))-P(B)log(P(B))-P(C)log(P(C))$

=0.7*0.36+0.2*1.61+0.1*2.30=0.804

对于0-1分布问题，熵的计算方法可以简化为

$H(x)=-P(x)log(P(x))-(1-P(x))log(1-P(x))$

3、相对熵（KL散度）

相对熵，用于衡量对于同一个随机变量x的两个分布p(x)和q(x)之间的差异。

p(x)常用于描述样本的真实分布，例如[1,0,0,0]表示样本属于第一类。

q(x)常用于表示预测的分布，例如[0.7,0.1,0.1,0.1]。

显然使用q(x)来描述样本不如p(x)准确，q(x)需要不断地学习来拟合准确的分布p(x)。

计算公式为：

$D_{KL}(p||q)=\sum_{i=1}^{n}p(x_{i})(log (p(x_{i}))-log (q(x_{i})))$

$D_{KL}$ 的值越小，表示q分布和p分布越接近。

4、交叉熵

讲KL散度公式变形得到：

$D_{KL}(p||q)=\sum_{i=1}^{n}p(x_{i})log (p(x_{i})-p(x_{i})log (q(x_{i})) =-H(x)-\sum_{i=1}^{n}p(x_{i})log (q(x_{i}))$

交叉熵：

$H(p,q)=-\sum_{i=1}^{n} p(x_{i})log( q(x_{i}))$

相对熵=交叉熵-信息熵

机器学习中的交叉熵

1、为什么要用交叉熵做loss函数？

在机器学习中，我们希望模型在训练数据上学到的预测数据分布与真实数据分布越相近越好，上面讲过了，用相对熵，但是为了简便计算使用交叉熵就可以了。

为什么使用交叉熵作为损失函数 - 知乎 (zhihu.com)

平方损失的“罪魁祸首”是sigmoid函数求导之后变成 y1′(1−y1′)∝(1−A)×A2 ，平白无故让曲线变得非常复杂，如果前面能够产生一个 1y1′ 把后面多余项“吃掉”多好
交叉熵的优势就是：它求导之后只提供了一个 1y1′ 去中和后面的导数

2、梯度下降的原理，为什么要这样更新参数？

3、batch对随机梯度下降的影响？

简单的交叉熵，你真的懂了吗？ - 知乎 (zhihu.com)

(85条消息) 一文搞懂交叉熵在机器学习中的使用，透彻理解交叉熵背后的直觉_史丹利复合田的博客-CSDN博客

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
交叉熵详解

机器学习中的交叉熵
复制链接

扫一扫

专栏目录

Lilili.. CSDN认证博客专家 CSDN认证企业博客

码龄5年

14: 原创

113万+: 周排名

13万+: 总排名

9936: 访问

: 等级

222: 积分

57: 粉丝

80: 获赞

3: 评论

85: 收藏

私信

关注

热门文章

分类专栏

最新评论

代码随想录--链表
CSDN-Ada助手: 恭喜作者发布了第14篇博客，对于链表这一主题进行了深入的探讨。希望作者能继续保持创作的热情，不断分享自己的见解和经验。下一步，建议作者可以尝试结合实际案例或者具体的代码示例来加深读者的理解。期待作者更多精彩的创作！
多线程学习
CSDN-Ada助手: 恭喜您在“多线程学习”这一主题上写了第12篇博客！持续创作非常了不起，希望您能够继续保持这样的热情和努力。接下来，建议您可以尝试深入探讨多线程应用的实际案例，或者分享一些解决多线程编程中常见问题的经验，相信这样的内容会给读者带来更多的启发和帮助。期待您的下一篇精彩文章！祝您写作愉快！
深度学习知识点
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。