熵小结

最新推荐文章于 2023-11-19 19:33:08 发布

iTensor

最新推荐文章于 2023-11-19 19:33:08 发布

阅读量254

点赞数

分类专栏：自然语言处理深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wshixinshouaaa/article/details/100503352

版权

深度学习同时被 2 个专栏收录

17 篇文章 0 订阅

订阅专栏

自然语言处理

9 篇文章 0 订阅

订阅专栏

信息量

与事件发生概率大小相关，发生概率越大，信息量越大。

设事件 $x$ 发生的概率为 $p (x)$ ，那么该事件的信息量为： $I (x) = - l o g (p (x))$ 。

熵

在信息论和概率统计中，熵表示随机变量不确定性的度量。设随机变量为 $X$ ，即事件 $X$ 发生的可能性共有 $n$ 个，每个可能 $x_i$ 发生的概率为 $p(x_i)$ ，那么所有信息量的期望就是熵，计算公式为：

$\sum_{i=1}^{n} p(x_i) log (p(x_i))$

若事件只有两个可能性，比如投掷硬币出现正反面，熵为：

$H (X) = - p (x) l o g (p (x)) - (1 - p (x)) l o g (1 - p (x))$

相对熵 (KL散度)

假设事件 $X$ 有两个分布 $P (x)$ 和 $Q (x)$ ，比如真实分布和模型训练出来的分布，可以用 KL散度衡量两个分布之间的差异，即模型损失函数：

$D_{KL}(p||q) = \sum_{i=1}^{n} p(x_i) log \frac{p(x_i)}{q(x_i)}$

可以看出，当真实分布和模型训练出来的分布越接近时，相对熵越小，损失值越小。

交叉熵

化简一下相对熵：

$D_{KL}(p||q) = \sum_{i=1}^{n} p(x_i) log \frac{p(x_i)}{q(x_i)} = \sum_{i=1}^{n} p(x_i) log \ p(x_i) - \sum_{i=1}^{n} p(x_i) log \ q(x_i) = -H(X) - \sum_{i=1}^{n} p(x_i) log \ q(x_i)$ 可以看出相对熵恰好是由熵减去一部分组成，后面那部分就是交叉熵，

$\sum_{i=1}^{n} p(x_i) log \ q(x_i)$

因为 $H(X) $ 是不变的，所以在衡量真实标签与预测值时，可以直接使用交叉熵作为损失函数。

二分类情况下，给定真实标签 $y_i$ 和预测标签 $p_i$ ，交叉熵损失函数为：

$l o s s = - [y l o g p + (1 - y) l o g (1 - p)]$

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
熵小结

信息量与事件发生概率大小相关，发生概率越大，信息量越大。设事件 xxx 发生的概率为 p(x)p(x)p(x) ，那么该事件的信息量为：I(x)=−log(p(x))I(x) = -log(p(x))I(x)=−log(p(x)) 。熵在信息论和概率统计中，熵表示随机变量不确定性的度量。设随机变量为 XXX ，即事件 XXX 发生的可能性共有 nnn 个，每个可能 xix_ixi 发生的...
复制链接

扫一扫

专栏目录

iTensor CSDN认证博客专家 CSDN认证企业博客

码龄8年

73: 原创

4万+: 周排名

186万+: 总排名

19万+: 访问

: 等级

2279: 积分

457: 粉丝

172: 获赞

93: 评论

904: 收藏

私信

关注

热门文章

分类专栏

最新评论

申请CloudFlare免费DNS服务
a648x: name写什么？value写什么？
使用python搭建简易区块链
Sillage777: @app.route('/chain', methods=['GET']) def full_chain(): response = { 'chain': blockchain.chain, 'length': len(blockchain.chain), } return jsonify(response), 200这一部分代码测试实现的时候会报错AttributeError: 'Blockchain' object has no attribute 'chain'，postman会显示500 Internal Server Error这是什么情况呢
Ubuntu挂载硬盘方法
Make it easy: 坑爹啊
详解从 Seq2Seq模型、RNN结构、Encoder-Decoder模型到 Attention模型
llj20d: 计算C1C2C31的示意图里，如果aij表示encoder i到decoder j，那图里第一行应该用a11，a21，a31吧？然后下一张图decoder的输入应该是C1C2C3而不都是C1吧？
十大排序算法（Java实现）
腊雪寒梅188: 堆排序存在问题

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。