初学ML笔记NO.5——关于熵

最新推荐文章于 2022-10-17 10:06:57 发布

天涯__

最新推荐文章于 2022-10-17 10:06:57 发布

阅读量668

点赞数

分类专栏： ML入门笔记文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wy250229163/article/details/51912220

版权

ML入门笔记专栏收录该内容

10 篇文章 0 订阅

订阅专栏

注：这篇笔记仅仅记录关于熵的一些知识点备忘。对于最大熵模型的使用，有待做进一步了解。

熵的定义

一个随机变量X，其取值为{x1,x2,x3…xk}，则我们定义其信息量为：

将p(x=xi)写为通式，则得到熵的数学定义：

熵是随机变量不确定性的度量，不确定性越大，熵越大；当随机变量退化为定值（即概率为1），熵就变为0了。注：均匀分布是“最不确定”的分布，因为我们没有任何信息时，一般都会把所有情况作为等可能发生的。
熵其实是定义了一个从概率分布函数到一个值(即熵值)的映射，P(x)->H。

其他熵的相关定义

联合熵：
条件熵：在Y发生的情况下，X的熵。也可以说是，得到Y后，X的平均不确定度。
互信息：
相对熵：可以度量两个随机变量的“距离”。一般的，D(p||q)不等于D(q||p)。

整理相对关系：

H（X | Y）= H（X , Y）- H（Y）
H（X | Y）= H（X）- I（X , Y）
I（X , Y）= H（X）+ H（Y）- H（X , Y）

利用图形化表示关系：

熵性质： 0 <= H(x) <= log |x|

最大熵模型

概率平均分布等价于 熵最大

最大熵的一般模型：

最大熵模型有两点要注意，我们承认已知的条件，并且还要坚持无偏估计。也就是，最大熵的约束条件中，对于未知的全部取平均，即认为他们是等可能发生的。

模型总结：

对于以上，可以构造拉格朗日函数来求解极值问题。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。