机器学习最大熵模型

最新推荐文章于 2023-10-07 16:26:02 发布

EdVzAs

最新推荐文章于 2023-10-07 16:26:02 发布

阅读量520

点赞数

文章标签：机器学习信息熵最大熵模型 GIS IIS

本文链接：https://blog.csdn.net/weixin_46131409/article/details/119002424

版权

一.信息熵
在这里插入图片描述
1.信息熵
(1)概述:

该概念由克劳德·艾尔伍德·香农在1948年首次提出,最初来自于热力学中熵的概念.为避免混淆,故称为信息熵(Entropy).这是1个用于度量信息的不确定性的抽象概念.由于1条信息的信息量的大小与其不确定性有直接关系,如为了弄清楚1件高度不确定的事,就需要大量信息,因此对不确定性的度量就相当于对信息量(或预期需求的信息量)的度量

(2)定义:

信息熵 $H (X)$ 被定义为 $H(X)=-\sum_x{P(x)\log_2P(x)}$
单位为比特(bit).信息熵也可以 $e$ 为底数,即 $H(X)=-\sum_x{P(x)\ln P(x)}$ 此时单位为奈特(nat).变量的不确定性越大,信息熵也就越大:当 $X\sim U(a,b)$ 时,信息熵最大;当 $X$ 为定值时,信息熵最小;在给定均值 $μ$ 和方差 $σ^2$ 的前提下,当 $X\sim N(μ,σ^2)$ 时,信息熵最大

(3)最大熵定理:

最大熵定理表明 $0≤H(X)≤\log{|X|}$

(4)信息熵的加总:

各部分的信息熵可以进行加总:设总信息熵为 $H (X)$ ,第 $i$ 部分的信息熵为 $H_i(X)$ ,第 $i$ 部分占总体的比例为 $p_i$ ,则 $H(X)=\displaystyle\sum_{i=1}^mp_iH_i(X)$

2.联合熵
(1)概述:

联合熵(Joint Entropy)用于度量2个事件共同发生时的不确定性

(2)定义:

随机变量 $X, Y$ 的联合熵被定义为 $H(X,Y)=-\sum_{x,y}P(x,y)\log_2P(x,y)$

3.条件熵
(1)概述:

条件熵(Conditional Entropy)用于度量在1个事件发生的前提下,另1个事件的不确定性

注:当熵和条件熵中的概率由数据估计(特别是极大似然估计)得到时,称为经验熵(Empirical Entropy)和经验条件熵(Empirical Conditional Entropy)

(2)定义:

随机变量 $X, Y$ 的条件熵被定义为 $H(X\,|\,Y)=H(X,Y)-H(Y)=-\sum_{x,y}P(x,y)\log_2P(x\,|\,y)$ 可证明 $H(X\,|\,Y)≤H(X)$

4.相对熵
(1)概述:

相对熵(Relative Entropy)又称交叉熵/互熵(Cross Entropy),鉴别信息(Authentication Information),库尔贝克-莱布勒熵(Kullback-Leibler Entropy),库尔贝克-莱布勒散度(Kullback-Leibler Divergence;KL Divergence)或信息散度(Information Divergence),是2个概率分布间差异的非对称性度量

(2)定义:

概率分布 $P (x), Q (x)$ 的相对熵被定义为 $KL(P\,||\,Q)=\sum_xP(x)\frac{\log_2P(x)}{\log_2Q(x)}=E_{x\sim P(x)}(\log_2\frac{P(x)}{Q(x)})≥0$ 当且仅当 $P=Q,KL(P\,||\,Q)=0$ .通常 $KL(P\,||\,Q)≠KL(Q\,||\,P)$

(3)概率分布的近似:

假设存在某个未知的概率分布 $P$ ,希望使用概率分布 $Q$ 来近似 $P$ ,则有2种可能的目标:
①目标为 $\underset{Q}{\min}\:{KL(Q\,|\,P)}$ 此时需要在 $P$ 接近0的位置, $Q$ 也尽可能接近0,会得到比较窄的分布
②目标为 $\underset{Q}{\min}\:{KL(P\,|\,Q)}$ 此时需要在 $P$ 远离0的位置, $Q$ 也尽可能远离0,会得到比较宽的分布

5.互信息
(1)概述:

互信息(Mutual Information)用于度量1个事件中包含的关于另1个事件的信息量

(2)定义:

随机变量 $X, Y$ 的互信息被定义为 $I(X,Y)=KL(P(x,y)\,||\,P(x)P(y))=\sum_{x,y}P(x,y)\frac{\log_2P(x,y)}{\log_2P(x)P(y)}$

(3)互信息与联合熵:

可证明 $I(X,Y)=H(X)-H(X\,|\,Y)=H(X)+H(Y)-H(X,Y)$ 有些文献使用上述2式之一定义互信息

二.最大熵模型
1.最大熵原理:

"最大熵原理"(Maximum Entropy Principle)认为:在所有可能的概率模型中,熵最大的模型是最好的模型.若模型需要满足一些约束条件,则
最大熵原理要求在所有满足已知约束条件的模型中,找到熵最大的那个.也就是说在满足所有约束条件的前提下,不对未知情况做任何主观假设(称为
"无偏(好)原则",要求概率分布尽可能均匀).这时模型的熵最大,预测风险最小

2.最大熵模型

参见:https://zhuanlan.zhihu.com/p/29978153,https://blog.csdn.net/v_july_v/article/details/40508465

(1)概念:

"最大熵模型"(Maximum Entropy Model)是将最大熵原理应用到分类问题而得到的模型,即所有满足已知约束条件的模型中熵(通常使用条件
熵)最大(等价于概率分布最均匀)的那个,比如:

已知"学习"可能是动词或名词;可能是主语,谓语,宾语或定语.令 $x_1$ 表示"学习"为名词, $x_2$ 表示"学习"为动词, $y_1$ 表示"学习"为主语, $y_2$ 表示"学习"为谓语, $y_3$ 表示"学习"为宾语, $y_4$ 表示"学习"为定语.易知模型应满足 $P(x_1)+P(x_2)=1\\P(y_1)+P(y_2)+P(y_3)+P(y_4)=1$ 根据无偏好原则,模型应满足 $P(x_1)=P(x_2)\\P(y_1)=P(y_2)=P(y_3)=P(y_4)$ 故最优模型为 $P(x_1)=P(x_2)=\frac{1}{2}\\P(y_1)=P(y_2)=P(y_3)=P(y_4)=\frac{1}{4}$ 若从其他渠道得知 $P(y_4)=\frac{1}{20}$ ,则最优模型变为

最低0.47元/天解锁文章

EdVzAs

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习最大熵模型

一.信息熵1.信息熵(1)概述:该概念由克劳德·艾尔伍德·香农在1948年首次提出,最初来自于热力学中熵的概念.为避免混淆,故称为信息熵(Entropy).这是1个用于度量信息的不确定性的抽象概念.由于1条信息的信息量的大小与其不确定性有直接关系,如为了弄清楚1件高度不确定的事,就需要大量信息,因此对不确定性的度量就相当于对信息量(或预期需求的信息量)的度量(2)定义:信息熵H(X)H(X)H(X)被定义为H(X)=−∑xP(x)log⁡2P(x)H(X)=-\sum_x{P(x)\log_
复制链接

扫一扫