机器学习中各种熵(Entropy)的总结

信息熵 information entropy

1.量化信息

一条信息的信息量大小和它的不确定性有直接的关系,信息量的度量就等于不确定性的多少。换言之,概率越小,不确定性越大,信息所包含的信息量就越大。对于一件确定的事情,其信息量就为0。

考虑一个离散的随机变量x,那么信息的量度 I ( x ) I(x) I(x)应满足以下条件:

  • 单调性:随机变量发生的概率 p ( x ) p(x) p(x)概率越小,其信息量应越大
  • 非负性:概率 p ( x ) ∈ [ 0 , 1 ] p(x)∈[0,1] p(x)[0,1],信息量应非负
  • 可加性:如果我们有两个不相关的事件 x x x y y y,那么观察两个事件同时发生时获得的信息量应该等于观察到事件各自发生时获得的信息之和。即 I ( x , y ) = I ( x ) + I ( y ) I(x,y)=I(x)+I(y) I(x,y)=I(x)+I(y)

因为两个事件是独立不相关的,因此有 p ( x , y ) = p ( x ) p ( y ) p(x,y)=p(x)p(y) p(x,y)=p(x)p(y)
根据这些性质,我们可以很容易找到一个符合条件的函数:负对数,即:
I ( x ) = − log ⁡ p ( x ) I(x)=-\log p(x) I(x)=logp(x)
注:

  • log ⁡ \log log的基可以任意选取。信息论中基常常选择为2,因此信息的单位为比特bits;而机器学习中基常常选择为自然常数,因此单位常常被称为奈特nats
  • 因为 p ( x ) p(x) p(x)可能为0,而 log ⁡ 0 \log0 log0无意义,所以此处定义 0 log ⁡ 0 = 0 0\log0=0 0log0=0

2.信息熵

如果把这个事件的所有可能性罗列出来,就可以求得该事件信息量的期望,也即信息熵:
H ( X ) = E [ I ( x ) ] = − ∑ x ∈ X p ( x ) log ⁡ p ( x ) H(X)=\mathbb E[I(x)]=-\sum_{x\in X}p(x)\log p(x) H(X)=E[I(x)]=xXp(x)logp(x)
信息熵反映了一个系统的无序化(有序化)程度,一个系统越无序,信息熵就越高。显然,随机变量的取值个数越多,状态数也就越多,信息熵就越大,混乱程度就越大。当随机分布为均匀分布时,熵最大。

3.联合熵

将一维随机变量分布推广到多维随机变量分布,则可得联合熵 (Joint entropy) 为:
H ( X , Y ) = − ∑ x , y p ( x , y ) log ⁡ p ( x , y ) = − ∑ i = 1 n ∑ j = 1 m p ( x i , y i ) log ⁡ p ( x i , y i ) H(X,Y)=-\sum_{x,y}p(x,y)\log p(x,y)=-\sum_{i=1}^n\sum_{j=1}^mp(x_i,y_i)\log p(x_i,y_i) H(X,Y)=x,yp(x,y)logp(x,y)=i=1nj=1mp(xi,yi)logp(xi,yi)


条件熵 conditional entropy

条件熵 H ( Y ∣ X ) H(Y|X) H(YX)表示在已知随机变量 X X X的条件下随机变量 Y Y Y的不确定性。定义为 X X X给定条件下 Y Y Y的条件概率分布的熵对 X X

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值