信息熵+互信息(信息增益)


交叉熵->信息熵->KL散度

信息增益

信息量

信息奠基人香农(Shannon)认为“信息是用来消除随机不确定性的东西”,也就是说衡量信息量的大小就是看这个信息消除不确定性的程度。

“太阳从东边升起”,这条信息并没有减少不确定性,因为太阳肯定是从东边升起的,这是一句废话,信息量为0。

”2018年中国队成功进入世界杯“,从直觉上来看,这句话具有很大的信息量。因为中国队进入世界杯的不确定性因素很大,而这句话消除了进入世界杯的不确定性,所以按照定义,这句话的信息量很大。

根据上述可总结如下:信息量的大小与信息发生的概率成反比。概率越大,信息量越小。概率越小,信息量越大。

设某一事件发生的概率为P(x),其信息量表示为:
I ( x ) = − log ⁡ ( P ( x ) ) (1) \mathrm{I}(\mathrm{x})=-\log (\mathrm{P}(\mathrm{x}))\tag{1} I(x)=log(P(x))(1)
其中 I ( x ) \mathrm{I}(\mathrm{x}) I(x)表示信息量,这里 l o g ⁡ log ⁡ log表示以e为底的自然对数。

信息熵

信息熵也被称为熵,用来表示所有信息量的期望
期望是试验中每次可能结果的概率乘以其结果的总和。
所以信息量的熵可表示为:(这里的 X X X是一个离散型随机变量)
H ( X ) = − ∑ i = 1 n P ( x i ) log ⁡ ( P ( x i ) ) ( X = x 1 , x 2 , x 3 … , x n ) (2) \mathrm{H}(\mathbf{X})=-\sum_{\mathrm{i}=1}^{\mathrm{n}} \mathrm{P}\left(\mathrm{x}_{\mathrm{i}}\right) \log \left(\mathrm{P}\left(\mathrm{x}_{\mathrm{i}}\right)\right)\quad\left(\mathbf{X}=\mathrm{x}_{1}, \mathrm{x}_{2}, \mathrm{x}_{3} \ldots, \mathrm{x}_{\mathrm{n}}\right)\tag{2} H(X)=i=1nP(xi)log(P(xi))(X=x1,x2,x3,xn)(2)

使用明天的天气概率来计算其信息熵:
在这里插入图片描述
H ( X ) = − ( 0.5 ∗ log ⁡ ( 0.5 ) + 0.2 ∗ log ⁡ ( 0.2 ) + 0.3 ∗ log ⁡ ( 0.3 ) ) (3) \mathrm{H}(\mathbf{X})=-(0.5 * \log (0.5)+0.2 * \log (0.2)+0.3 * \log (0.3))\tag{3} H(X)=(0.5log(0.5)+0.2log(0.2)+0.3log(0.3))(3)

对于0-1分布的问题,由于其结果只用两种情况,是或不是,设某一件事情发生的概率为 P ( x ) \mathrm{P}(\mathrm{x}) P(x),则另一件事情发生的概率为 1 − P ( x ) 1 - \mathrm{P}(\mathrm{x}) 1P(x),所以对于0-1分布的问题,计算熵的公式可以简化如下:

H ( X ) = − ∑ n = 1 n P ( x i log ⁡ ( P ( x i ) ) ) = − [ P ( x ) log ⁡ ( P ( x ) ) + ( 1 − P ( x ) ) log ⁡ ( 1 − P ( x ) ) ] = − P ( x ) log ⁡ ( P ( x ) ) − ( 1 − P ( x ) ) log ⁡ ( 1 − P ( x ) ) (4) \begin{array}{c} \mathrm{H}(\mathbf{X})=-\sum_{\mathrm{n}=1}^{\mathrm{n}} \mathrm{P}\left(\mathrm{x}_{\mathrm{i}} \log \left(\mathrm{P}\left(\mathrm{x}_{\mathrm{i}}\right)\right)\right) \\ =-[\mathrm{P}(\mathrm{x}) \log (\mathrm{P}(\mathrm{x}))+(1-\mathrm{P}(\mathrm{x})) \log (1-\mathrm{P}(\mathrm{x}))] \\ =-\mathrm{P}(\mathrm{x}) \log (\mathrm{P}(\mathrm{x}))-(1-\mathrm{P}(\mathrm{x})) \log (1-\mathrm{P}(\mathrm{x}))\tag{4} \end{array} H(X)=n=1nP(xilog(P(xi)))=[P(x)log(P(x))+(1P(x))log(1P(x))]=P(x)log(P(x))(1P(x))log(1P(x))(4)

给出熵和条件熵的定义。在信息论与概率统计中,熵(entropy)是表示随机变量不确定性的度量。设 X X X 是一个取有限值的离散随机变量,其概率分布为:

P ( X = x i ) = p i , i = 1 , 2 , ⋯   , n (5) P(X=x_i)=p_i,\quad i=1,2,\cdots,n \tag{5} P(X=xi)=pi,i=1,2,,n(5)
则随机变量 X X X 的熵定义为:
H ( X ) = − ∑ i = 1 n p i log ⁡ p i (6) H(X)=-\sum_{i=1}^np_i \log p_i \tag{6} H(X)=i=1npilogpi(6)
在公式2,若 p i = 0 p_i=0 pi=0,则定义 0 log ⁡ 0 = 0 0\log 0=0 0log0=0。通常,公式2中的对数以2为底或以 e e e为底(自然对数),这时熵的单位分别称作比特(bit)或纳特(nat)。由此定义可知,熵只依赖于 X X X的分布,而与 X X X的取值无关,所以也可将 X X X的熵记作 H ( p ) H(p) H(p), 即
H ( p ) = − ∑ i = 1 n p i log ⁡ p i (7) H(p)=-\sum_{i=1}^{n}p_i\log p_i\tag{7} H(p)=i=1npilogpi(7)

条件熵

条件熵 H ( Y ∣ X ) H(Y|X) H(YX)表示在已知随机变量 X X X的条件下随机变量 Y Y Y的不确定性。随机变量 X X X给定的条件下随机变量 Y Y Y的条件熵(conditional entropy) H ( Y ∣ X ) H(Y|X) H(YX),定义为 X X X 给定条件下, Y Y Y的条件概率分布的熵对 X X X的数学期望:
H ( Y ∣ X ) = ∑ i = 1 n p i H ( Y ∣ X = x i ) (8) H(Y|X)=\sum_{i=1}^np_i H(Y|X=x_i)\tag{8} H(YX)=i=1npiH(YX=xi)(8)
这里 p i = P ( X = x i ) , i = 1 , 2 , ⋯   , n p_i=P(X=x_i), i=1,2,\cdots, n pi=P(X=xi),i=1,2,,n
当熵和条件熵中的概率由数据估计(特别是极大似然估计)得到时,所对应的熵与条件熵分别称为经验熵(empirical entropy)和经验条件熵(empirical conditional entropy).

信息增益

信息增益(information gain)表示得知特征 X X X的信息而使得类 Y Y Y的信息的不确定性减少的程度。
特征 X X X对训练数据集 Y Y Y的信息增益 g ( Y , X ) g(Y,X) g(Y,X),定义为集合 Y Y Y的经验熵 H ( Y ) H(Y) H(Y)与特征 X X X给定条件下 Y Y Y的经验条件熵 H ( Y ∣ X ) H(Y|X) H(YX)之差,即:
g ( Y , X ) = H ( Y ) − H ( Y ∣ X ) (9) g(Y,X)=H(Y) - H(Y|X)\tag{9} g(Y,X)=H(Y)H(YX)(9)

一般地,熵 H ( Y ) H(Y) H(Y)与条件熵 H ( Y ∣ X ) H(Y|X) H(YX)之差称为互信息(mutual information)。决策树学习中的信息增益等价于寻训练数据集中类与特征的互信息。

决策树学习应用信息增益准则选择特征。给定训练数据集 Y Y Y和特征 X X X,经验熵 H ( Y ) H(Y) H(Y)表示对数据集 Y Y Y进行分类的不确定性。而经验条件熵 H ( Y ∣ X ) H(Y|X) H(YX)表示在特征 X X X给定的条件下对数据集 Y Y Y进行分类的不确定性。那么它们的差,即信息增益,就表示由于特征 X X X而使得对数据集 Y Y Y的分类的不确定性减少的程度。
显然,对于数据集 Y Y Y而言,信息增益依赖于特征,不同的特征往往具有不同的信息增益,信息增益大的特征具有更强的分类能力,

g g g越大,说明越确定.
根据信息增益准则的特征选择方法是:对训练数据集(或子集) Y Y Y,计算其每个特征的信息增益,并比较它们的大小,选择信息增益最大的特征。

  • 9
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值